复旦测评13家大模型高考数学成绩：GPT-4o被国内AI大模型超越！

admin · 发表于 2024-9-14 14:06:42

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

近日，复旦大学自然语言处理（NLP）实验室LLMEVAL团队做了一个极具创意和挑战性的尝试，开创性地用高考数学题来评测大模型！

根据公开的2024年高考数学大模型评测结果，阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名，以及高考数学新II卷的第二名和第一名，两份考卷的评测中，而GPT-4o均列第三名。

据悉，LLMEval是由复旦大学NLP实验室推出的大模型评测基准，专注于评估专业领域的知识能力。评测团队表示，全新出炉的高考试题具备高度的独创性和保密性，是用来评测大模型的“绝好评测集合”。因此，团队在高考后第一时间对GPT-4o、文心一言、阿里千问、字节豆包等13家大模型进行了评测。

A

游客，您当前的用户组是：“游客”，以下内容需要正式会员可见，请升级到正式会员（点击进入）后继续查看。

复旦测评13家大模型高考数学成绩：GPT-4o被国内AI大模型超越！

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

相关帖子