返回列表 发新帖

复旦测评13家大模型高考数学成绩:GPT-4o被国内AI大模型超越!

[复制链接]

4万

主题

3

回帖

12万

积分

管理员

积分
124972
发表于 2024-9-14 14:06:42 |显示全部楼层 | 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队做了一个极具创意和挑战性的尝试,开创性地用高考数学题来评测大模型!

根据公开的2024年高考数学大模型评测结果,阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名,以及高考数学新II卷的第二名和第一名,两份考卷的评测中,而GPT-4o均列第三名。

据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对GPT-4o、文心一言、阿里千问、字节豆包等13家大模型进行了评测。

A
游客,您当前的用户组是:“游客”,以下内容需要正式会员可见,请升级到正式会员(点击进入)后继续查看。
学习交流
小学交流
初中交流
高中交流
大学交流
小学学习
小学语文
小学数学
小学英语
初中学习
初中语文
初中数学
初中英语
初中物理
初中化学
初中学习
初中生物
初中地理
初中历史
初中政治
高中学习
高中语文
高中数学
高中英语
高中物理
高中化学
高中学习
高中生物
高中地理
高中历史
高中政治
大学考试
考研总复习
四六级英语考试
公务员考试
事业单位考试
专升本考试
大学考试
自学考试
成年人高考
各类就业考试
快速回复 返回顶部 返回列表