大模型“考生”们高考数学普遍不及格，业内解释为何“偏科”

admin · 发表于 2024-9-14 17:05:53

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

日前，由上海人工智能实验室推出的司南评测体系OpenCompass选取了零一万物、智谱AI、阿里云通义等6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。据悉，此次评测采用全国新课标I卷，并让具有高考评卷经验的教师人工阅卷评分。

评测结果显示，Qwen2-72B、GPT-4o及书生浦语2.0文曲星成为本次大模型高考的三甲，得分率均超过70%。不过，一个明显的趋势是，大部分模型“考生”出现了偏科现象，其中语文、英语科目表现良好，但在数学方面全军覆没，连及格分都拿不到。

阅卷教师点评称，大模型“考生”的文言文理解能力差距较大，回答作文题时像在回答问答题，不像人类考生一样能使用举例论证、名人名言、人物

游客，您当前的用户组是：“游客”，以下内容需要正式会员可见，请升级到正式会员（点击进入）后继续查看。

大模型“考生”们高考数学普遍不及格，业内解释为何“偏科”

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

相关帖子