大模型“考生”们高考数学普遍不及格,业内解释为何“偏科”
日前,由上海人工智能实验室推出的司南评测体系OpenCompass选取了零一万物、智谱AI、阿里云通义等6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。据悉,此次评测采用全国新课标I卷,并让具有高考评卷经验的教师人工阅卷评分。评测结果显示,Qwen2-72B、GPT-4o及书生浦语2.0文曲星成为本次大模型高考的三甲,得分率均超过70%。不过,一个明显的趋势是,大部分模型“考生”出现了偏科现象,其中语文、英语科目表现良好,但在数学方面全军覆没,连及格分都拿不到。
阅卷教师点评称,大模型“考生”的文言文理解能力差距较大,回答作文题时像在回答问答题,不像人类考生一样能使用举例论证、名人名言、人物素材等手法,不完全理解“潜台词”,也不懂“暗喻”等手法。而在做数学题时候,大模型“考生”的操作过程极具迷惑性,甚至在答题时出现了过程错误、答案正确的情况。
大模型“考生”无法理解潜台词,不会引用名人名言
上海人工智能实验室官方透露,司南评测体系团队选取了GPT-4o及在2024年高考前开源的6个模型,共计7个模型来参与本次“大模型高考”评测。
http://kuailexuexi.net/data/attachment/forum/20240914/1726304753727_0.jpg
据悉,此次针对大模型考生进行评测,采用的是全国新课标I卷,参与评测的所有开源模型开源时间均早于高考,这确保评测了“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。
评测结果显示,总分前三名Qwen2-72B、GPT-4o、InternLM2-20B-WQX对应得分率分别为72.1%、70.5%和70.4%。其中大部分模型在“语言”本质上的表现良好,语文平均得分率为67%,英语更是达到了81%。
http://kuailexuexi.net/data/attachment/forum/20240914/1726304753727_1.jpg
不过,阅卷老师提出,在语文这一科目上,大模型与人类考生相比,在答题时仍有差距。一是大模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大;二是大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。三是多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。
而在英语科目上,各大大模型整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低,同时大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。
大模型数学普遍不及格,与数据情况、推理逻辑相关
虽然英语和语文成绩可圈可点,但从单科成绩上看,大模型“考生”数学不太行,普遍出现了偏科、不及格的状况。数据显示,数学科目各大“考生”平均得分率仅为36%(150分满分)。上海人工智能实验室给出的数据显示,数学成绩前三名为Qwen2-72B、GPT-4o、InternLM2-20B-WQX,分别得分为70、73、75,这意味着即使是本次测评的前三名,他们离及格分数线(90分)仍有一定距离。
阅卷老师分析称,此次参与大考的大模型在数学主观题回答上相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。虽然大模型的公式记忆能力较强,但无法在解题过程中灵活引用。
针对大模型答数学题普遍“吃瘪”的问题,国内某头部大模型负责人就曾表示,大模型的指令遵循或者说推理能力通常是把一个指令背后的意思拆解出来,但数学题既包含规则性,又包含对各种思维的考察,解题逻辑和正常用大模型时的推理逻辑不一定完全一样。同时该负责人还提到,从更广泛的大模型应用角度来看,AI能不能精准遵循指令是近一段时间内比较重要的事情,真正的商业价值也比较大可能来自于此,而解数学题对目前的AI来说还是一件比较“炫技”的事情。
另有业内人士向南都记者表示,目前来看大模型的数理能力相对较差的情况在中外都是一样的,“打个比方可以这样讲,大模型就是偏科,文科强理科弱,这个情况在一段时间内也不会得到明显的改善”。
该人士进一步提出,这种情况与文理科的语料数据情况、推理逻辑情况相关。“第一,文科的语料数据丰富多样,有利于训练大模型,而理科的语料主要是数字和符号,形式单一,数据资源少,不利于训练大模型。第二,文科与理科逻辑不同。文科推理预测,有一两处错误,不会影响长文本理解,但是理科一旦某个数字或符号推理错误,结果就是南辕北辙。”
采写:南都记者 林文琪
页:
[1]