返回列表 发新帖

国产AI大战高考物理,第1题全对,第2题开始放飞

[复制链接]

1万

主题

2

回帖

4万

积分

管理员

积分
48073
发表于 2024-9-12 05:02:58 |显示全部楼层 | 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

端午佳节,有的地方高考已经结束,有的考生还奋战在考场上。

先祝大家都心想事成,考出水平。

陆陆续续,文理综各个科目的考试题目开始在网上流出,那么语文数学之后,也是时候让大模型们继续来挑战一波了。



考题方面,先给大模型们来一份辽宁物理——

多解释一嘴,新高考改革下大部分省份已经取消了文理分科,采用3+1+2或3+3的新模式,也就是物理化学生物现在是拆开考的。

那么闲话少叙,我们有请参赛AI助手——

通义千问、文心一言、Kimi、智谱清言、豆包、海螺AI、腾讯元宝、讯飞星火、天工、百小应、万知、商量。



Round 1:单选题

这份物理卷共有10道选择题,其中1-7题为单选题,总计28分。

1、3两题不涉及图片解析,人类考官直接把题目扔给了大模型:



图片题给出的提示词统一为:查看图中题目,给出答案。



在看详细答案之前,心急的看官们可以先扫一眼“考试”结果(测试方法比较简单粗暴,不能完全反映各AI真实水平,仅图一乐):



文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,豆包、天工、智谱清言正确率为1/2。

接下来,就来看看大模型们的具体表现。

单选题中,准确率最高的是第一题,一道有关标量矢量的概念题,参赛大模型百分百通过。

到了第二题,大模型们就开始各有各的想法了。题目是:



来看看成功得分的选手们的回答:

通义千问



文心一言



海螺AI



讯飞星火



4位选手中,文心一言和讯飞星火进行了逐个答案的分析,海螺AI则最言简意赅,只回答了答案没给过程。

另一道正确率比较高的题,是难度较大的第5题。



但答对这道题的选手名单有所不同,讯飞星火、海螺AI依然在列,另外两位换成了Kimi和腾讯元宝。

Kimi



腾讯元宝



和海螺AI一样,腾讯元宝也是惜字如金型(doge)。

另外一个有意思的现象是,有的大模型选手尽管答案不对,但还挺有考试技巧的。

比如ChatGLM,在面对双缝干涉实验中,“哪种说法可以使相邻两条亮纹中央间距变小”这个问题时,它一通分析觉得答案全错,但还是退而求其次挑了一个看上去相对正确的答案。



Round 2:多选题

再来看看多选题(18分)的情况。

p.s. 在多选题作答过程中,人类考官在提示词中提醒了选手们这是“多选题”。



根据多选题判卷规则,全部选对得满分,部分选对得一半分,有选错不得分,表现最佳的是海螺AI(2道题全对,1道题部分对),其次是通义千问、文心一言和万知(1道题全对,2道题部分对)。

和单选题的情况类似,大模型们正确率最高的第8题是一道概念题:

X射线光电子能谱仪是利用X光照射材料表面激发出光电子,并对光电子进行分析的科研仪器,用某一频率的X光照射某金属表面,逸出了光电子,若增加此X光的强度,则( )

A. 该金属的逸出功增大

B. X光的光子能量不变

C. 逸出的光电子最大初动能增大

D. 单位时间逸出的光电子增多

第9题有两位选手选中了全部正确选项:海螺AI和万知。



来看看万知的具体回答:



今日份的测试,就先到这里,你觉得大模型们的表现如何?至少在这份物理卷子46分的选择题里,还是有不少选手能拿到及格分了。

学习交流
小学交流
初中交流
高中交流
大学交流
小学学习
小学语文
小学数学
小学英语
初中学习
初中语文
初中数学
初中英语
初中物理
初中化学
初中学习
初中生物
初中地理
初中历史
初中政治
高中学习
高中语文
高中数学
高中英语
高中物理
高中化学
高中学习
高中生物
高中地理
高中历史
高中政治
成人考试
考研总复习
四六级英语考试
公务员考试
事业单位考试
专升本考试
成人考试
自学考试
成人高考
各类就业考试
快速回复 返回顶部 返回列表