返回列表 发新帖

大模型 2024 高考发榜,豆包等三款国产 AI 考上文科一本线

[复制链接]

1万

主题

2

回帖

4万

积分

管理员

积分
48073
发表于 5 天前 |显示全部楼层 | 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
眼下,全国各地的高考成绩陆续出炉,各种关于考生考了多少分的新闻也在不断登上头条。

而最近,有一批特殊考生的成绩也出炉了,他们就是由各家 AI 大模型组成的“考试天团”。

大模型考上文科本科,豆包拿下国产 AI 最高分

6 月 24 日,在极客公园最新发布的高考新课标 Ⅰ 卷大模型评测报告中,GPT-4o 以 562 分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是 542.5 分。

再往后,依次是百度文心一言 4.0 的 537.5 分、百川智能“百小应”的 521 分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为 521 分,豆包等三款国产 AI 成功冲上一本线。



我们知道,当前生成式 AI 大模型技术正处于商用普及的初期,小到每个人的工作、生活,大到千行百业的生产、创作,都在逐渐受到来自 AI 大模型技术的赋能。

但同时我们也应该看到,生成式 AI 尚处于发展初级阶段,AI 是否足够“聪明”,仍然是影响相关技术和产品体验的基本要素。

所以,用高考题来测试 AI 大模型,确实不失为一个有趣又直观的评判大模型能力的方式。

下面让我们具体看看不同大模型在面对高考试卷时的表现。

语言能力是优势,豆包大模型作文获好评

具体来看这次高考卷大模型评测的详细情况。首先,语文、英语的语言类考试,是大模型有能力和人类考生较量的赛场,多家产品能拿到客观题目的满分或接近满分。

凭借中文语言的“主场优势”,三款国产大模型产品获得了语文考试前三名,分别是百小应、字节豆包和腾讯元宝,得分依次为 128 分、125.5 分和 120.5 分。除了少数开放性的阅读理解和语言文字运用问题,各家大模型主要丢分在语文写作上。



(图自:极客公园)

作为本次评测的语文作文阅卷人,北京市级骨干教师、怀柔区语文学科带头人夏老师曾多次参加全国高考语文阅卷。

夏老师认为:“Al 写出的文章大多有清晰完整的结构,有逻辑性,语言通顺流畅。但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。”

不过这其中,豆包大模型的作文在匿名阅卷中,获得阅卷老师的好评:

文章中显出的对就业结构、伦理方面的担心,展现出豆包已经具有不错的思想深度和思辨能力。在立住“问题”后,豆包随即用反问句自然过渡,引出三个排比段提出解决问题的方法 —— 保持“问题意识”。其中用发展的眼光分析问题,结合现实生活揭示问题产生的根源和危害的部分颇为亮点,并且整体上“结构严谨,层层推进,语句流畅,认识全面”。

英语写作同样是大模型的一大难题。本次评测默认所有大模型的听力都获得 30 分满分。在阅读和语言运用两大项客观问题的考试上,GPT-4o、百小应、通义千问获得 80 分满分,豆包和文心一言 4.0 也接近满分。

但是在 40 分的写作考试中,最高分只有 29 分,分别由 GPT-4o 和百小应获得,各家模型的英语写作主要丢分在表达空泛、缺少细节上。如果大模型在未来能够提升写作能力,获得高考满分并非难事。

在由历史、地理、政治组成的新课标文综考卷评测中,GPT-4o 获得 237 分的成绩,平均分达到 79 分,优于多数人类考生。国产大模型产品中,豆包的文综成绩最高,分数达到 224.5 分,其中历史科目拿到 82.5 分,在所有 9 款大模型中得分第一。

政治考试中,GPT-4o 出人意料的获得了 88 分的最高分,百小应和豆包得分超过 80。地理考卷则有大量图片问题,对一众大模型是不小的挑战,图像理解能力较强的 GPT-4o 得到最高分,但仅有 68 分。

河南高考分数段统计数据显示,GPT-4o 的 562 分在文科考生中排名 8811 名,相当于人类考生的前 2.45%。而仅次于 GPT-4o、位列国产 AI 第一名的豆包大模型文科成绩 542.5 分,超过文科一本线 20 分,处于前 4.27% 的位置。

由此可见,在过去一年多时间里,国产 AI 技术能力获得了长足进步,目前已经接近国际顶尖大模型的水平。

理科考试成绩有待提高,AI 并非全能

与人类顶尖考生相比,大模型在数学、物理、化学等数理学科上差距极大,包括 GPT-4o 在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分,大模型的理科最好成绩还无法进入人类考生的前 30%。

以数学试卷为例,9 款大模型产品中,仅 GPT-4o、文心一言 4.0 和豆包获得 60 分以上成绩(满分 150 分),目前的大模型只能正确推理步骤相对简单的问题。

据测试机构透露,豆包等大模型能准确运用求导公式和三角函数定理,但是面对较为复杂的推导和证明问题就很难继续得分。

重点考查实验探究能力的化学和物理试卷,各模型平均分更是只有 34 分和 39 分(满分为 100 和 110)。化学单项最高分由豆包获得,成绩为 49.5 分,GPT-4o 仅有 42 分。

大模型在应对考试的灵活性上也不如人类。例如物理有一道送分题,人类考生根据“时间不会倒流”可以排除错误选项,轻易选对正确答案“C”,大模型则几乎全军覆没。



要学会像人类一样思考和解决问题,大模型还有很长的路要走。

不过,据麦肯锡报告分析,大模型的价值创造潜力惊人,到 2030 年,有望在全球推动 49 万亿人民币的经济增量。

而目前,从技术创新到商业落地,大模型已经开始在为我们的日常工作生活和各行业的 AI 转型提供动能。

虽然生成式 AI 目前确实还有不足,路漫漫其修远,但相信在以豆包大模型为代表的众多生成式 AI 技术和产品的共同发展和努力下,未来简单的高考试卷对于它们来说将不再是挑战,更广泛的应用场景唱,给出更加完美的答卷。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
学习交流
小学交流
初中交流
高中交流
大学交流
小学学习
小学语文
小学数学
小学英语
初中学习
初中语文
初中数学
初中英语
初中物理
初中化学
初中学习
初中生物
初中地理
初中历史
初中政治
高中学习
高中语文
高中数学
高中英语
高中物理
高中化学
高中学习
高中生物
高中地理
高中历史
高中政治
成人考试
考研总复习
四六级英语考试
公务员考试
事业单位考试
专升本考试
成人考试
自学考试
成人高考
各类就业考试
快速回复 返回顶部 返回列表