返回列表 发新帖

AI高考数学都能考100多分了?

[复制链接]

1万

主题

2

回帖

4万

积分

管理员

积分
47713
发表于 昨天 06:06 |显示全部楼层 | 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
大模型又双叒叕进化了。

OpenAI凌晨发布新一代大模型,据说在推理能力上已经可以比肩人类。并且这次没有像Sora一样的画饼,发布即可用。



那就让我们看看这个新模型到底是怎么个事





草莓计划

其实这次OpenAI的发布早有"预谋",在萨姆奥特曼的twitter上,一直都在暗示,即将有一款名为"草莓"的AI项目与大家见面!



这草莓是啥呢?就是之前一直传言中可以"媲美"人类,达到AGI(通用人工智能)的大模型。草莓的使命,就是让AI具有推理,规划,甚至是自我学习的能力,从而帮助人类在医疗,科研,教育等有着更快更大的突破。

今天凌晨,我们终于看到了"草莓",只不过它的名字不是GPT5,而是o1。

根据官方的介绍,o1在推理相关的问题上,比GPT4o有着大幅度的提升。比如针对美国最聪明高中生的数学测试中,以前GPT4o平均只能在15道题答对1.8道,而o1的正确数量飙升到了12.5,如果微调下,o1可以超过美国高中生数学奥林匹克的分数线。



同样地,在编码比赛中,分数也从以前的11分干到了现在的89分,在博士级别的问答中,它也可以超过人类专家。

在信息奥林匹克上,经过微调的o1,分数整整提高到了1000分。这是什么概念呢?在人类中,只有7%的参赛者比AI强,剩下的93%都被AI击败了!



看完这些,我突然有种第一次见到Sora感觉,这视频真是AI生成的?人类智商最后的防线,就这么被AI攻破了?是不是OpenAI看AI要崩了,又一次画的大饼?



答案是什么,只有测过,才清楚。这次o1并没有像Sora一般不可"亵玩”,发布后,就全量推送给订阅用户,也就是说,任何人交上20美元,就可以立刻体验到这个划时代的大模型。

测试完,我有点慌了

那就废话少说,直接开测,学渣还是Jumping,我们一测便知!

我们分别用2024年新课标1卷的高考数学题和阿里巴巴全球数学竞赛预选赛的题目来测o1的推理能力。不过要说明的是,目前推送的是o1预览版,它的推理能力和正式版还有些许差距,所以将来看到的o1会比现在更强。

目前的o1还不能看图,所以这次我们把数学公式转换成LaTex格式,交给AI解答,并且今年新课标1卷的试题中,有两道是需要看图的,刨除这两道题的分数,总分在129分。



在题目输入对话框后,可以看到o1比普通大模型多了一个思考的过程。比如上图这道高考数学的多选题,它会先分析题目,然后再找需要用到知识。以这道题来讲,需要用的就是正态分布的知识,然后再去计算概率。



在这里也简单放下这道题o1的思考过程,大家可以看下,它整体的思路和人类思考确实非常像!



给AI的卷子判完,我直接慌了!91分!如果转换到150分,那就是105分呀,这已经超过我当年的高考分数了。

阿里巴巴数学竞赛的题比较特殊,其中大部分都是证明题,没有固定答案,所以我们就测试了6道具有准确答案的题,像下面这种:



答题的整个过程,和人类非常相似,概率论与数理统计忘光的我,基本上也能看明白个大概。



最终6个问题,o1回答对了3个,正确率在50%,虽然没有超过姜萍的93分,但作为AI来讲,也非常不错了,毕竟是国际数学比赛。



测完下来,感觉和AI相比,我自己像个弱智!当年我高考数学90多分,结果AI不仅在10分钟内做完题,还考了100多分。我连题目都看不懂的数学竞赛题,它能答对一半,虽然不如姜萍,但也能秒杀大部分人了。

说好的AI推理能力不如5岁小孩呢?OpenAI怎么突然就让AI推理能力,噌噌的,超过我这个360个月的婴儿了呢?



思维链,下个大模型的突破点

这其中的秘密就在于思维链(Chain of Thought),也就是上面提到过的把一个复杂问题,拆成多个小问题,依次解决的方法。

之前思维链都是作为提示词技巧来使用。想要AI帮你解决复杂问题,就把这个问题拆解成小问题,然后一个一个的输入给AI。

这次,OpenAI直接把拆解的过程交给AI,人类得到了彻底的解放!实测的结果大家也看到了,AI的逻辑推理能力确实得到了大跨步的前进!

那么OpenAI又是如何实现让AI自我完成思维链的呢?很可惜,目前的OpenAI早就Close了,因此这次并没有公布这些技术细节,但从传闻来看,大概是用到了强化学习。

也就是给AI设置一个规则,这一步逻辑正确+1分,错误-1分,分数越高越好,最终就有了今天的o1。当然其中有很多工程细节,这些都成为了OpenAI的护城河。

接下来可以肯定的是,思维链将成为其他家大模型的突破方向,到时候谁家模型分解问题分解的好,分解的正确将成为能否领先的关键。

除了数学,有了推理能力的AI在各个地方都有着更好应用。比如OpenAI官方就展示用o1,在不到10分钟内做出一个小游戏,网友在实际测试中,甚至做出了3D的贪吃蛇。



更让我意外的是,OpenAI还展示了o1在量子物理,基因学,经济学以及认知学带来的帮助,好家伙,这下AI都可以覆盖到这么前沿的领域了?



不过每一次AI突破,都有不小的"副作用",ChatGPT带来论文造假,Midjourney和Sora带来伪造新闻恐慌,这次o1的"副作用"更大。



之前GPT4安全测试,生物威胁等级为低,而在o1中,生物威胁不仅升级到了化学,生物,核子,放射威胁,等级也提升到中。





也就是说,"天网"离我们又进了。AI越强,它造成的破坏也越大,如何控制它,将成为和思维链一样重要的事情,就像我们都希望核子发电,而不希望它爆炸。

从今天开始,各大AI厂商就要考虑这个问题了,不过对于我,我更关心一个问题,就是以后我们还需要考试吗,实在要考的话,能不能让AI替我答一下,毕竟它比我分高!
学习交流
小学交流
初中交流
高中交流
大学交流
小学学习
小学语文
小学数学
小学英语
初中学习
初中语文
初中数学
初中英语
初中物理
初中化学
初中学习
初中生物
初中地理
初中历史
初中政治
高中学习
高中语文
高中数学
高中英语
高中物理
高中化学
高中学习
高中生物
高中地理
高中历史
高中政治
成人考试
考研总复习
四六级英语考试
公务员考试
事业单位考试
专升本考试
成人考试
自学考试
成人高考
各类就业考试
快速回复 返回顶部 返回列表