小学,初中,中考,高中,高考,大学的教育资源分享-语文,数学,英语,物理,化学,生物,地理,历史知识

admin 发表于 2024-9-19 06:06:35

AI高考数学都能考100多分了？

大模型又双叒叕进化了。

OpenAI凌晨发布新一代大模型，据说在推理能力上已经可以比肩人类。并且这次没有像Sora一样的画饼，发布即可用。

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_0.webp

那就让我们看看这个新模型到底是怎么个事

！

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_1.jpg

草莓计划

其实这次OpenAI的发布早有"预谋"，在萨姆奥特曼的twitter上，一直都在暗示，即将有一款名为"草莓"的AI项目与大家见面！

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_2.webp

这草莓是啥呢？就是之前一直传言中可以"媲美"人类，达到AGI（通用人工智能）的大模型。草莓的使命，就是让AI具有推理，规划，甚至是自我学习的能力，从而帮助人类在医疗，科研，教育等有着更快更大的突破。

今天凌晨，我们终于看到了"草莓"，只不过它的名字不是GPT5，而是o1。

根据官方的介绍，o1在推理相关的问题上，比GPT4o有着大幅度的提升。比如针对美国最聪明高中生的数学测试中，以前GPT4o平均只能在15道题答对1.8道，而o1的正确数量飙升到了12.5，如果微调下，o1可以超过美国高中生数学奥林匹克的分数线。

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_3.webp

同样地，在编码比赛中，分数也从以前的11分干到了现在的89分，在博士级别的问答中，它也可以超过人类专家。

在信息奥林匹克上，经过微调的o1，分数整整提高到了1000分。这是什么概念呢？在人类中，只有7%的参赛者比AI强，剩下的93%都被AI击败了！

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_4.webp

看完这些，我突然有种第一次见到Sora感觉，这视频真是AI生成的？人类智商最后的防线，就这么被AI攻破了？是不是OpenAI看AI要崩了，又一次画的大饼？

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_5.webp

答案是什么，只有测过，才清楚。这次o1并没有像Sora一般不可"亵玩”,发布后，就全量推送给订阅用户，也就是说，任何人交上20美元，就可以立刻体验到这个划时代的大模型。

测试完，我有点慌了

那就废话少说，直接开测，学渣还是Jumping，我们一测便知！

我们分别用2024年新课标1卷的高考数学题和阿里巴巴全球数学竞赛预选赛的题目来测o1的推理能力。不过要说明的是，目前推送的是o1预览版，它的推理能力和正式版还有些许差距，所以将来看到的o1会比现在更强。

目前的o1还不能看图，所以这次我们把数学公式转换成LaTex格式，交给AI解答，并且今年新课标1卷的试题中，有两道是需要看图的，刨除这两道题的分数，总分在129分。

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_6.webp

在题目输入对话框后，可以看到o1比普通大模型多了一个思考的过程。比如上图这道高考数学的多选题，它会先分析题目，然后再找需要用到知识。以这道题来讲，需要用的就是正态分布的知识，然后再去计算概率。

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_7.gif

在这里也简单放下这道题o1的思考过程，大家可以看下，它整体的思路和人类思考确实非常像！

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_8.webp

给AI的卷子判完，我直接慌了！91分！如果转换到150分，那就是105分呀，这已经超过我当年的高考分数了。

阿里巴巴数学竞赛的题比较特殊，其中大部分都是证明题，没有固定答案，所以我们就测试了6道具有准确答案的题，像下面这种：

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_9.webp

答题的整个过程，和人类非常相似，概率论与数理统计忘光的我，基本上也能看明白个大概。

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_10.gif

最终6个问题，o1回答对了3个，正确率在50%，虽然没有超过姜萍的93分，但作为AI来讲，也非常不错了，毕竟是国际数学比赛。

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_11.webp

测完下来，感觉和AI相比，我自己像个弱智！当年我高考数学90多分，结果AI不仅在10分钟内做完题，还考了100多分。我连题目都看不懂的数学竞赛题，它能答对一半，虽然不如姜萍，但也能秒杀大部分人了。

说好的AI推理能力不如5岁小孩呢？OpenAI怎么突然就让AI推理能力，噌噌的，超过我这个360个月的婴儿了呢？

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_12.jpg

思维链，下个大模型的突破点

这其中的秘密就在于思维链（Chain of Thought），也就是上面提到过的把一个复杂问题，拆成多个小问题，依次解决的方法。

之前思维链都是作为提示词技巧来使用。想要AI帮你解决复杂问题，就把这个问题拆解成小问题，然后一个一个的输入给AI。

这次，OpenAI直接把拆解的过程交给AI，人类得到了彻底的解放！实测的结果大家也看到了，AI的逻辑推理能力确实得到了大跨步的前进！

那么OpenAI又是如何实现让AI自我完成思维链的呢？很可惜，目前的OpenAI早就Close了，因此这次并没有公布这些技术细节，但从传闻来看，大概是用到了强化学习。

也就是给AI设置一个规则，这一步逻辑正确+1分，错误-1分，分数越高越好，最终就有了今天的o1。当然其中有很多工程细节，这些都成为了OpenAI的护城河。

接下来可以肯定的是，思维链将成为其他家大模型的突破方向，到时候谁家模型分解问题分解的好，分解的正确将成为能否领先的关键。

除了数学，有了推理能力的AI在各个地方都有着更好应用。比如OpenAI官方就展示用o1，在不到10分钟内做出一个小游戏，网友在实际测试中，甚至做出了3D的贪吃蛇。

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_13.webp

更让我意外的是，OpenAI还展示了o1在量子物理，基因学，经济学以及认知学带来的帮助，好家伙，这下AI都可以覆盖到这么前沿的领域了？

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_14.webp

不过每一次AI突破，都有不小的"副作用"，ChatGPT带来论文造假，Midjourney和Sora带来伪造新闻恐慌，这次o1的"副作用"更大。

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_15.webp

之前GPT4安全测试，生物威胁等级为低，而在o1中，生物威胁不仅升级到了化学，生物，核子，放射威胁，等级也提升到中。

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_16.jpg

http://kuailexuexi.net/data/attachment/forum/20240919/1726697195306_17.webp

也就是说，"天网"离我们又进了。AI越强，它造成的破坏也越大，如何控制它，将成为和思维链一样重要的事情，就像我们都希望核子发电，而不希望它爆炸。

从今天开始，各大AI厂商就要考虑这个问题了，不过对于我，我更关心一个问题，就是以后我们还需要考试吗，实在要考的话，能不能让AI替我答一下，毕竟它比我分高！

页: [1]

乐学网-小学初中中考高中中考大学语文数学英语物理化学生物地理历史政治学习's Archiver

AI高考数学都能考100多分了？