|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
日前,由上海人工智能实验室推出的司南评测体系OpenCompass选取了零一万物、智谱AI、阿里云通义等6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。据悉,此次评测采用全国新课标I卷,并让具有高考评卷经验的教师人工阅卷评分。
评测结果显示,Qwen2-72B、GPT-4o及书生浦语2.0文曲星成为本次大模型高考的三甲,得分率均超过70%。不过,一个明显的趋势是,大部分模型“考生”出现了偏科现象,其中语文、英语科目表现良好,但在数学方面全军覆没,连及格分都拿不到。
阅卷教师点评称,大模型“考生”的文言文理解能力差距较大,回答作文题时像在回答问答题,不像人类考生一样能使用举例论证、名人名言、人物游客,您当前的用户组是:“游客”,以下内容需要正式会员可见,请升级到正式会员(点击进入)后继续查看。 |
|