|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队做了一个极具创意和挑战性的尝试,开创性地用高考数学题来评测大模型!
根据公开的2024年高考数学大模型评测结果,阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名,以及高考数学新II卷的第二名和第一名,两份考卷的评测中,而GPT-4o均列第三名。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对GPT-4o、文心一言、阿里千问、字节豆包等13家大模型进行了评测。
A游客,您当前的用户组是:“游客”,以下内容需要正式会员可见,请升级到正式会员(点击进入)后继续查看。 |
|