当前位置: 华文头条 > 推荐

AI大模型能答对几道高考数学题?

2024-06-14推荐

近日

2024年高考作文题等

高考相关话题引发热议

「AI大模型做高考题」

也成为一大看点

AI参加高考

数学能得多少分

悄悄问一句

高考数学题

你还看得懂吗?

或许我们看不懂

但大模型可以

近日

复旦大学NLP(自然语言处理)

实验室LLMEVAL团队

请来13位大模型「考生」

一起做2024年高考数学真题

结果怎样?

先说结论:

从整体来看

大模型们的「高考成绩」

都不算太高

OpenAI日前发布的

新一代旗舰大模型 GPT-4o

与阿里云研发的通义千问

720亿参数大模型 Qwen-72b

在两次测试中排名都靠前

正确率稳定在60%以上

部分大模型的表现

存在起伏与波动

如百川智能、字节跳动新近发布的

Baichuan4 豆包大模型

分别在新I卷和新II卷客观题测试中

得分排名第一

但在另一场测试中

排名相对靠后

图源:复旦大学NLP实验室

根据两次评测结果

该团队发现

大部分测试大模型在 简单题

(如选择题前三道)

有较好的准确率

而在 中档题 中表现一般

对于 较难的题目

大模型们的准确率会更低

少部分题目甚至出现

「全军覆灭」的情况

人工智能这么「聪明」

为什么还会出错?

AI为什么会 把题做错

测试发现

让AI大模型做数学题

仍是一个难度较大的挑战

首先

文本输入格式 的不同

会对测试结果造成

比较明显的干扰

目前测试主要采用

上传图片 识别 文本 的方式

这种方式更类似「人类」

是对大模型能力的全面考验

有的大模型还未做题

就先败在了AI识图这一步

其次

大模型的 推理能力

仍有很大进步空间

较难的题目

对思维能力的考察要求更高

大模型的准确率也会更低

此外

在多选题方面

大多数模型表现不佳

可见,面临 复杂选项 的时候

大模型的准确率也会降低

虽然在解题方面

AI大模型的短期表现

还达不到完美

但在攻克数学问题的路上

AI的每一次进步

都是对未来教育想象空间的开拓

值得更多耐心与期待

撰文/排版:李汶键 编辑:李飞 统筹:李政葳

参考丨复旦大学NLP实验室、澎湃新闻、机器之心、量子位