夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 106|回复: 2

[科技新闻] 今年高考数学真的很难?AI说:等我出手

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:833
发表于 2025-6-1 00:35 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
每年高考,是6月绕不过的话题。而今年高考,大家普遍反馈数学特别难。那正好,我们可以让大模型来答下卷。

毕竟每回新模型发布,都说自己在AIME-2025、AIME-2024、MATH-500等各种数学测试基准上遥遥领先,都说自己达到SOTA级别。

So,我们今天就给10来家国产大模型准备了全国卷一的数学题,看看他们参加高考能拿多少分。

本次参考的大模型考生有:DeepSeek-R1(问小白)、豆包Seed1.5、Qwen3、混元T1、Kimi K1.5、智谱Z1、跃问Step-R1,全部为推理模型。

缺考考生有:DeepSeeek-R1官方版、文心X1-Turbo、讯飞星火x1。

1.webp

考试规则


为保证本次考试公平公正,我们直接用原题测试,不改变题目内容,也不做任何Prompt引导,直接用上传题目图片的方式进行测试。毕竟我们人也是用眼睛看试题,人有看走眼的时候,模型也有视觉理解不行的问题,这完全各凭本事。

所以,DeepSeeek-R1官方版第一个缺考(不支持图片理解),我们找来了问小白递补。

文心X1-Turbo也缺考,因为它的深度思考必须打开联网才能使用。担心作弊问题,被我们直接ban掉。
2.webp

Ps.文心这逻辑真的有点奇怪,联网与上传附件是完全不同的RAG方式,怎么能一起使用呢?而且还是强制绑定。如果你切换到X1-Turbo模型,又无法上传附件。整个产品逻辑,都怪怪的。

另外,讯飞星火x1也缺考了,它说高考期间让我换个问题。
3.webp


以下是考试规则:

1.本次测试直接用图片输入,不改变题目内容,也不做任何Prompt引导。

2.题型尽量覆盖全面,本次测试选择了四道单选题、两道多选题、两道填空题和两道解答题。

3.单选题每题计5分,多选题每题计10分(答案不全扣5分),填空题每题计10分,解答题每题计20分(答错一个小问扣10分),这样刚好是100分

4.各模型每题只跑一次,毕竟现实中,每位考生也只有一次的作答机会。

5.将超时问题加入评判标准,如果模型陷入无限循环则计为0分。

6.所有模型都选择推理模式,不开联网,不允许写代码沙盒计算(相当于带计算器)。

4.webp

考试试题


本次考试,一共10道题,全部取自全国卷一。

1)单选题一
5.webp


2)单选题二
6.webp


3)单选题三
7.webp


4)单选题四
8.webp


5)单选题一
9.webp


6)多选题二
10.webp


7)填空题一
11.webp


8)填空题二
12.webp


9)解答题一
13.webp


10)解答题二
14.webp


15.webp

考试结果


单选题,所有模型全对。

到多选题部分,就开始分出高下了。

多选题一,千问3陷入了无限循环,我只好暂停了它(其实千问3也做对了,但是它一直陷入了觉得只有一个正确答案的自检循环中,这样考下去100%超时),其他大模型都做对了。
16.webp


多选题二,千问3直接做错。
17.webp


跃问Step-R1其实一开始是对的,已经思考出了正确答案。但是它和千问3一样,在一通自检后只给出了一个答案,所以扣了一半的分。
18.webp



填空题,所有模型也是全对。

解答题一,千问3做错了一个小问(所以我们算他一半分)
19.webp


DeepSeek-R1的思考过程是对的,但是回答的时候中途停下来了,只答对了一个小问(我们算它得一半的分)
20.webp


跃问Step-R1也是只做对了第一小问,得一半的分。其他模型,则是全对。
21.webp



最后一道解答题,出问题的大模型就比较多了。

首先是DeepSeek-R1直接摆烂,算到一半就停了(并不是网络问题,所有模型我们都是在同一网络下同时开测的)。
22.webp


千问3、混元T1、跃问Step-R1都是错了第二问的第二小问(算他们15分),而且算出的错误答案居然一样,不知道三个AI到底同时想到了什么
23.webp



千问3:
24.webp


Kimi k1.5:
25.webp


有意思的是,Kimi最后一题解到一半直接不解了,还在思考的时候说什么解题时间不够了,不是哥们?真把自己当高考考生了啊
26.webp

??

27.webp

28.webp


最后一题,只有唯二的豆包Seed1.5智谱Z1做对。

最终,所有模型的得分情况如下:
29.webp


豆包Seed1.5智谱拿到满分,混元T1也表现不错,DeepSeek-R1Qwen3有点拉跨(多数情况是因为想得太多导致拿不到分)
30.webp


31.webp

写在最后


这个结果,有点令我意外。在开测之前,我以为会是DeepSeek-R1霸榜,没想到却是豆包Seed1.5智谱Z1腾讯混元T1拿下三甲。而且,豆包和智谱还拿到了满分

DeepSeek-R1Qwen3丢分,主要是因为想得太多,要么是没有做完题,要么是在规则理解上出了问题,导致丢大分。kimi K1.5和跃问Step-R1,也有点类似。

在最后一道解答题上,则不少模型都做错了。看得出,在深度问题、复杂问题上还是很考验模型的底层能力。

这回测试,Qwen3表现垫底,或许跟它的思维方式有关。很多时候,它明明思考过程都想对了,但是在答卷时却陷入了一根筋,复检一遍反而答错。

不过,再怎么找理由,题没做出来或者做错就是能力的体现。就像高考一样,它可能不是人生的终极答案,但会是一个重要的分水岭。

在Way to AGI的路上,人们不会给AI开绿色通道、建规则前提。通用人工智能能否适应人类只有一个标准——通用性自适应

所以,继续前进吧。
  • 打卡等级:功行圆满
  • 打卡总天数:834
发表于 2025-6-6 08:34 | 显示全部楼层
无聊至极
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:834
发表于 2025-6-11 00:54 | 显示全部楼层
害了这孩子一生,做人做事做的绝。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版| 手机版| 小黑屋| RSS| 举报不良信息| 精睿论坛 ( 鄂ICP备07005250号-1 )

GMT+8, 2026-7-4 15:05 , Processed in 0.286997 second(s), 5 queries , Gzip On, Redis On.

Powered by VC52.CN

快速回复 返回顶部 返回列表