找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 236|回复: 4

[科技新闻] 我用阿里Qwen3 Max Thinking测了5个问题,彻底服气了

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-27 11:54 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
1月26日,阿里发布了千问旗舰推理模型 Qwen3-Max-Thinking。

万亿参数,多项基准测试刷新全球纪录,但测试分数对普通人来说太抽象了。

1.webp

真正让我好奇的是,模型在实际使用中到底如何?

基准测试看到一个超高“异常值”。

翻译过来意思:「人类的最后测试(带搜索)」

Qwen3-Max-Thinking 竟然得了 58.3 ,远超其他模型,这谁敢信?
2.webp

带着疑问,测了我最近工作、生活中遇到的问题,结果人出乎意料。

如何体验

[size=1em]https://chat.qwen.ai

选择Qwen3-Max,打开深度思考(thinking)

3.webp

测试一:电商比价购物

这两天 clawdbot 爆火,甚至带火了 Mac mini的销量。

4.webp

X 上到处是 Mac mini的梗图,

5.webp

6.webp

群友也都在聊,哪里可以低价买Mac mini,提问如下:

[size=1em]Prompt:Mac mini如何拿到最低价购买,并找到下单地址

Qwen3-Max-Thinking 结果
7.webp

ChatGPT结果
8.webp

Gemini结果

9.webp

个人感觉,Qwen3-Max-Thinking > Gemini > ChatGPT

因为Gemini 和 Qwen3-Max-Thinking都提到了京东国补,而且给的低价都是3187元左右。

都给出了京东Apple官方旗舰店,可惜Gemini给的是错误链接。

只有 ChatGPT 没提国补,给的商品价格偏高,OpenAI 是多想卖货啊。

插个题外话,如果真买了Mac mini,一定看看这个3D打印带屏外壳,太好看了!

10.webp

测试二,实时信息获取

很多产品经理,都是爱刷 Producthunt,我也不例外。

[size=1em]Prompt:展示producthunt今天的最热的产品。

11.webp

又问了ChatGPT,5.2 Thinking + 思考模式。

12.webp

Gemini的结果如下

13.webp

公布答案

14.webp

简单对比就是看票数和排名顺序。

Qwen3-Max-Thinking 完全正确,且一票不差,牛逼!
ChatGPT 排名都对,但票数更新不实时。

最让我意外的是,以搜索擅长的谷歌,反而 Gemini 连排名信息都没搞对,结果最差。

看内容信息和排版,也是 Qwen3-Max-Thinking 完胜。

Emoji用的恰到好处,还展示了产品分类,很实用。

比光秃秃的 ChatGPT 体验好很多。

测试三:春节游玩路线规划

今年计划从北京开车回河南老家过年。

孩子今天放假,老婆也多请了三天假,时间充裕。

想着一路自驾玩着回家过年。

让AI出个行程规划,要求必须顺路,必须找出特色美食,和对孩子长见识有帮助的景点或城市。

[size=1em]Prompt:从北京开车回河南焦作老家过年,路上3-4天时间,放慢节奏,安排沿途路过城市的美食、景点、住宿,要对孩子增长见识有帮助,吃的食物能终身难忘,住宿也要有特色或舒服(酒店一晚预算在600以内),帮我安排详细计划。

Qwen3-Max-Thinking
15.webp

ChatGPT

16.webp

Gemini

17.webp

这个问题,几个模型回答各有千秋,不好分胜负。

从路线规划说起。

Gemini和ChatGPT第一站都提议去正定,而Qwen3-Max-Thinking提议去保定。

不知道河北的朋友怎么看。

共性是这几个模型都提议去安阳,去看殷墟,比较符合我的设想。

ChatGPT提议去洛阳我是没想到的,感觉会绕很远,而且时间上也不够。

从规划细致度看。

Qwen3-Max-Thinking 给的规划最细致,一天安排的明明白白。
18.webp

Gemini和ChatGPT相对粗糙。

19.webp

20.webp

测试四:技术方案挖掘

最近一直在玩Skill。

写了很多有趣的东西,比如一句话解读论文,一句话生成公众号配图文章,一句话解读一本书等。

尤其是一些视频和音频方面的Skill。

作为音乐爱好者,当然少不了Suno。

已经搞定一句话生成Suno音乐下载。

下一步目标,把Suno音乐变成 MV。

但歌词识别方面遇到了障碍,因为不仅要歌词准,还要时间轴准。

试着让几个模型找技术方案。

[size=1em]Prompt: 我要获取一首suno生成的歌曲的精准歌词和字幕时间轴,应该用什么技术方案。

Qwen3-Max-Thinking
21.webp

ChatGPT

22.webp

Gemini

23.webp

Qwen和ChatGPT都提到了一个Github库。(虽然只有7个星)

[size=1em]https://github.com/zh30/get-suno-lyric

马上打开编程工具,瞬间写了个可用脚本。

24.webp

本测试中,Gemini表现一般,给的都是常规思路。

最强的是Qwen3-Max-Thinking,不仅画了Mermaid流程图,给了多个技术方案,还找了两个付费 API 网站。

25.webp

[size=1em]https://lyrictime.com/

26.webp

[size=1em]https://duomiapi.com/type/11

27.webp

测试五:电影票房预测

本想预测下2026年春节档电影票房。

没想到手滑打错,打成了2006年

                               
登录/注册后可看大图

但结果反而很有趣。

[size=1em]Prompt:预测下2006春节档电影榜票房前三

Qwen3-Max-Thinking
29.webp

ChatGPT

30.webp

Gemini

31.webp

Qwen3 马上纠错,说2006年距今20年,是确定的,不需要预测。

而且那时没有春节档说法,票房不好确定,然后给出了2026年的票房预测。

可能的排名:《飞驰人生 3》、《惊蛰无声》、《熊出没》

而ChatGPT和Gemini中规中矩给出了2006年春节档的票房排名。

但我查了历史“新闻”,硬说春节档票房第一,其实是《金刚》,超过霍元甲,这两个模型都说错了。

32.webp

原因可能参考了维基百科的页面,好像未考虑《金刚》。

[size=1em]https://zh.wikipedia.org/wiki/%E8%B4%BA%E5%B2%81%E7%89%87#%E8%B4%BA%E5%B2%81%E6%A1%A3

也顺便学到了一个冷知识:


  • • 贺岁片:由1997年的冯小刚导演的《甲方乙方》开启。
  • • 春节档:2013年,周星驰导演的《西游降魔篇》大年初一正式上映,开启春节档这个说法。
Qwen3-Max-Thinking 真的可以

开始看到基准测试分数,我是有疑问的。

等自己测了以上问题,并刻意跟顶级模型对比后才发现。

Qwen3-Max-Thinking 竟真的不比ChatGPT 5.2 、Gemini3弱。

甚至直观感觉,中文检索回答问题能力更强。

好奇背后技术,简单研究了下。

Qwen3-Max-Thinking 采用了一种全新的测试时扩展(Test-time Scaling)机制,性能提升的同时还变得更经济。

[size=1em]Test-time Scaling是一种在AI模型使用阶段(而非训练阶段)投入更多计算资源来提升性能的技术。

核心思想

在模型推理(使用)时,通过以下方式投入更多计算:


  • • 多次采样:生成多个候选答案,选择最佳的
  • • 逐步推理:让模型"慢慢思考",展开更详细的推理步骤
  • • 自我验证:生成答案后进行检查和修正
  • • 搜索探索:尝试多条思路路径,找到最优解
Qwen3-MaxThinking 大幅增强了自主调用工具的原生Agent能力。

模型可自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,像专业人士一样边用工具边思考。

以上面一个测试为例,模型会边搜索边思考。

33.webp

这种能力很关键,不仅可以有效降低幻觉,而且对完成复杂任务很有帮助。

人类的最后测试(带搜索) 能拿到碾压其他模型的高分,就是最好的证明。

而且千问作为全球第一的开源大模型,模型尺寸是真多。

截至目前,总共开源了超过400个模型,最小0.5B,最大480B,涵盖文本、视觉等“全模态”。

全球累计下载量超10亿,真的是恐怖。

这种开放,对整个行业的发展是有价值的。

写在后面

AI 模型竞争还在进行,据说今年“春节档”非常热闹。

DeepSeek、GLM、Kimi,都可能会发新模型。

Qwen3-Max-Thinking 今天表现很亮眼,让我更好奇半年后国产大模型会如何发展?

不过至少现在,我们有了一个超强的顶尖 AI 模型。

强烈推荐你试试:

[size=1em]https://chat.qwen.ai

如果试过觉得好用,请一键三连支持乔帮主。
  • 打卡等级:自成一派
  • 打卡总天数:226
发表于 2026-1-27 13:25 | 显示全部楼层
楼主,不论什么情况你一定要hold住!hold住就是胜利!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:705
发表于 2026-1-27 14:46 | 显示全部楼层
如果用于公文写作,Qwen3-Max-Thinking还是差一点。比如,提问“请帮我优化以下工作总结中的文字表述,2000字以内”。相同的指令,用DEEPSEEK修改的效果要强于Qwen3。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:465
发表于 2026-1-27 14:51 | 显示全部楼层
公文写作我在用KIMI,以前挺好用的 最近发现要收费了呢 开深度思考就提示了
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:95
发表于 2026-1-27 16:28 | 显示全部楼层
谢谢分享
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-3-20 21:01 , Processed in 0.185866 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表