我用阿里Qwen3 Max Thinking测了5个问题，彻底服气了

—じ☆ve人生— · 发表于 2026-1-27 11:54

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

1月26日，阿里发布了千问旗舰推理模型 Qwen3-Max-Thinking。

万亿参数，多项基准测试刷新全球纪录，但测试分数对普通人来说太抽象了。

真正让我好奇的是，模型在实际使用中到底如何？

基准测试看到一个超高“异常值”。

翻译过来意思：「人类的最后测试（带搜索）」

Qwen3-Max-Thinking 竟然得了 58.3 ，远超其他模型，这谁敢信？

带着疑问，测了我最近工作、生活中遇到的问题，结果人出乎意料。

如何体验

[size=1em]https://chat.qwen.ai

选择Qwen3-Max，打开深度思考(thinking)

测试一：电商比价购物

这两天 clawdbot 爆火，甚至带火了 Mac mini的销量。

X 上到处是 Mac mini的梗图，

群友也都在聊，哪里可以低价买Mac mini，提问如下：

[size=1em]Prompt：Mac mini如何拿到最低价购买，并找到下单地址

Qwen3-Max-Thinking 结果

ChatGPT结果

Gemini结果

个人感觉，Qwen3-Max-Thinking > Gemini > ChatGPT

因为Gemini 和 Qwen3-Max-Thinking都提到了京东国补，而且给的低价都是3187元左右。

都给出了京东Apple官方旗舰店，可惜Gemini给的是错误链接。

只有 ChatGPT 没提国补，给的商品价格偏高，OpenAI 是多想卖货啊。

插个题外话，如果真买了Mac mini，一定看看这个3D打印带屏外壳，太好看了！

测试二，实时信息获取

很多产品经理，都是爱刷 Producthunt，我也不例外。

[size=1em]Prompt：展示producthunt今天的最热的产品。

又问了ChatGPT，5.2 Thinking + 思考模式。

Gemini的结果如下

公布答案

简单对比就是看票数和排名顺序。

Qwen3-Max-Thinking 完全正确，且一票不差，牛逼！

ChatGPT 排名都对，但票数更新不实时。

最让我意外的是，以搜索擅长的谷歌，反而 Gemini 连排名信息都没搞对，结果最差。

看内容信息和排版，也是 Qwen3-Max-Thinking 完胜。

Emoji用的恰到好处，还展示了产品分类，很实用。

比光秃秃的 ChatGPT 体验好很多。

测试三：春节游玩路线规划

今年计划从北京开车回河南老家过年。

孩子今天放假，老婆也多请了三天假，时间充裕。

想着一路自驾玩着回家过年。

让AI出个行程规划，要求必须顺路，必须找出特色美食，和对孩子长见识有帮助的景点或城市。

[size=1em]Prompt：从北京开车回河南焦作老家过年，路上3-4天时间，放慢节奏，安排沿途路过城市的美食、景点、住宿，要对孩子增长见识有帮助，吃的食物能终身难忘，住宿也要有特色或舒服（酒店一晚预算在600以内），帮我安排详细计划。

Qwen3-Max-Thinking

ChatGPT

Gemini

这个问题，几个模型回答各有千秋，不好分胜负。

从路线规划说起。

Gemini和ChatGPT第一站都提议去正定，而Qwen3-Max-Thinking提议去保定。

不知道河北的朋友怎么看。

共性是这几个模型都提议去安阳，去看殷墟，比较符合我的设想。

ChatGPT提议去洛阳我是没想到的，感觉会绕很远，而且时间上也不够。

从规划细致度看。

Qwen3-Max-Thinking 给的规划最细致，一天安排的明明白白。

Gemini和ChatGPT相对粗糙。

测试四：技术方案挖掘

最近一直在玩Skill。

写了很多有趣的东西，比如一句话解读论文，一句话生成公众号配图文章，一句话解读一本书等。

尤其是一些视频和音频方面的Skill。

作为音乐爱好者，当然少不了Suno。

已经搞定一句话生成Suno音乐下载。

下一步目标，把Suno音乐变成 MV。

但歌词识别方面遇到了障碍，因为不仅要歌词准，还要时间轴准。

试着让几个模型找技术方案。

[size=1em]Prompt: 我要获取一首suno生成的歌曲的精准歌词和字幕时间轴，应该用什么技术方案。

Qwen3-Max-Thinking

ChatGPT

Gemini

Qwen和ChatGPT都提到了一个Github库。（虽然只有7个星）

[size=1em]https://github.com/zh30/get-suno-lyric

马上打开编程工具，瞬间写了个可用脚本。

本测试中，Gemini表现一般，给的都是常规思路。

最强的是Qwen3-Max-Thinking，不仅画了Mermaid流程图，给了多个技术方案，还找了两个付费 API 网站。

[size=1em]https://lyrictime.com/

[size=1em]https://duomiapi.com/type/11

测试五：电影票房预测

本想预测下2026年春节档电影票房。

没想到手滑打错，打成了2006年

登录/注册后可看大图

。

但结果反而很有趣。

[size=1em]Prompt:预测下2006春节档电影榜票房前三

Qwen3-Max-Thinking

ChatGPT

Gemini

Qwen3 马上纠错，说2006年距今20年，是确定的，不需要预测。

而且那时没有春节档说法，票房不好确定，然后给出了2026年的票房预测。

可能的排名：《飞驰人生 3》、《惊蛰无声》、《熊出没》

而ChatGPT和Gemini中规中矩给出了2006年春节档的票房排名。

但我查了历史“新闻”，硬说春节档票房第一，其实是《金刚》，超过霍元甲，这两个模型都说错了。

原因可能参考了维基百科的页面，好像未考虑《金刚》。

[size=1em]https://zh.wikipedia.org/wiki/%E8%B4%BA%E5%B2%81%E7%89%87#%E8%B4%BA%E5%B2%81%E6%A1%A3

也顺便学到了一个冷知识：

• 贺岁片：由1997年的冯小刚导演的《甲方乙方》开启。
• 春节档：2013年，周星驰导演的《西游降魔篇》大年初一正式上映，开启春节档这个说法。

Qwen3-Max-Thinking 真的可以

开始看到基准测试分数，我是有疑问的。

等自己测了以上问题，并刻意跟顶级模型对比后才发现。

Qwen3-Max-Thinking 竟真的不比ChatGPT 5.2 、Gemini3弱。

甚至直观感觉，中文检索回答问题能力更强。

好奇背后技术，简单研究了下。

Qwen3-Max-Thinking 采用了一种全新的测试时扩展（Test-time Scaling）机制，性能提升的同时还变得更经济。

[size=1em]Test-time Scaling是一种在AI模型使用阶段（而非训练阶段）投入更多计算资源来提升性能的技术。

核心思想

在模型推理（使用）时，通过以下方式投入更多计算：

• 多次采样：生成多个候选答案，选择最佳的
• 逐步推理：让模型"慢慢思考"，展开更详细的推理步骤
• 自我验证：生成答案后进行检查和修正
• 搜索探索：尝试多条思路路径，找到最优解

Qwen3-MaxThinking 大幅增强了自主调用工具的原生Agent能力。

模型可自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能，像专业人士一样边用工具边思考。

以上面一个测试为例，模型会边搜索边思考。

这种能力很关键，不仅可以有效降低幻觉，而且对完成复杂任务很有帮助。

人类的最后测试（带搜索） 能拿到碾压其他模型的高分，就是最好的证明。

而且千问作为全球第一的开源大模型，模型尺寸是真多。

截至目前，总共开源了超过400个模型，最小0.5B，最大480B，涵盖文本、视觉等“全模态”。

全球累计下载量超10亿，真的是恐怖。

这种开放，对整个行业的发展是有价值的。

写在后面

AI 模型竞争还在进行，据说今年“春节档”非常热闹。

DeepSeek、GLM、Kimi，都可能会发新模型。

Qwen3-Max-Thinking 今天表现很亮眼，让我更好奇半年后国产大模型会如何发展？

不过至少现在，我们有了一个超强的顶尖 AI 模型。

强烈推荐你试试：

[size=1em]https://chat.qwen.ai

如果试过觉得好用，请一键三连支持乔帮主。

ailixiaoran · 发表于 2026-1-27 13:25

楼主，不论什么情况你一定要hold住！hold住就是胜利！

simonzmz · 发表于 2026-1-27 14:46

如果用于公文写作，Qwen3-Max-Thinking还是差一点。比如，提问“请帮我优化以下工作总结中的文字表述，2000字以内”。相同的指令，用DEEPSEEK修改的效果要强于Qwen3。

hurric · 发表于 2026-1-27 14:51

公文写作我在用KIMI，以前挺好用的最近发现要收费了呢开深度思考就提示了

nihao52 · 发表于 2026-1-27 16:28

谢谢分享

账号		自动登录	找回密码
密码			注册

[科技新闻] 我用阿里Qwen3 Max Thinking测了5个问题，彻底服气了

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块