找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 59|回复: 6

[科技新闻] 万亿参数、奥数级推理:阿里Qwen3-Max-Thinking更聪明了

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-29 13:56 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
1.webp


分析师/智涵
校对/Tina
策划/Eason
凌晨发布、同步上线、直接对标国际顶流——阿里这次没有任何铺垫,直接把千问最新旗舰推理模型 Qwen3-Max-Thinking推到台前。
参数规模一口气拉到万亿级别、预训练数据量高达36T Tokens、19项权威基准测试刷爆纪录,这是目前阿里体系内规模最大、能力最强的一次模型升级。更关键的是,它并不是“堆参数”的概念展示,而是一次明确指向复杂推理、真实业务和智能体时代的实战型模型发布。
从公开测试结果来看,Qwen3-Max-Thinking的表现相当直接:在涵盖科学、数学、编程、工具调用等方向的19项权威基准测试中刷新多项纪录,正面与 GPT-5.2-Thinking、Claude Opus、Gemini 3 Pro等国际顶级模型对打,整体性能并不落下风,部分关键指标甚至实现反超。
对普通用户来说,这种变化已经不是“实验室里的进步”。目前在千问 PC 端和网页端,只需一键切换,就能直接启用这一推理模型;App 端也即将接入。更强的逻辑、更低的幻觉、更主动的工具调用,让 AI 从“陪你聊天”走向“替你办事”。
这一次,阿里给出的信号很清晰:大模型的竞争,已经进入真正拼推理深度与落地能力的阶段。模型不仅“更会想”,而且“更会查、敢纠错、能自证”。大模型正在从“展示智能”进入“交付能力”的阶段,而阿里,显然不想缺席这一轮关键跃迁。
01
万亿参数成为推理能力的分水岭
从技术层面看,Qwen3-Max-Thinking 最直观的变化是规模:超1T参数、36T Tokens预训练数据,这是目前阿里千问体系内体量最大的推理模型。但真正的变化,并不只是更大,而是规模开始直接转化为稳定、可复用的高阶能力。
在科学知识(GPQADiamond)、数学推理(IMO-AnswerBench)和代码编程(LiveCodeBench)等高难度基准中,Qwen3-Max-Thinking 的表现已经稳定站在第一梯队。在IMO级数学推理中,其得分达到91.5 分,预览版甚至在 AIME 25HMMT 25 中拿下双满分。这类测试不考模板记忆,而是考察模型能否进行长链条、多假设的严密推理。
2.webp


更具代表性的,是HLE工具调用基准。这一测试被业内称为人类最后的测试,重点考察模型在复杂场景下是否能正确选择工具、调用工具并验证结果。Qwen3-Max-Thinking58.3 分明显领先 GPT-5.2-Thinking  Gemini 3 Pro,显示其已经具备接近独立执行者的能力。
3.webp


这背后反映的是一个事实:当模型规模跨过某个阈值后,推理不再是零散能力,而开始呈现出系统性优势。
02
两大核心突破,让“聪明”变得可依赖数
真正决定模型能否进入业务系统的,并不是跑分,而是可靠性。Qwen3-Max-Thinking的两项关键升级,正好指向这一问题。
第一,是测试时扩展(TTS)机制。传统模型在遇到难题时,往往通过并行推理“多想几遍”,但其中大量计算是重复的。Qwen3-Max-Thinking 采用类似“经验提取”的反思策略,在推理阶段集中算力解决尚未覆盖的难点,从而在相同算力下获得更高质量推理结果。这也是它在GPQALiveCodeBench 等测试中显著提分的重要原因。
第二,是原生Agent能力的系统性增强。模型在对话中可自主判断是否调用搜索、记忆或代码解释器,而不是依赖用户手动指令。这种机制在实测中直接降低了幻觉率:例如,当被刻意误导提问“黄金价格是否下降”时,模型会先检索事实、纠正前提,再给出更符合现实的判断。
这种“能查证、会纠错”的能力,正是企业敢把业务交给 AI 的底气。AI不再只是给建议,而是能像专业人员一样,对结论负责。
03
从模型到生态:阿里正在把AI变成“办事系统”
如果只看模型本身,Qwen3-Max-Thinking 已经足够强;但阿里的真正优势,在于其全栈布局。
4.webp


C端,千问月活用户已突破1亿,并深度接入淘宝、支付宝、飞猪、高德等生态,覆盖400多项 AI 办事功能。用户可以通过自然语言完成购物、订票、出行规划等完整流程,AI 的价值正在从信息层,进入交易与服务层。
B端,企业用户可通过阿里云百炼调用API;在底层,阿里同步推进芯片、算力与云基础设施建设,计划三年投入3800亿元,规模与国际科技巨头处于同一量级。与此同时,Qwen系列在Hugging Face上的衍生模型数量已突破20万个,下载量超10亿次,稳居全球开源大模型第一。
这条路径非常清晰:用顶级模型能力,驱动生态应用,再反向强化模型。Qwen3-Max-Thinking 的发布,标志着阿里在算法、算力和应用三层已经形成协同闭环。对于中国大模型而言,这不仅是一次技术验证,更是一次从追赶者规则参与者转变的重要节点。
随着推理能力在B端率先成熟、再反向塑造C端体验,一个更现实的变化正在发生:AI 不再是用来试试看的新奇工具,而是逐步进入可以被信任、被依赖、甚至被托付关键事务的阶段。这或许才是Qwen3-Max-Thinking留给行业最重要的信号。
  • 打卡等级:渐入佳境
  • 打卡总天数:58
发表于 2026-1-29 16:47 | 显示全部楼层
谢谢分享

点评

感谢分享  详情 回复 发表于 2026-1-30 09:41
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:310
发表于 2026-1-29 19:18 | 显示全部楼层
牛X,支持...

点评

感谢分享  详情 回复 发表于 2026-1-30 09:41
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:398
发表于 2026-1-30 09:40 | 显示全部楼层
感谢分享
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:398
发表于 2026-1-30 09:41 | 显示全部楼层

感谢分享
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:398
发表于 2026-1-30 09:41 | 显示全部楼层

感谢分享
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:404
发表于 2026-1-30 10:48 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-1-31 14:04 , Processed in 0.191724 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表