千问 3.5 模型除夕发布，全网最详细解读

dsfgdsg · 发表于 2026-2-2 10:25

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

今天除夕，祝大家新年快乐
同时，今天阿里也开源 Qwen3.5 系列第一款模型 Qwen3.5-397B-A17B

这次发布的模型，为 397B 总参数，每次推理仅激活 17B，在性能超过上一代万亿参数的 Qwen3-Max 的同时，推理吞吐提升 8 倍，部署成本降低 60%
Apache 2.0 协议，完全开源

[size=1em]⚠️ 注意
这次发布的 397B-A17B 并非千问 3.5 系列的旗舰模型，只是系列中的第一款。大的，即将到来

在我看来，这次的模型上有两个根本性变化：
第一，原生全模态。Qwen3.5 从预训练第一天起就在文本 + 视觉混合 tokens 上联合学习。不是先训好语言模型再外挂视觉模块，视觉和语言在同一个参数空间里从头融合。上一代 Qwen3 是纯文本预训练，这一代直接换成了全模态基座
第二，原生多 Token 预测。传统大模型一次生成一个 token，Qwen3.5 在训练阶段就学会了对后续多个位置做联合预测，推理时一次输出多个 token。直接结果是推理速度接近翻倍，32K 上下文下吞吐是上一代 Qwen3-Max 的 8.6 倍
这两个变化叠加的效果：模型又能看又能想，而且快了一个数量级
对于这个模型，我做了一个数据总览，大家可以先看一下

自然语言能力，整体接近 GPT-5.2 和 Gemini-3 Pro 水平。MMLU-Pro 87.8 超 GPT-5.2 的 87.4，GPQA 88.4 超 Claude Opus 4.5 的 87.0，指令遵循 IFBench 76.5 刷新全模型纪录
视觉能力，是这次显著提升的地方。MathVision 88.6、We-Math 87.9、ZEROBench 12 分、MathVista 90.3，四项 STEM 视觉推理第一。OmniDocBench 90.8、OCRBench 93.1、CC-OCR 82.0，文档 OCR 三项第一。RefCOCO 92.3、LingoQA 81.6、V* 95.8，空间智能三项第一
多语言 201 种语言和方言覆盖，NOVA-63 和 MAXIFE 第一，词表从 15 万扩到 25 万
搜索 Agent 的能力是最大亮点，BrowseComp 78.6 超过所有闭源模型（GPT-5.2 为 65.8，Claude Opus 4.5 为 67.8），WideSearch 74.0 接近 GPT-5.2。通用 Agent 在第二到第三档位，BFCL-V4 72.9 超 Gemini-3 Pro，但 MCP-Mark 和 Tool Decathlon 与头部差距明显
竞赛数学和极端推理还有进步空间。AIME26 91.3 vs GPT-5.2 的 96.7，HMMT 92.7-94.8 vs GPT-5.2 的 99.4-100
成本大幅降低：百炼 API 输入 0.8 元/百万 tokens，是 GPT-5.2 的 1/15，Gemini-3 Pro 的 1/18
多端上线
千问 App / PC 端免费可用，魔搭 + HuggingFace 开源下载，百炼 API 可调用
下面逐块展开
架构

在我看来，这次的模型升级，背后是两个变化：原生全模态、原生多 Token 预测，和两项工程优化：极致稀疏 MoE、训练稳定性优化
原生全模态

过去几代千问的做法和行业里大部分模型一样：先训一个纯文本基座，再接入视觉模块做对齐
Qwen3.5 换了路线，从预训练第一天起就在文本和视觉的混合数据上联合学习，其中大幅新增了视觉、STEM、推理数据
几个技术细节：

• 视觉和语言组件解耦并行策略，各走各的最优路径再在关键节点汇合
• 混合文本 + 图像 + 视频数据的训练吞吐，接近 100% 持平纯文本基线
• FP8/BF16 混合精度策略，激活内存减少约 50%，训练提速 10%+
• 支持 1M token 上下文（原生 262K，YaRN 扩展至 1,010,000），可直接处理 2 小时视频输入

结果是：在视觉 STEM（MathVision 88.6）、文档理解（OmniDocBench 90.8）、空间智能（RefCOCO 92.3）等基准上超过了专门做视觉的模型，同时语言能力没有「降智」
另外，语言和方言支持从 119 种扩展至 201 种，词表从 15 万扩到 25 万，小语种编码效率最高提升 60%
原生多 Token 预测

传统 Transformer 每一步只预测下一个 token。Qwen3.5 在训练阶段就学会了对后续多个位置做联合预测
这不是简单的「批量输出」。模型内部需要同时维护多个预测头，在训练时就对多步输出的一致性做优化。推理时可以一次吐出多个 token，速度接近翻倍
两个工程优化

在这两个根本变化之上，还有两个工程层面的优化：
极致稀疏 MoE。397B 总参数，激活仅 17B，不到 5% 的算力即可调动全部知识储备。架构细节：60 层，512 个专家，每次激活 10 个路由专家 + 1 个共享专家。隐藏层结构为 15 组 × (3 层 Gated DeltaNet→MoE + 1 层 Gated Attention→MoE)
训练稳定性优化。注意力门控机制（NeurIPS 2025 最佳论文）融入架构，配合归一化策略和专家路由初始化，确保大规模训练稳定收敛
四项技术叠加的结果：

• Qwen3.5-397B-A17B 性能与超万亿参数的 Qwen3-Max 持平
• 32K 上下文推理吞吐是 Qwen3-Max 的 8.6 倍
• 256K 上下文推理吞吐是 Qwen3-Max 的 19 倍
• 相比 Qwen3-235B-A22B，推理吞吐分别提升 3.5 倍 / 7.2 倍
• 部署成本降低 60%

397B 总参，17B 激活，打赢了上一代万亿参数的 Qwen3-Max
强化学习 Scaling

这次 Post-training 性能提升的另一个核心来源：RL 环境的全面扩展
官方强调的不是针对特定指标刷分，而是 RL 环境的难度与可泛化性。构建了可扩展的异步 RL 框架，支持百万级规模的 Agent 脚手架与环境编排，实现 3×–5× 的端到端加速

基座模型表现

值得单独说一下基座模型的数据。Qwen3.5-397B-A17B 的基座在多个核心基准上全面领先同级开源模型，包括 DeepSeek-V3.2-671B-A37B 和 K2-1T-A32B
自然语言能力

知识与科学

MMLU-Pro 87.8 超过 GPT-5.2，GPQA 88.4 超过 Claude Opus 4.5，知识能力整体与闭源第一梯队相当。C-Eval 93.0，中文知识保持高位
HLE 28.7，这是目前已知最难的 STEM 基准之一，GPT-5.2 和 Gemini-3 Pro 在这项上也分别只有 35.5 和 37.5。官方同时发布了 HLE-Verified 得分 37.6

知识与 STEM 评测数据推理与竞赛数学

竞赛数学是 Qwen3.5 目前和 GPT-5.2 差距最大的领域
AIME26 91.3、HMMT Feb 94.8、HMMT Nov 92.7，整体处于第二梯队，与 Claude Opus 4.5 和 Qwen3-Max-Thinking 相当。GPT-5.2 在这个板块仍然明显领先（AIME26 96.7，HMMT 两场分别 99.4 和 100）
LiveCodeBench v6 83.6，Gemini-3 Pro 以 90.7 领先

推理与竞赛数学评测数据指令遵循与长上下文

IFBench 76.5，刷新所有模型纪录，包括 GPT-5.2 的 75.4
MultiChallenge 67.6 同样第一。IFEval 92.6 略低于 GPT-5.2 的 94.8
长上下文方面，LongBench v2 63.2、AA-LCR 68.7，与 Gemini-3 Pro 和 Claude Opus 4.5 有一定差距，是目前还有提升空间的方向

指令遵循与长上下文评测数据Agent 能力

通用 Agent 方面，BFCL-V4 72.9、TAU2-Bench 86.7，整体处于第二梯队，仅次于 Claude Opus 4.5。DeepPlanning 34.3 排在 GPT-5.2（44.6）之后，位列第二
MCP-Mark 46.1、Tool Decathlon 与头部差距还比较明显，但大幅超过同级开源模型

Agent 能力评测数据搜索 Agent

这是数据里最值得关注的板块
BrowseComp 78.6（使用与 DeepSeek / Kimi 相同的 discard-all 策略），超过所有闭源模型——GPT-5.2 为 65.8，Claude Opus 4.5 为 67.8
BrowseComp 大幅领先但 Seal-0 明显落后，说明不同搜索策略下表现差异很大。官方也注明，他们测试了两种策略：简单上下文折叠得分 69.0，discard-all 策略得分 78.6

搜索 Agent 评测数据多语言

NOVA-63 得分 59.1 第一，MAXIFE 88.2 接近第一（GPT-5.2 为 88.4）。MMMLU 88.5、MMLU-ProX 84.7，多语言知识基准整体表现突出
PolyMATH 73.3，与 Gemini-3 Pro（81.6）和 Claude Opus 4.5（79.0）有差距，多语言数学推理还有提升空间
Qwen3.5 将词表从 15 万扩到 25 万，覆盖 201 种语言和方言

多语言评测数据代码

SWE-bench Verified 76.4，与 Claude Opus 4.5（80.9）和 GPT-5.2（80.0）有可见差距。SecCodeBench 68.3 接近 GPT-5.2 和 Claude Opus 4.5 水平
代码能力相比上一代有明显进步，但与国际第一梯队仍有提升空间

代码能力评测数据视觉语言能力

视觉 STEM 与推理

视觉 STEM 与推理评测数据视觉 Agent

视觉 Agent 评测数据

颠颠 · 发表于 2026-2-2 13:05

春节到，复制口令打开元宝App，红包抢起来！ CZ9659 y:/CYGVDLX573

华语天空 · 发表于 2026-2-6 10:55

复制分享！春节打开元宝App，抢红包啦！ HU7337 N:/G3G1EF7PBI

cjlcjl · 发表于 2026-2-7 20:20

套路

standme · 发表于 2026-2-7 20:20

APP下了，却没有喝到奶茶，怎么解决

—じ☆ve人生— · 发表于 2026-2-12 23:47

豆包更适合中国人

lovejuan0104 · 发表于 2026-2-13 21:16

难了，现在有豆包又有千问

华语天空 · 发表于 2026-2-13 22:21

还没有完全普及就开始收费了，太急了，他以为他是谁啊。

standme · 发表于 2026-2-16 18:17

做模型总比卖菜强，与民争利非君子所为。

账号		自动登录	找回密码
密码			注册

[综艺大观] 千问 3.5 模型除夕发布，全网最详细解读

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。