找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 49|回复: 8

[综艺大观] 千问 3.5 模型除夕发布,全网最详细解读

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-2 10:25 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
今天除夕,祝大家新年快乐
同时,今天阿里也开源 Qwen3.5 系列第一款模型 Qwen3.5-397B-A17B
1.webp


这次发布的模型,为 397B 总参数,每次推理仅激活 17B,在性能超过上一代万亿参数的 Qwen3-Max 的同时,推理吞吐提升 8 倍,部署成本降低 60%
Apache 2.0 协议,完全开源
[size=1em]⚠️ 注意
这次发布的 397B-A17B 并非千问 3.5 系列的旗舰模型,只是系列中的第一款。大的,即将到来

在我看来,这次的模型上有两个根本性变化:
第一,原生全模态。Qwen3.5 从预训练第一天起就在文本 + 视觉混合 tokens 上联合学习。不是先训好语言模型再外挂视觉模块,视觉和语言在同一个参数空间里从头融合。上一代 Qwen3 是纯文本预训练,这一代直接换成了全模态基座
第二,原生多 Token 预测。传统大模型一次生成一个 token,Qwen3.5 在训练阶段就学会了对后续多个位置做联合预测,推理时一次输出多个 token。直接结果是推理速度接近翻倍,32K 上下文下吞吐是上一代 Qwen3-Max 的 8.6 倍
这两个变化叠加的效果:模型又能看又能想,而且快了一个数量级
对于这个模型,我做了一个数据总览,大家可以先看一下
2.webp


自然语言能力,整体接近 GPT-5.2 和 Gemini-3 Pro 水平。MMLU-Pro 87.8 超 GPT-5.2 的 87.4,GPQA 88.4 超 Claude Opus 4.5 的 87.0,指令遵循 IFBench 76.5 刷新全模型纪录
视觉能力,是这次显著提升的地方。MathVision 88.6、We-Math 87.9、ZEROBench 12 分、MathVista 90.3,四项 STEM 视觉推理第一。OmniDocBench 90.8、OCRBench 93.1、CC-OCR 82.0,文档 OCR 三项第一。RefCOCO 92.3、LingoQA 81.6、V* 95.8,空间智能三项第一
多语言 201 种语言和方言覆盖,NOVA-63 和 MAXIFE 第一,词表从 15 万扩到 25 万
搜索 Agent 的能力是最大亮点,BrowseComp 78.6 超过所有闭源模型(GPT-5.2 为 65.8,Claude Opus 4.5 为 67.8),WideSearch 74.0 接近 GPT-5.2。通用 Agent 在第二到第三档位,BFCL-V4 72.9 超 Gemini-3 Pro,但 MCP-Mark 和 Tool Decathlon 与头部差距明显
竞赛数学和极端推理还有进步空间。AIME26 91.3 vs GPT-5.2 的 96.7,HMMT 92.7-94.8 vs GPT-5.2 的 99.4-100
成本大幅降低:百炼 API 输入 0.8 元/百万 tokens,是 GPT-5.2 的 1/15,Gemini-3 Pro 的 1/18
多端上线
千问 App / PC 端免费可用,魔搭 + HuggingFace 开源下载,百炼 API 可调用

下面逐块展开
架构

在我看来,这次的模型升级,背后是两个变化:原生全模态、原生多 Token 预测,和两项工程优化:极致稀疏 MoE、训练稳定性优化
原生全模态

过去几代千问的做法和行业里大部分模型一样:先训一个纯文本基座,再接入视觉模块做对齐
Qwen3.5 换了路线,从预训练第一天起就在文本和视觉的混合数据上联合学习,其中大幅新增了视觉、STEM、推理数据
几个技术细节:

  • • 视觉和语言组件解耦并行策略,各走各的最优路径再在关键节点汇合
  • • 混合文本 + 图像 + 视频数据的训练吞吐,接近 100% 持平纯文本基线
  • • FP8/BF16 混合精度策略,激活内存减少约 50%,训练提速 10%+
  • • 支持 1M token 上下文(原生 262K,YaRN 扩展至 1,010,000),可直接处理 2 小时视频输入
3.webp


结果是:在视觉 STEM(MathVision 88.6)、文档理解(OmniDocBench 90.8)、空间智能(RefCOCO 92.3)等基准上超过了专门做视觉的模型,同时语言能力没有「降智」
另外,语言和方言支持从 119 种扩展至 201 种,词表从 15 万扩到 25 万,小语种编码效率最高提升 60%
原生多 Token 预测

传统 Transformer 每一步只预测下一个 token。Qwen3.5 在训练阶段就学会了对后续多个位置做联合预测
这不是简单的「批量输出」。模型内部需要同时维护多个预测头,在训练时就对多步输出的一致性做优化。推理时可以一次吐出多个 token,速度接近翻倍
两个工程优化

在这两个根本变化之上,还有两个工程层面的优化:
极致稀疏 MoE。397B 总参数,激活仅 17B,不到 5% 的算力即可调动全部知识储备。架构细节:60 层,512 个专家,每次激活 10 个路由专家 + 1 个共享专家。隐藏层结构为 15 组 × (3 层 Gated DeltaNet→MoE + 1 层 Gated Attention→MoE)
训练稳定性优化。注意力门控机制(NeurIPS 2025 最佳论文)融入架构,配合归一化策略和专家路由初始化,确保大规模训练稳定收敛
四项技术叠加的结果:

  • • Qwen3.5-397B-A17B 性能与超万亿参数的 Qwen3-Max 持平
  • • 32K 上下文推理吞吐是 Qwen3-Max 的 8.6 倍
  • • 256K 上下文推理吞吐是 Qwen3-Max 的 19 倍
  • • 相比 Qwen3-235B-A22B,推理吞吐分别提升 3.5 倍 / 7.2 倍
  • • 部署成本降低 60%
4.webp


397B 总参,17B 激活,打赢了上一代万亿参数的 Qwen3-Max
强化学习 Scaling

这次 Post-training 性能提升的另一个核心来源:RL 环境的全面扩展
官方强调的不是针对特定指标刷分,而是 RL 环境的难度与可泛化性。构建了可扩展的异步 RL 框架,支持百万级规模的 Agent 脚手架与环境编排,实现 3×–5× 的端到端加速
5.webp


基座模型表现

值得单独说一下基座模型的数据。Qwen3.5-397B-A17B 的基座在多个核心基准上全面领先同级开源模型,包括 DeepSeek-V3.2-671B-A37B 和 K2-1T-A32B
自然语言能力

知识与科学

MMLU-Pro 87.8 超过 GPT-5.2,GPQA 88.4 超过 Claude Opus 4.5,知识能力整体与闭源第一梯队相当。C-Eval 93.0,中文知识保持高位
HLE 28.7,这是目前已知最难的 STEM 基准之一,GPT-5.2 和 Gemini-3 Pro 在这项上也分别只有 35.5 和 37.5。官方同时发布了 HLE-Verified 得分 37.6
6.webp

知识与 STEM 评测数据推理与竞赛数学

竞赛数学是 Qwen3.5 目前和 GPT-5.2 差距最大的领域
AIME26 91.3、HMMT Feb 94.8、HMMT Nov 92.7,整体处于第二梯队,与 Claude Opus 4.5 和 Qwen3-Max-Thinking 相当。GPT-5.2 在这个板块仍然明显领先(AIME26 96.7,HMMT 两场分别 99.4 和 100)
LiveCodeBench v6 83.6,Gemini-3 Pro 以 90.7 领先
7.webp

推理与竞赛数学评测数据指令遵循与长上下文

IFBench 76.5,刷新所有模型纪录,包括 GPT-5.2 的 75.4
MultiChallenge 67.6 同样第一。IFEval 92.6 略低于 GPT-5.2 的 94.8
长上下文方面,LongBench v2 63.2、AA-LCR 68.7,与 Gemini-3 Pro 和 Claude Opus 4.5 有一定差距,是目前还有提升空间的方向
8.webp

指令遵循与长上下文评测数据Agent 能力

通用 Agent 方面,BFCL-V4 72.9、TAU2-Bench 86.7,整体处于第二梯队,仅次于 Claude Opus 4.5。DeepPlanning 34.3 排在 GPT-5.2(44.6)之后,位列第二
MCP-Mark 46.1、Tool Decathlon 与头部差距还比较明显,但大幅超过同级开源模型
9.webp

Agent 能力评测数据搜索 Agent

这是数据里最值得关注的板块
BrowseComp 78.6(使用与 DeepSeek / Kimi 相同的 discard-all 策略),超过所有闭源模型——GPT-5.2 为 65.8,Claude Opus 4.5 为 67.8
BrowseComp 大幅领先但 Seal-0 明显落后,说明不同搜索策略下表现差异很大。官方也注明,他们测试了两种策略:简单上下文折叠得分 69.0,discard-all 策略得分 78.6
10.webp

搜索 Agent 评测数据多语言

NOVA-63 得分 59.1 第一,MAXIFE 88.2 接近第一(GPT-5.2 为 88.4)。MMMLU 88.5、MMLU-ProX 84.7,多语言知识基准整体表现突出
PolyMATH 73.3,与 Gemini-3 Pro(81.6)和 Claude Opus 4.5(79.0)有差距,多语言数学推理还有提升空间
Qwen3.5 将词表从 15 万扩到 25 万,覆盖 201 种语言和方言
11.webp

多语言评测数据代码

SWE-bench Verified 76.4,与 Claude Opus 4.5(80.9)和 GPT-5.2(80.0)有可见差距。SecCodeBench 68.3 接近 GPT-5.2 和 Claude Opus 4.5 水平
代码能力相比上一代有明显进步,但与国际第一梯队仍有提升空间
12.webp

代码能力评测数据视觉语言能力

视觉 STEM 与推理

13.webp

视觉 STEM 与推理评测数据视觉 Agent

14.webp

视觉 Agent 评测数据
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-2 13:05 | 显示全部楼层
春节到,复制口令打开元宝App,红包抢起来! CZ9659 y:/CYGVDLX573
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-6 10:55 | 显示全部楼层
复制分享!春节打开元宝App,抢红包啦! HU7337 N:/G3G1EF7PBI
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-7 20:20 | 显示全部楼层
套路
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-7 20:20 | 显示全部楼层
APP下了,却没有喝到奶茶,怎么解决
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-12 23:47 | 显示全部楼层
豆包更适合中国人
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-13 21:16 | 显示全部楼层
难了,现在有豆包又有千问
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-13 22:21 | 显示全部楼层
还没有完全普及就开始收费了,太急了,他以为他是谁啊。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-16 18:17 | 显示全部楼层
做模型总比卖菜强,与民争利非君子所为。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-3-20 11:26 , Processed in 0.237375 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表