DeepSeek新模型开源，新架构亮了！国产AI芯片集体狂欢

superzhzh · 发表于 2025-9-30 11:15

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

智东西（公众号：zhidxcom）
作者 | 陈骏达
编辑 | 心缘
DeepSeek离下一代架构，又近了一步！
智东西9月30日报道，昨日，DeepSeek宣布开源DeepSeek-V3.2-Exp实验版模型。该模型首次引入了DeepSeek Sparse Attention稀疏注意力机制，并在几乎不影响模型输出效果的前提下，大幅度提升了长文本训练和推理效率，被DeepSeek定义为“迈向新一代架构的中间步骤”。

HuggingFace地址：
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
魔搭社区地址：
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
这一改进还降低了DeepSeek新模型的服务成本，DeepSeek因此执行了新的价格政策，让开发者调用DeepSeek API的成本降低50%以上。
降价幅度最大的为输出token的价格：DeepSeek-V3.2-Exp模型输出100万个token的价格仅为3元，为DeepSeek-V3.1系列模型的1/4。

截至9月30日上午6点，华为云、PPIO派欧云、优刻得等云平台已宣布上线DeepSeek-V3.2-Exp，华为、寒武纪、海光信息等AI芯片厂商已经宣布适配DeepSeek-V3.2-Exp。
DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基础上打造的。在各领域的公开评测集上，两款模型的表现基本一致，不过，DeepSeek-V3.2-Exp完成任务使用的token量大幅度减少。

目前，DeepSeek App、网页端与小程序均已同步上线了DeepSeek-V3.2-Exp模型。DeepSeek也临时保留了DeepSeek-V3.1-Terminus的API接口，方便开发者进行对比验证。
除模型本体外，DeepSeek还开源了相关技术报告及代码，并提供TileLang与CUDA双版本GPU算子，以便研究者在不同层级进行实验和优化。

技术报告地址：
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
DeepSeek还补充道，作为一个实验性的版本，DeepSeek-V3.2-Exp虽然已经在公开评测集上得到了有效性验证，但仍然需要在用户的真实使用场景中进行范围更广、规模更大的测试，以排除在某些场景下效果欠佳的可能。
一、华为、海光、寒武纪光速适配，网友直呼第二个DeepSeek时刻要来了

DeepSeek-V3.2-Exp一经推出，便在产业界与开发者圈子里引发热烈反响，不少国内企业纷纷第一时间宣布完成DeepSeek-V3.2-Exp的适配和上线。
华为计算公众号发文宣布，昇腾已快速基于vLLM/SGLang等推理框架完成适配部署，实现DeepSeek-V3.2-Exp Day 0（第零天）支持，并面向开发者开源所有推理代码和算子实现。DeepSeek-V3.2-Exp在昇腾设备上128K长序列输出，能够保持TTFT（首token输出耗时）低于2秒、TPOT（每token输出耗时）低于30毫秒的推理生成速度。

华为云则首发上线了DeepSeek-V3.2-Exp，还使用CloudMatrix 384超节点为该模型提供推理服务。

在DeepSeek发文宣布DeepSeek-V3.2-Exp模型开源后的4分钟，寒武纪也发文称其已同步实现对该模型的Day 0适配，并开源大模型推理引擎vLLM-MLU源代码。
寒武纪通过Triton算子开发实现了快速适配，利用BangC融合算子开发实现了性能优化，并基于计算与通信的并行策略，达成了较高的计算效率水平。
DeepSeek-V3.2-Exp模型的尺寸达671GB，仅下载就可能需要数小时。这种时隔4分钟的Day 0适配，或许意味着寒武纪和DeepSeek两家企业在模型发布前就已经启动适配工作。

据经济观察网报道，海光信息的DCU（深度计算处理器）率先实现了对DeepSeek-V3.2-Exp的Day 0级高效适配与优化，确保大模型算力“零等待”部署。

在DeepSeek官宣DeepSeek-V3.2-Exp开源的推文中，有不少网友分享了对模型的使用体验和感受。有位网友称，自己在10万个token的代码库上测试了DeepSeek-V3.2-Exp，速度提升非常明显。

有网友感叹，DeepSeek API现在几乎等同于免费了。

更有网友认为，这一模型的推出，或许意味着第二个DeepSeek时刻即将到来。

Hugging Face上，DeepSeek-V3.2-Exp的社区板块也有不少讨论，不过，关注度最高的一条帖子，是来自中国网友的“吐槽”：“咱这个模型是非得国庆前更新吗？”

还有网友列出了DeepSeek每次更新模型的时间，几乎都卡在节假日的前几天。

二、一手体验DeepSeek-V3.2-Exp，架构创新或许比性能提升更重要

DeepSeek-V3.2-Exp在使用体验上，究竟与此前的DeepSeek-V3.1-Terminus有何不同？
在编程方面，DeepSeek-V3.2-Exp撰写的代码明显更为简短了，相同的任务下，其输出的代码行数要少于DeepSeek-V3.1-Terminus。
不过，这在某种程度上也影响了模型的性能。DeepSeek-V3.2-Exp编写的小球弹跳动画代码未能正常运行，小球直接飞出了六边形的范围。DeepSeek-V3.1-Terminus在智东西此前的测试中完美地完成了这一任务。

智东西还让DeepSeek-V3.2-Exp完成了一项信息检索任务，要求它推荐几种适合新手在阳台盆栽的、生长快、果子能直接生吃的植物，并且要保证对小孩绝对安全，最好能附上简单的播种技巧。
与DeepSeek-V3.1-Terminus（左）相比，DeepSeek-V3.2-Exp（右）的生成结果更为简短，用词也比较“朴素”。并且，DeepSeek-V3.2-Exp推荐的无花果、百香果等植物，需要进行扦插、高频率养护等操作，并不符合提示词要求的新手友好。

▲DeepSeek-V3.1-Terminus（左）与DeepSeek-V3.2-Exp（右）在信息检索任务上的表现（图源：智东西）
总体而言，DeepSeek-V3.2-Exp确实在推理效率上实现提升，但却在能力上做出了一定的让步。
知乎博主@toyama nao也在测评中发现了类似的问题。他认为，DeepSeek-V3.2-Exp在工作记忆、计算精度稳定性等方面存在明显短板，还容易有偷懒倾向和陷入死循环的可能。

▲知乎博主@toyama nao对DeepSeek-V3.2-Exp的评价
这也得到了其他网友观点的印证，例如，这位网友便在x平台发帖称，并没在这款模型上看到改进，并提出质疑：我们为什么要使用能力降级的模型呢？

作为一款实验模型，DeepSeek-V3.2-Exp更大的贡献或许在于理论层面。DeepSeek称，与DeepSeek-V3.1-Terminus相比，DeepSeek-V3.2-Exp在架构上的唯一修改，就是通过继续训练引入了DeepSeek Sparse Attention。
目前的DSA机制还处在原型期，主要由两个组件构成：一个Lightning Indexer（闪电索引器）和一个细粒度的token选择机制。

▲DeepSeek-V3.2-Exp架构图
Lightning Indexer能够快速评估查询token与历史token的相关性，从选择机制只挑选最相关的一部分上下文进入注意力计算，这让复杂度从传统的二次方降到了近似线性水平，大幅降低了训练和推理的成本。
在训练上，DeepSeek-V3.2-Exp采用了“继续预训练+后训练”的方式。继续预训练分为两个阶段：首先在稠密模式下短暂训练indexer，让它的输出和标准注意力保持一致；随后引入稀疏选择机制，逐渐让模型适应新的计算方式。
完成预训练后，DeepSeek-V3.2-Exp又通过专家蒸馏和混合强化学习进行后训练。专家蒸馏的思路是针对数学、编程、推理等不同领域训练专门的专家模型，然后将这些模型的知识压缩进通用模型。
混合强化学习则将推理、智能体能力和人类对齐训练统一在一个RL阶段中，避免了传统多阶段方法容易出现的遗忘问题。
技术报告显示，DeepSeek-V3.2-Exp在大多数评测任务上的表现与前代基本持平，个别推理相关的测试分数略有下降，但主要原因是生成的推理token更少，如果使用中间检查点，差距则会缩小。

相比之下，效率的提升尤为显著。在H800 GPU的测试环境中，长序列推理的开销明显降低，证明DSA在真实部署中有很强的实用性。

同时，训练曲线与前代模型保持相似的稳定性，也表明这种架构在收敛性上并没有额外风险。

结语：DeepSeek迈向新一代架构

正如其名字内的Exp（实验版）所言，DeepSeek-V3.2-Exp的推出，本身并不是一次性能爆表的升级，而更像是一场架构实验，展示了一种在长文本处理中兼顾性能和效率的新路径。
作为技术原型，DeepSeek-V3.2-Exp背后的DSA机制或许很快就会得到进一步完善。随着相关技术的持续优化和更多企业、研究者参与验证，DeepSeek有望在不久的未来交出更令人惊喜的成果。

voo · 发表于 2025-9-30 11:56

稀疏机制会成主流吗？

cjlcjl · 发表于 2025-9-30 11:56

用了这新模型查资料，速度快得像坐火箭，不过推荐的小孩安全植物还得自己再查，有点小麻烦，但API降价一半真香

账号		自动登录	找回密码
密码			注册

[科技新闻] DeepSeek新模型开源，新架构亮了！国产AI芯片集体狂欢

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块