xuye004 发表于 2026-1-15 11:37

DeepSeek V4刚发布,三大国产芯片同日宣布适配



文丨9527
4月24日上午,DeepSeek V4预览版上线,1.6万亿参数、百万token上下文、全量开源。几乎同一时间,OpenAI推出GPT-5.5——中美两个AI阵营的旗舰模型,第一次被放在同一天的时间线上。
但这一天真正的爆点不在模型侧。
华为昇腾、寒武纪、摩尔线程三家国产芯片厂商,在DeepSeek V4发布后的数小时内先后官宣:适配完成,发布即可用。这不是路线图,不是"计划支持",是Day0——模型上线当天,国产芯片就能跑起来。
A股午后率先给出了回应。海光信息盘中涨超10%,华虹公司涨近12%,中芯国际涨超5%,寒武纪涨近4%。半导体板块在大盘低迷的背景下逆市拉升,算力芯片概念全线走高。
资本市场的判断很直接:中国AI第一次在世界级模型发布的同一天,就亮出了全国产算力的完整方案。
昇腾950:20毫秒时延,单卡吞吐碾压H20

华为这次拿出的数据,是三家里最硬的。
据IT之家报道,基于DeepSeek V4-Pro模型,在8K输入场景下,昇腾950超节点实现TPOT约20ms时单卡Decode吞吐4700TPS。换成更轻量的V4-Flash,同样8K输入场景下TPOT约10ms,单卡1600TPS。华为官方表述是"大幅提升推理性能",但对比行业此前公开的NVIDIA H20数据,昇腾950的单卡推理能力已经拉开了明显差距。
不止推理端。昇腾A3超节点同步适配,64卡大EP模式下部署V4-Flash,基于vLLM推理引擎可实现单卡2000+TPS的Decode吞吐。A2超节点也在适配名单中——华为这次是全系列产品一起交卷。
性能数字背后,是昇腾950在底层架构上的三项代际升级。第一,原生支持FP8、MXFP8、MXFP4等低精度数据格式,内存占用降低50%以上,计算能力翻倍。第二,针对MoE模型离散访存特征做了硬件级稀疏访存优化,解决专家路由过程中的带宽瓶颈。第三,Vector与Cube计算单元共享Memory,消除片上数据搬运开销。
这三项不是软件层面的修修补补,而是芯片架构层面为大模型推理"定制"的能力。
训练侧同样没有缺席。华为同步开源了TorchTitan-NPU训练框架和AutoFuse自动融合工具,续训练吞吐可达1100 tokens/p/s。更值得关注的是两个面向开发者的举措:PyPTO编程范式让算子开发周期缩短至天级,TileLang-Ascend则直接在TileAI开源社区发布——从推理到训练、从芯片到开发工具,华为试图在一天之内把整条链路打通。
寒武纪:代码已开源,社区可复现

寒武纪的打法不同。它选择了一个对行业更有意义的路径:基于vLLM主流推理框架完成适配,然后把代码直接开源到GitHub。
据寒武纪官方公众号消息,此次适配覆盖285B的V4-Flash和1.6T的V4-Pro两个版本,发布当日即实现稳定运行。这已经是寒武纪连续第二次在DeepSeek新模型发布首日推出国产芯片适配方案——上一次是DeepSeek-V3.2。
技术层面,寒武纪亮出了自研的高性能融合算子库Torch-MLU-Ops。针对V4的新结构,这套算子库对Compressor、mHC等模块进行了专项加速。底层用BangC高性能编程语言编写稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel,目标是充分释放硬件底层性能。
在推理框架层面,寒武纪在vLLM中实现了TP/PP/SP/DP/EP五维混合并行,加上通信计算并行、低精度量化以及PD分离部署,在满足延时约束的前提下达到最佳词元吞吐。硬件特性也被深度挖掘:MLU的访存与排序加速能力被用来加速稀疏Attention和Indexer结构,高互联带宽和低通信延时将分布式推理中的通信占比压到最低。
选择vLLM框架、选择GitHub开源,这两个决定意味着:任何有寒武纪硬件的团队都可以直接拉取代码、复现推理流程,迁移成本被压到最低。寒武纪正在从"做芯片"向"做生态"转身。
摩尔线程与FlagOS:原生FP8引擎的Day0答卷

摩尔线程走的是另一条路——携手智源众智FlagOS社区,在旗舰GPU MTT S5000上完成了对V4-Flash的Day0适配,并完成全量核心算子的深度优化与部署。
V4模型首次采用FP4+FP8混合精度策略,这对芯片的低精度支持能力提出了新要求。MTT S5000恰好是原生支持FP8的全功能GPU,内置FP8 Tensor Core加速单元,从传统BF16/FP16到FP8可以逐位直接切入,显存压缩超过50%的同时计算吞吐实现翻倍。
FlagOS团队针对MTT S5000的FP8硬件特性做了深度联调。通过自研FlagTree编译器优化底层执行效率,结合FlagOS-Tune自动调优框架搜索最优Triton内核配置。据天极网报道,优化后TTFT时延降低16.5%,ITL时延降低39.7%,整体Throughput提升65.7%。
更广泛的产业响应也在同步展开。智源众智FlagOS社区宣布,已完成DeepSeek-V4-Flash在8款以上AI芯片上的全量适配与推理部署,除了昇腾和摩尔线程,还包括海光、沐曦等厂商。一个围绕国产芯片的多元适配生态正在加速成形。
DeepSeek的明牌:算力决定价格

在所有芯片厂商的热闹之外,DeepSeek自己说了一句意味深长的话。
在官方发布文章的定价备注里,DeepSeek写道:"受限于高端算力,目前DeepSeek-V4-Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市并部署之后,Pro版本的价格也会大幅度下调。"
这句话把几件事说透了。第一,V4-Pro当前12元/24元的API定价是一个受限于产能的过渡价,不是最终价。第二,价格下调的时间节点直接绑定了昇腾950的交付进度。第三,DeepSeek的商业化速度,某种程度上取决于国产芯片的产能释放速度。
V4的技术报告进一步坐实了这层关系。报告第3.1节明确写道:"我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度EP(专家并行)方案。"这是DeepSeek第一次在正式技术文档中把华为昇腾和英伟达并列写入硬件验证清单。报告还披露,V4的MoE专家权重和稀疏注意力索引器都采用FP4精度——而FP4(mxFP4)恰恰是昇腾950的原生支持格式。
换句话说,V4的架构设计本身就在为国产芯片铺路。稀疏结构、压缩推理、低精度量化,这些让V4成本骤降的技术特性,同时也让它对国产芯片更加友好。从"不得不用NVIDIA"到"主动适配昇腾",DeepSeek的硬件策略发生了根本性转向。
Day0适配意味着什么

把时间拉回一年前,国产芯片适配海外模型的周期通常以月计。即便是国内模型,芯片厂商的跟进也往往滞后数周。
4月24日这天打破了这个惯例。模型发布和芯片适配在同一天完成,唯一的解释是:芯片厂商与DeepSeek团队之间存在深度的提前协作。架构文档、模型权重、推理框架的对接,必须在模型正式发布之前就已经启动。
这种"零时差"适配的产业意义远大于技术本身。它证明了中国AI产业链的协同能力已经跨过一个临界点——模型层与算力层不再是各做各的,而是提前咬合、同步交付。
A股当天的反应也印证了这一点。资本市场用真金白银表态:海光信息(芯片设计)、中芯国际(芯片制造)、通富微电(封装测试)全链条受益。市场看到的不只是某一家公司的技术突破,而是一条从设计到制造到封测的完整产业链在同时亮灯。
距离终点还有多远

但冷静下来看,Day0适配是里程碑,不是终点。
昇腾950的性能数据足够亮眼,但它要到下半年才能批量上市。性能达标和规模量产之间,还隔着良率、封装、供应链的重重关卡。寒武纪开源了代码,但大规模部署的稳定性仍需时间验证。单卡性能和集群效率是两回事——千卡万卡训练场景下的互联调度和通信开销,才是真正的硬仗。
更深层的挑战在于软件生态。CUDA经过十多年积累,开发者惯性巨大。CANN、Torch-MLU-Ops、MUSA这些国产替代方案虽然在快速进步,但工具链的成熟度、文档的完善程度、社区的活跃度,与CUDA生态仍有差距。芯片的竞争从来不只是算力的竞争,更是开发者生态的竞争。
"国产替代"不能变成口号。Day0适配是一个漂亮的开始,但要让开发者真正愿意从CUDA迁移过来,需要的不仅仅是性能对标,还有持续数年的生态建设。
4月24日的三重意义

这一天,中国AI行业同时发生了三件事:一个世界级开源模型正式发布,三家国产芯片厂商集体完成Day0适配,资本市场给出了清晰的定价。
DeepSeek V4加上昇腾、寒武纪、摩尔线程,构成了中国AI第一次在模型和算力两端同时交卷的完整图景。而DeepSeek在技术报告中把昇腾写进硬件验证清单、在定价策略中绑定昇腾950的产能节奏,则让这张图景有了更深的含义——模型和芯片不再是两条平行线,而是一条互相定义的螺旋。
下半年昇腾950批量上市、寒武纪持续开源迭代、摩尔线程推进V4-Pro适配,这些后续动作才是真正的分水岭。4月24日打开了一扇门,但门后面的路还很长。
留给行业的问题是:当中国AI不再缺模型、也开始不缺芯片的时候,下一个瓶颈会是什么?
本文为AI生成,仅供参考、学习使用。

咖啡豆 发表于 2026-1-15 11:56

过年了过年了,DeepSeek新模型什么时候出?

疯了吧 发表于 2026-4-8 11:43

直接起飞🛫!

诛仙九妹 发表于 2026-4-9 13:36

完啦完啦

疯了吧 发表于 2026-4-10 11:17

蒸馏吗

—じ☆ve人生— 发表于 2026-4-10 15:48

这几个AI比起来,好像他不太智能

咖啡豆 发表于 2026-4-11 16:02

Deep Seek download

meto 发表于 2026-4-19 08:14

太晚了,都没人用了。应该提前一年融资。

meto 发表于 2026-4-24 12:40

[点赞][点赞][点赞][点赞][点赞][点赞]
页: [1]
查看完整版本: DeepSeek V4刚发布,三大国产芯片同日宣布适配