DeepSeek V4，一个王炸！

hnn · 发表于 2026-4-25 16:08

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微澜
来源：正和岛（ID：zhenghedao）

DeepSeek V4，终于亮相了。

就在2026年4月24日，AI圈的平静被一封发布稿打破。

没有任何预热，没有发布会，深度求索团队在官网和社交媒体上同步宣布：全新系列模型DeepSeek-V4 预览版正式上线并开源，即日起登录官网或App即可体验。

这是一次略显突然的发布。就在几天前，硅谷还在热议OpenAI的GPT-5.5和Anthropic的Claude Opus 4.6，全球AI领域的竞争早已呈现“万类霜天竞自由”的气象。

站在另一个维度来看，此刻距离DeepSeek上一次让全球AI行业震动，已经过去了近16个月。

时间拨回到2025年初。R1发布当天，行业迅速沸腾，中国AI团队用不到600万美元的算力成本训练出能与GPT-4正面竞争的模型，英伟达股价应声暴跌。那一周，DeepSeek同时登顶中美App Store下载榜首，“中国AI奇迹”的叙事铺天盖地。

在这近16个月的时间里，智谱和MiniMax先后登陆资本市场，市值一度冲破3000亿元；豆包、Qwen密集发布新版本，频频登顶各类榜单；Anthropic推出Claude 4系列，OpenAI迭代至GPT-5.5，

而DeepSeek在V3之后长达近16个月的时间里，只推出了几个跑分变化不大的中间版本，外界关于“DeepSeek是否后继乏力”的猜测此起彼伏。

近16个月的时间里，整个行业都在等待一个答案：DeepSeek究竟是昙花一现，还是一条可持续的技术路线？

终于，答案来了。

DeepSeek V4，有哪些亮点？

客观上讲，DeepSeek V4的发布略显朴素，没有任何预热，也没有发布会。

并且，在DeepSeek官方的稿件里面，似乎也没有太多“炸裂”元素。

DeepSeek官方在技术报告中坦诚地写道，V4的能力水平仍落后GPT-5.4和Gemini-3.1-Pro，“发展轨迹大约滞后前沿闭源模型3至6个月”。在国内AI发布稿里，这种主动承认差距的写法相当罕见。

但真正值得关注的不在于跑分是否登顶，而在于V4解决了一个困扰大模型行业多年的根本问题：长上下文的成本困境。

众所周知，传统Transformer架构有一个致命的扩展难题——注意力机制的计算量随上下文长度呈平方级增长。上下文翻倍，计算量翻四倍。这意味着，把上下文从128K扩展到100万token，理论上计算量会增长约60倍。

这也是为什么长期以来，百万字上下文要么是Google Gemini的独家王牌，要么是实验室里的漂亮数字，太贵了，用不起。

V4给出的解法是一种全新的混合注意力架构。通俗地解释，就像你在读一本1000页的书时找某个观点的关联内容。笨办法是把目标页和其他999页逐一比对，工作量随页数翻倍而变成四倍。聪明的办法是：先粗略判断哪些页面可能相关（稀疏选择），再把相关页面压缩成摘要（token压缩），两步叠加之后，工作量增长曲线被大幅压平。

这正是V4的核心创新：CSA（压缩稀疏注意力）和HCA（高度压缩注意力）的混合架构。在1M上下文设置下，V4-Pro的单token推理算力只有上一代V3.2的27%，KV缓存仅需10%；更经济的V4-Flash版本则将这两个数字分别压到了10%和7%。

换句话说，上下文长度扩大了近8倍，但推理成本反而下降了。

再回到模型本身来看，V4一口气发布两个版本：DeepSeek-V4-Pro 总参数1.6万亿、每次推理激活49B；DeepSeek-V4-Flash 总参数284B、激活13B。两者均原生支持100万token上下文。

理解这两个数字需要先理解MoE（混合专家）架构。简单讲，V4内部有大量“专家”子网络，每次处理信息时只激活其中一小部分。总参数决定知识容量，激活参数决定推理成本。这就像一家公司有1600个身怀绝技的员工，但每个项目只调49人上阵，可以按需灵活组合。

在能力评估上，DeepSeek的措辞相当克制。

发布稿明确表示：V4-Pro的Agent能力优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但仍与后者思考模式存在差距。在内部85名开发者和研究人员的调研中，超过九成认为V4-Pro已可作为首选或接近首选的编程模型。

能力的分布是不均匀的。在数学、STEM、竞赛型代码等推理密集型任务上，V4-Pro超越所有已知开源模型，比肩顶级闭源产品；在Codeforces人类选手排行榜上，V4-Pro-Max位列第23名；但在世界知识方面——事实性信息的覆盖广度，仅稍逊于Gemini-Pro-3.1。

这个差距来自数据：Google拥有搜索引擎索引和更大规模网页抓取的结构性优势，不是算法可以短期弥补的。

V4-Flash则定位为明确的性价比之选。很多人看到Pro和Flash两个档位，第一反应是“Flash就是降配版”，但实际并非如此。

V4-Flash的推理能力与Pro接近，世界知识稍逊，而在Think Max模式下，性能可以大幅追近Pro：LiveCodeBench Flash Max达到91.6，Codeforces Flash Max Rating达到3052，与Pro Max的差距已相当有限。

DeepSeek的底层突破

V4在Agent能力上的提升幅度引人注目。但这一点需要更细致的理解。

Agent任务的核心约束一直是上下文管理：任务链越长，需要维护的状态越多，有限的上下文窗口很快就成为瓶颈。V4的1M窗口意味着，Agent可以在更长的操作链里保持状态连贯，处理更大规模的代码库，跨越更多文档进行推理。

不只是模型变聪明了，底层条件也变了。

V4专门针对 Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品做了适配优化。后训练阶段，Agent是作为与数学、代码并列的独立方向单独训练的；工具调用格式从JSON换成了带特殊token的XML结构以降低错误率；跨轮次的推理痕迹在工具调用场景下完整保留，不再每轮清空。另外，DeepSeek还搭建了一套名为DSec的沙箱平台，单集群可并发管理数十万个沙箱实例，专门用来支撑Agent强化学习训练和评测。

这些细节指向同一个方向：V4不是在做“更强的聊天机器人”，而是在做“能干活的操作系统”。

另外，V4最核心的技术改动，是在注意力层。

传统Transformer的注意力机制，每个token要和前面所有token逐一计算相似度。上下文从10万拉到100万，计算量增长的不是10倍，而是100倍。

V4的做法是把注意力拆成两种，交替叠用：

一种是CSA（压缩稀疏注意力），先把每若干token的KV缓存合并成摘要，再让每个query只在这些摘要里挑选最相关的top-k条去算注意力——相当于既压缩了“要看的内容”，又只挑“值得看的”去算；

另一种是HCA（高压缩注意力），用更激进的压缩率把更长区间的token合并为一条，但保持稠密注意力。两种机制交替叠加，再加上一个滑动窗口分支处理“离得近的token之间的细节依赖”，形成了一套粗粒度与细粒度、稀疏与稠密的组合拳。

而除了注意力层，V4还在残差连接和优化器上动了刀。

传统残差连接被升级为mHC（流形约束超连接），通过数学约束让深层网络的信号传播更稳定；大部分模块的优化器从AdamW换成了Muon，通过迭代正交化梯度矩阵来加速收敛。这是DeepSeek第一次同时动Transformer的注意力、残差、优化器这三处核心结构。

后训练方法同样换了范式。V3.2用的是“混合RL”，一次性优化多个目标。

V4则换成了“分化再统一”的两步走：先针对数学、代码、Agent等不同领域独立训练专家模型，每个专家都在自己的赛道上跑到最优；再用一种叫On-Policy Distillation的方法，把十多个领域专家“蒸馏”回一个统一的学生模型——学生自己生成回答，针对每个回答匹配最懂这个问题的专家的输出分布，通过logit级对齐把能力吸收进来。用通俗的话说，把一堆尖子生蒸馏成一个通才。

这套流程的工程难度在于：同时加载十多个万亿参数级的教师模型做在线推理几乎不可能。DeepSeek的做法是把所有教师权重统一卸载到分布式存储，只缓存每个教师最后一层的hidden state，训练时按教师索引排序样本，保证任意时刻GPU显存里只驻留一个teacherhead。

从2025年初到今天，V3.1、V3.2那些“没什么亮点”的中间版本，当时看似乎是在原地踏步。现在回头看，DSA稀疏注意力的种子、TileLang替代CUDA的尝试、Engram架构的早期验证，都是在那时悄悄种下的，V3.2正是V4的地基。

DeepSeek V4，对国产芯片价值几何？

如果说技术架构的革新是V4的“明线”，那么对国产芯片产业链的重塑，则是这次发布最容易被低估的“暗线”。

要理解这条暗线的分量，需要先理解过去两年AI竞争的核心逻辑。大模型发展至今，行业的共识是：训练看算力，推理看显存。在训练阶段，谁能买到更多高端GPU，谁能堆出更大集群，谁就更有机会做出更强的基础模型。

英伟达凭借H100/A100系列GPU和CUDA生态，在这个阶段建立了看似难以逾越的护城河。

但大模型做出来之后，真正决定商业化速度和产业渗透深度的，是推理。尤其是以OpenClaw、Hermes为代表的Agent应用爆发后，推理的成本结构发生了根本性变化。

Agent任务的特点是上下文越来越长、记忆越来越深、工具调用越来越频繁。在这个场景下，GPU的显存会被KV缓存撑爆，大模型的推理质量急剧下降。

推理的第一个瓶颈，不是算力不够，是“记忆”和“计算”在抢同一块显存。

这正是国产芯片最大的短板所在。受限于先进制程，国产GPU在算力峰值上尚可追赶，但在显存容量和带宽上与英伟达存在代际差距。英伟达最新一代Rubin GPU搭载288GB HBM4内存，而国产芯片如昇腾910B的显存容量为64GB。如果按照传统架构跑长上下文推理，这个差距几乎是致命的。

DeepSeek V4的解题思路，不是硬拼硬件，而是从架构层面重构了“记忆”和“计算”的关系。

这涉及两个关键创新：其一，CSA/HCA混合注意力机制大幅压缩了KV缓存占用，1M上下文下，V4-Pro的KV缓存仅为V3.2的10%，V4-Flash更是压到7%。

其二，据公开论文推测，V4采用的Engram架构把模型里那些“死记硬背”的静态知识抽出来放入独立的内存表，推理时CPU负责“查字典”检索知识，GPU只负责“想逻辑”计算推理，两者完全重叠执行。当GPU在算上一个词的逻辑时，CPU已经把下一个词所需的知识搬到了门口。

延迟被这种并行架构彻底掩盖。

结果是什么？一个原本需要80GB显存才能跑的长上下文推理任务，在Engram架构下可能只需要8GB显存。英伟达引以为傲的HBM显存稀缺性，在这套架构面前被大幅削弱。国产芯片那64GB的显存容量，突然变得够用了。

这解释了为什么黄仁勋会在近期访谈中做出一个意味深长的假设。他说，如果DeepSeek新模型在华为平台上首发，“这一天对美国来说将是一个可怕的结果，因为这意味着AI模型被优化为在中国AI硬件上表现最佳，而这些模型扩散到全球之后，就会推动中国技术成为世界标准。”

而DeepSeek恰恰这么做了。

V4这次没有按行业惯例给英伟达早期测试权限，而是把提前适配的机会独家开放给了华为昇腾和寒武纪。目标是实现从CUDA生态到华为CANN框架的整体迁移。

V4技术报告第3.1节将华为昇腾NPU与英伟达GPU并列写进硬件验证清单——这是DeepSeek官方第一次这样做。V4的MoE专家权重和稀疏注意力索引器采用FP4精度，而FP4恰好是华为昇腾950PR芯片的原生支持精度。

这不是巧合，这是一条被悄悄铺了很久的路。

产业链的传导效应已经显现。据有关媒体报道，阿里巴巴、字节跳动和腾讯等科技巨头已提前下单华为新一代AI芯片，订单规模达数十万颗。

在华为之外，寒武纪在软硬一体生态中已完成对V4全系列的Day 0适配，适配代码开源至GitHub社区。沐曦股份预期2026年将扭亏为盈，有望成为继寒武纪之后另一家盈利的国产GPU厂商。当DeepSeek用万亿参数级别的模型验证了国产芯片可以承载顶级大模型的推理，整个生态的底气就变了。

并且，从更宏观的视角看，这件事改变的不仅是芯片选型，更是AI产业链的利润分配逻辑。

过去两年，英伟达凭借GPU垄断攫取了AI爆发期最丰厚的利润，其数据中心业务毛利率长期维持在70%以上。而当一家开源模型的架构创新能够进一步降低显存需求，能够跑通国产芯片并实现推理成本的大幅下降，英伟达的定价权就不再是铁板一块。

尽管短期内英伟达在高端训练GPU和CUDA生态上的优势仍难替代，但推理市场，这个远比训练更广阔、更具持续性的市场的游戏规则正在被改写。

这就是DeepSeek“曲线救国”的逻辑：不是在单卡性能上硬碰硬，而是用系统级优化、软硬协同和架构创新，重新定义了竞争维度。

正如一位GPU企业人士所说，国内厂商都是戴着“镣铐”与英伟达同台竞技。而V4证明了一件事：戴着镣铐也可以起舞，甚至能跳出一支让对方紧张的舞。

结语：梁文锋的安静“棋局”

V4发布稿结尾，DeepSeek引了一句荀子：“不诱于誉，不恐于诽，率道而行，端然正己。”

这句话放在DeepSeek一路走来的故事语境里，意味深长。

过去一年多，DeepSeek在外界的叙事里经历了过山车般的起伏。

2025年初V3和R1爆火后，媒体将其捧上神坛，“中国AI奇迹”的叙事铺天盖地。随后一年多，当Anthropic、OpenAI密集发布新模型，而DeepSeek只推出几个跑分变化不大的中间版本时，关于“后继乏力”的质疑又此起彼伏。在这个崇尚竞争和结果说话的行业里，掌声和嘘声都来得极快。

而梁文锋似乎始终活在自己的节奏里。

在DeepSeek内部，梁文锋更多扮演着一个导师的角色：组织研发、协调资源，也做具体研究，在共同成果上署名为通讯作者。他几乎把所有时间投入选定的少数事情上，不做融资、不参加团建、很少和成员聚餐。

DeepSeek至今保持着一些在全球AI圈都极其罕见的习惯：不打卡、没有明确的绩效考核，平日里多数员工会在下午六七点离开公司。在梁文锋看来，一个人每天能高质量工作的时间很难超过6到8小时，加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。

接近过梁文锋的人曾评价：“他是一个特别抗噪音的人。”

这种抗噪音的能力，解释了DeepSeek为何没有在R1爆火后乘胜追击放大招，而是沿着自己选定的方向继续深耕效率优化、架构改进和一些“非主流”探索。梁文锋认同的AGI目标有两层含义：一是基于国产生态来做大模型，他曾提出过“能不能用现存的一部分算力，就实现现在所有的智能”的假设；二是做“原创式创新”，做一些大厂或其它创业公司不会去试、不愿去试的方向。

这或许也能解释V4为何选择在这个时间点发布。不急不躁，按自己的节奏出牌，在技术成熟度、生态适配和成本重构都到位的节点，一击中的。

也就在V4发布后，一个容易被忽略的细节值得被重新提起：截至2026年4月，斯坦福大学HAI实验室发布的年度《AI指数报告》显示，中美大模型性能差距已收窄至2.7%，基本实现技术追平。

这个数字的背后，是两种截然不同的路径。

美国走的是“算力堆叠+商业驱动”的路，用全球最强的GPU、最充裕的资本、最激进的商业化来推动模型能力不断突破；

中国走的是另一条路，一条在算力受限、芯片被卡的条件下，只能靠架构创新和系统优化来“戴着镣铐起舞”的路。DeepSeek V4的每一项创新背后都能嗅到一个共同的动机：如何在更少的显存、更低的算力、更受限的硬件条件下，榨出更多的智能。

可以说，DeepSeek V4不是终点，甚至不是一次高潮。

它是一个信号，一个在算力受限的逆风局里，依然可以用原创架构打开新空间的信号；一个顶级开源模型不再必须绑定在英伟达芯片上的信号；一个没有融资、不卷加班、按自己节奏前行的团队，依然能站在第一梯队的信号。

“不诱于誉，不恐于诽，率道而行，端然正己。”

中国人工智能要走的路或许还很长，但方向并不迷茫。（PS：本文由DeepSeek辅助完成）

参考资料：[1].《刚刚，DeepSeek V4 双版本正式上线！》，机器之心[3].《DeepSeek V4：一句"下半年上国产算力"，比所有发布会都重要》，星海情报局[4].《一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片》，腾讯科技[5].《DeepSeek-V4 预览版：迈入百万上下文普惠时代》，DeepSeek[6].《DeepSeek-V4 技术报告》[7].《别高估英伟达，别低估DeepSeek》，虎嗅APP[8].《V4 发布前的 DeepSeek：特质、组织和梁文锋的独特目标》，晚点LatePost
排版 | 小元审校 | 微澜主编 | 孙允广

ycp123 · 发表于 2026-4-26 02:46

不管是美国的AI还是中国的AI，对战的双方其实都是中国人。

tdh0011 · 发表于 2026-4-26 08:54

啥也不说了，楼主就是给力！

wowcn · 发表于 2026-4-26 09:36

感谢分享

yzszh64 · 发表于 2026-4-26 10:07

感谢分享。

账号		自动登录	找回密码
密码			注册

[科技新闻] DeepSeek V4，一个王炸！

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。