夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 49|回复: 4

[科技新闻] DeepSeek V4,一个王炸!

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-4-25 16:08 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
作 者:微澜
来 源:正和岛(ID:zhenghedao)


DeepSeek V4,终于亮相了。


就在2026424日,AI圈的平静被一封发布稿打破。


没有任何预热,没有发布会,深度求索团队在官网和社交媒体上同步宣布:全新系列模型DeepSeek-V4 预览版正式上线并开源,即日起登录官网或App即可体验。


1.webp



这是一次略显突然的发布。就在几天前,硅谷还在热议OpenAIGPT-5.5AnthropicClaude Opus 4.6,全球AI领域的竞争早已呈现万类霜天竞自由的气象。


站在另一个维度来看,此刻距离DeepSeek上一次让全球AI行业震动,已经过去了近16个月。


时间拨回到2025年初。R1发布当天,行业迅速沸腾,中国AI团队用不到600万美元的算力成本训练出能与GPT-4正面竞争的模型,英伟达股价应声暴跌。那一周,DeepSeek同时登顶中美App Store下载榜首,中国AI奇迹的叙事铺天盖地。


在这近16个月的时间里,智谱和MiniMax先后登陆资本市场,市值一度冲破3000亿元;豆包Qwen密集发布新版本,频频登顶各类榜单;Anthropic推出Claude 4系列,OpenAI迭代至GPT-5.5


DeepSeekV3之后长达近16个月的时间里,只推出了几个跑分变化不大的中间版本,外界关于“DeepSeek是否后继乏力的猜测此起彼伏。


16个月的时间里,整个行业都在等待一个答案:DeepSeek究竟是昙花一现,还是一条可持续的技术路线?


终于,答案来了。


2.webp

DeepSeek V4,有哪些亮点?



客观上讲,DeepSeek V4的发布略显朴素,没有任何预热,也没有发布会。


并且,在DeepSeek官方的稿件里面,似乎也没有太多“炸裂”元素。


DeepSeek官方在技术报告中坦诚地写道,V4的能力水平仍落后GPT-5.4Gemini-3.1-Pro发展轨迹大约滞后前沿闭源模型36个月。在国内AI发布稿里,这种主动承认差距的写法相当罕见。


但真正值得关注的不在于跑分是否登顶,而在于V4解决了一个困扰大模型行业多年的根本问题:长上下文的成本困境。


众所周知,传统Transformer架构有一个致命的扩展难题——注意力机制的计算量随上下文长度呈平方级增长。上下文翻倍,计算量翻四倍。这意味着,把上下文从128K扩展到100token,理论上计算量会增长约60倍。


这也是为什么长期以来,百万字上下文要么是Google Gemini的独家王牌,要么是实验室里的漂亮数字,太贵了,用不起。


V4给出的解法是一种全新的混合注意力架构。通俗地解释,就像你在读一本1000页的书时找某个观点的关联内容。笨办法是把目标页和其他999页逐一比对,工作量随页数翻倍而变成四倍。聪明的办法是:先粗略判断哪些页面可能相关(稀疏选择),再把相关页面压缩成摘要token压缩),两步叠加之后,工作量增长曲线被大幅压平。


这正是V4的核心创新:CSA(压缩稀疏注意力)HCA(高度压缩注意力)的混合架构。在1M上下文设置下,V4-Pro的单token推理算力只有上一代V3.227%KV缓存仅需10%;更经济的V4-Flash版本则将这两个数字分别压到了10%7%


换句话说,上下文长度扩大了近8倍,但推理成本反而下降了。


再回到模型本身来看,V4一口气发布两个版本:DeepSeek-V4-Pro 总参数1.6万亿、每次推理激活49BDeepSeek-V4-Flash 总参数284B、激活13B。两者均原生支持100token上下文。


理解这两个数字需要先理解MoE(混合专家)架构。简单讲,V4内部有大量专家子网络,每次处理信息时只激活其中一小部分。总参数决定知识容量,激活参数决定推理成本。这就像一家公司有1600个身怀绝技的员工,但每个项目只调49人上阵,可以按需灵活组合。


在能力评估上,DeepSeek的措辞相当克制。


发布稿明确表示:V4-ProAgent能力优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与后者思考模式存在差距。在内部85名开发者和研究人员的调研中,超过九成认为V4-Pro已可作为首选或接近首选的编程模型。


3.webp



能力的分布是不均匀的。在数学、STEM、竞赛型代码等推理密集型任务上,V4-Pro超越所有已知开源模型,比肩顶级闭源产品;在Codeforces人类选手排行榜上,V4-Pro-Max位列第23名;但在世界知识方面——事实性信息的覆盖广度,仅稍逊于Gemini-Pro-3.1


这个差距来自数据:Google拥有搜索引擎索引和更大规模网页抓取的结构性优势,不是算法可以短期弥补的。


4.webp



V4-Flash则定位为明确的性价比之选。很多人看到ProFlash两个档位,第一反应是“Flash就是降配版”,但实际并非如此。



V4-Flash的推理能力与Pro接近,世界知识稍逊,而在Think Max模式下,性能可以大幅追近ProLiveCodeBench Flash Max达到91.6Codeforces Flash Max Rating达到3052,与Pro Max的差距已相当有限。


5.webp

DeepSeek的底层突破



V4Agent能力上的提升幅度引人注目。但这一点需要更细致的理解。


Agent任务的核心约束一直是上下文管理:任务链越长,需要维护的状态越多,有限的上下文窗口很快就成为瓶颈。V41M窗口意味着,Agent可以在更长的操作链里保持状态连贯,处理更大规模的代码库,跨越更多文档进行推理。


不只是模型变聪明了,底层条件也变了。


V4专门针对 Claude CodeOpenClawOpenCode、CodeBuddy等主流Agent产品做了适配优化。后训练阶段,Agent是作为与数学、代码并列的独立方向单独训练的;工具调用格式从JSON换成了带特殊tokenXML结构以降低错误率;跨轮次的推理痕迹在工具调用场景下完整保留,不再每轮清空。另外,DeepSeek还搭建了一套名为DSec的沙箱平台,单集群可并发管理数十万个沙箱实例,专门用来支撑Agent强化学习训练和评测。


这些细节指向同一个方向:V4不是在做更强的聊天机器人,而是在做能干活的操作系统


另外,V4最核心的技术改动,是在注意力层。


传统Transformer的注意力机制,每个token要和前面所有token逐一计算相似度。上下文从10万拉到100万,计算量增长的不是10倍,而是100倍。



V4的做法是把注意力拆成两种,交替叠用:


一种是CSA(压缩稀疏注意力),先把每若干tokenKV缓存合并成摘要,再让每个query只在这些摘要里挑选最相关的top-k条去算注意力——相当于既压缩了要看的内容,又只挑值得看的去算;


另一种是HCA(高压缩注意力),用更激进的压缩率把更长区间的token合并为一条,但保持稠密注意力。两种机制交替叠加,再加上一个滑动窗口分支处理离得近的token之间的细节依赖,形成了一套粗粒度与细粒度、稀疏与稠密的组合拳。


6.webp



而除了注意力层,V4还在残差连接和优化器上动了刀。


传统残差连接被升级为mHC(流形约束超连接),通过数学约束让深层网络的信号传播更稳定;大部分模块的优化器从AdamW换成了Muon,通过迭代正交化梯度矩阵来加速收敛。这是DeepSeek第一次同时动Transformer的注意力、残差、优化器这三处核心结构。


后训练方法同样换了范式。V3.2用的是混合RL”,一次性优化多个目标。


V4则换成了分化再统一的两步走:先针对数学、代码、Agent等不同领域独立训练专家模型,每个专家都在自己的赛道上跑到最优;再用一种叫On-Policy Distillation的方法,把十多个领域专家蒸馏回一个统一的学生模型——学生自己生成回答,针对每个回答匹配最懂这个问题的专家的输出分布,通过logit级对齐把能力吸收进来。用通俗的话说,把一堆尖子生蒸馏成一个通才。


这套流程的工程难度在于:同时加载十多个万亿参数级的教师模型做在线推理几乎不可能。DeepSeek的做法是把所有教师权重统一卸载到分布式存储,只缓存每个教师最后一层的hidden state,训练时按教师索引排序样本,保证任意时刻GPU显存里只驻留一个teacherhead。


从2025年初到今天,V3.1V3.2那些“没什么亮点”的中间版本,当时看似乎是在原地踏步。现在回头看,DSA稀疏注意力的种子、TileLang替代CUDA的尝试、Engram架构的早期验证,都是在那时悄悄种下的,V3.2正V4的地基。


7.webp

DeepSeek V4,对国产芯片价值几何?



如果说技术架构的革新是V4的“明线”,那么对国产芯片产业链的重塑,则是这次发布最容易被低估的“暗线”。


要理解这条暗线的分量,需要先理解过去两年AI竞争的核心逻辑。大模型发展至今,行业的共识是:训练看算力,推理看显存。在训练阶段,谁能买到更多高端GPU,谁能堆出更大集群,谁就更有机会做出更强的基础模型。


英伟达凭借H100/A100系列GPUCUDA生态,在这个阶段建立了看似难以逾越的护城河。


但大模型做出来之后,真正决定商业化速度和产业渗透深度的,是推理。尤其是以OpenClawHermes为代表的Agent应用爆发后,推理的成本结构发生了根本性变化。


Agent任务的特点是上下文越来越长、记忆越来越深、工具调用越来越频繁。在这个场景下,GPU的显存会被KV缓存撑爆,大模型的推理质量急剧下降。


推理的第一个瓶颈,不是算力不够,是“记忆”和“计算”在抢同一块显存。


这正是国产芯片最大的短板所在。受限于先进制程,国产GPU在算力峰值上尚可追赶,但在显存容量和带宽上与英伟达存在代际差距。英伟达最新一代Rubin GPU搭载288GB HBM4内存,而国产芯片如昇腾910B的显存容量为64GB。如果按照传统架构跑长上下文推理,这个差距几乎是致命的。


DeepSeek V4的解题思路,不是硬拼硬件,而是从架构层面重构了“记忆”和“计算”的关系。


这涉及两个关键创新:其一,CSA/HCA混合注意力机制大幅压缩了KV缓存占用,1M上下文下,V4-ProKV缓存仅为V3.210%V4-Flash更是压到7%


其二,据公开论文推测,V4采用的Engram架构把模型里那些“死记硬背”的静态知识抽出来放入独立的内存表,推理时CPU负责“查字典”检索知识,GPU只负责“想逻辑”计算推理,两者完全重叠执行。当GPU在算上一个词的逻辑时,CPU已经把下一个词所需的知识搬到了门口。


延迟被这种并行架构彻底掩盖。


结果是什么?一个原本需要80GB显存才能跑的长上下文推理任务,在Engram架构下可能只需要8GB显存。英伟达引以为傲的HBM显存稀缺性,在这套架构面前被大幅削弱。国产芯片那64GB的显存容量,突然变得够用了。


这解释了为什么黄仁勋会在近期访谈中做出一个意味深长的假设。他说,如果DeepSeek新模型在华为平台上首发,“这一天对美国来说将是一个可怕的结果,因为这意味着AI模型被优化为在中国AI硬件上表现最佳,而这些模型扩散到全球之后,就会推动中国技术成为世界标准。”


DeepSeek恰恰这么做了。


V4这次没有按行业惯例给英伟达早期测试权限,而是把提前适配的机会独家开放给了华为昇腾和寒武纪。目标是实现从CUDA生态到华为CANN框架的整体迁移。


V4技术报告第3.1节将华为昇腾NPU与英伟达GPU并列写进硬件验证清单——这是DeepSeek官方第一次这样做。V4MoE专家权重和稀疏注意力索引器采用FP4精度,而FP4恰好是华为昇腾950PR芯片的原生支持精度。


这不是巧合,这是一条被悄悄铺了很久的路。


产业链的传导效应已经显现。据有关媒体报道,阿里巴巴、字节跳动和腾讯等科技巨头已提前下单华为新一代AI芯片,订单规模达数十万颗。


在华为之外,寒武纪在软硬一体生态中已完成对V4全系列的Day 0适配,适配代码开源至GitHub社区。沐曦股份预期2026年将扭亏为盈,有望成为继寒武纪之后另一家盈利的国产GPU厂商。当DeepSeek用万亿参数级别的模型验证了国产芯片可以承载顶级大模型的推理,整个生态的底气就变了。


并且,从更宏观的视角看,这件事改变的不仅是芯片选型,更是AI产业链的利润分配逻辑。


过去两年,英伟达凭借GPU垄断攫取了AI爆发期最丰厚的利润,其数据中心业务毛利率长期维持在70%以上。而当一家开源模型的架构创新能够进一步降低显存需求,能够跑通国产芯片并实现推理成本的大幅下降,英伟达的定价权就不再是铁板一块。


尽管短期内英伟达在高端训练GPUCUDA生态上的优势仍难替代,但推理市场,这个远比训练更广阔、更具持续性的市场的游戏规则正在被改写。


这就是DeepSeek“曲线救国”的逻辑:不是在单卡性能上硬碰硬,而是用系统级优化、软硬协同和架构创新,重新定义了竞争维度。


正如一位GPU企业人士所说,国内厂商都是戴着“镣铐”与英伟达同台竞技。V4证明了一件事:戴着镣铐也可以起舞,甚至能跳出一支让对方紧张的舞。


8.webp

结语:梁文锋的安静“棋局”



V4发布稿结尾,DeepSeek引了一句荀子:“不诱于誉,不恐于诽,率道而行,端然正己。”


这句话放在DeepSeek一路走来的故事语境里,意味深长。


过去一年多,DeepSeek在外界的叙事里经历了过山车般的起伏。


2025年初V3R1爆火后,媒体将其捧上神坛,“中国AI奇迹”的叙事铺天盖地。随后一年多,当AnthropicOpenAI密集发布新模型,而DeepSeek只推出几个跑分变化不大的中间版本时,关于“后继乏力”的质疑又此起彼伏。在这个崇尚竞争和结果说话的行业里,掌声和嘘声都来得极快。


而梁文锋似乎始终活在自己的节奏里。


DeepSeek内部,梁文锋更多扮演着一个导师的角色:组织研发、协调资源,也做具体研究,在共同成果上署名为通讯作者。他几乎把所有时间投入选定的少数事情上,不做融资、不参加团建、很少和成员聚餐。


DeepSeek至今保持着一些在全球AI圈都极其罕见的习惯:不打卡、没有明确的绩效考核,平日里多数员工会在下午六七点离开公司。在梁文锋看来,一个人每天能高质量工作的时间很难超过68小时,加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。


接近过梁文锋的人曾评价:“他是一个特别抗噪音的人。”


这种抗噪音的能力,解释了DeepSeek为何没有在R1爆火后乘胜追击放大招,而是沿着自己选定的方向继续深耕效率优化、架构改进和一些“非主流”探索。梁文锋认同的AGI目标有两层含义:一是基于国产生态来做大模型,他曾提出过“能不能用现存的一部分算力,就实现现在所有的智能”的假设;二是做“原创式创新”,做一些大厂或其它创业公司不会去试、不愿去试的方向。


这或许也能解释V4为何选择在这个时间点发布。不急不躁,按自己的节奏出牌,在技术成熟度、生态适配和成本重构都到位的节点,一击中的。


也就在V4发布后,一个容易被忽略的细节值得被重新提起:截至20264月,斯坦福大学HAI实验室发布的年度《AI指数报告》显示,中美大模型性能差距已收窄至2.7%,基本实现技术追平。


这个数字的背后,是两种截然不同的路径。


美国走的是“算力堆叠+商业驱动”的路,用全球最强的GPU、最充裕的资本、最激进的商业化来推动模型能力不断突破;


中国走的是另一条路,一条在算力受限、芯片被卡的条件下,只能靠架构创新和系统优化来“戴着镣铐起舞”的路。DeepSeek V4的每一项创新背后都能嗅到一个共同的动机:如何在更少的显存、更低的算力、更受限的硬件条件下,榨出更多的智能。


可以说,DeepSeek V4不是终点,甚至不是一次高潮。


它是一个信号,一个在算力受限的逆风局里,依然可以用原创架构打开新空间的信号;一个顶级开源模型不再必须绑定在英伟达芯片上的信号;一个没有融资、不卷加班、按自己节奏前行的团队,依然能站在第一梯队的信号。


“不诱于誉,不恐于诽,率道而行,端然正己。”


中国人工智能要走的路或许还很长,但方向并不迷茫。(PS:本文由DeepSeek辅助完成)


参考资料:[1].《刚刚,DeepSeek V4 双版本正式上线!》,机器之心[3].《DeepSeek V4:一句"下半年上国产算力",比所有发布会都重要》,星海情报局[4].《一文读懂DeepSeek V4:1.6万亿参数、百万上下文、华为芯片》,腾讯科技[5].《DeepSeek-V4 预览版:迈入百万上下文普惠时代》,DeepSeek[6].《DeepSeek-V4 技术报告》[7].《别高估英伟达,别低估DeepSeek》,虎嗅APP[8].《V4 发布前的 DeepSeek:特质、组织和梁文锋的独特目标》,晚点LatePost
排版 | 小元审校 | 微澜  主编 | 孙允广
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-4-26 02:46 | 显示全部楼层
不管是美国的AI还是中国的AI,对战的双方其实都是中国人。
回复 支持 反对

使用道具 举报

  • 打卡等级:炉火纯青
  • 打卡总天数:81
发表于 2026-4-26 08:54 | 显示全部楼层
啥也不说了,楼主就是给力!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:461
发表于 2026-4-26 09:36 | 显示全部楼层
感谢分享
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:778
发表于 2026-4-26 10:07 | 显示全部楼层
感谢分享。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-26 22:03 , Processed in 0.220689 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表