找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 101|回复: 16

[科技新闻] DeepSeek硬核新年礼:梁文锋带队大模型基建又一次微操进化

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 20:10 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
文|立委博士
编辑|晓静
新年第一天,DeepSeek 在 arXiv 放出一篇相当“硬核”的论文:mHC: Manifold-Constrained Hyper-Connections,时间戳是 2025 年 12 月 31 日(v1)。
作者列表里,除了三位一作(Zhenda Xie、Yixuan Wei、Huanqi Cao),还出现了神龙见首不见尾的传奇人物 Wenfeng Liang(梁文锋)
这篇论文要解决的,其实是一个“基础设施级”的老问题:当网络深度与通道层层加码,系统如何不走向崩塌?
01|从残差的“定海神针”说起:为什么 x + F(x) 让深度网络能 work

熟悉神经网络里程碑历史的都知道,残差(Residual / Skip Connection)的发明,是深度神经网络能 work 的关键,从而为深度学习革命打稳了基础。何凯明/张祥雨也因此成名;那篇残差论文的引用数,据说在 AI 历史上是绝对的首屈一指。
这是一项发生在十多年前、深度学习革命刚刚开启时,他们在微软做出的里程碑工作。后来,它成了深度神经网络的标准 practice:用 x+f(x) 代替 f(x)。这条看似朴素的改动,恰恰是为了保证多达几百、上千层的网络,在不断加深的(函数)转换中不至于“差之毫厘,失之千里”,从结构上兜住训练的稳定性(那条 x 的直通路径,本质上就是恒等映射的安全绳)。
我们知道,大模型本质上就是个图灵机:在足够的容量与数据驱动下,它可以规律性地把任何信号输入 x 变成任何其他信号输出 y,也就是实现某个 f(x)。这就是所谓的万能函数近似——老母鸡变鸭的魔术:文生图、机器翻译之类,看上去神奇,背后都是“把 x 变成 y”的系统性变换。正是在这个意义上,残差网络(ResNet)里 x 这条直通连接线,成了大模型的定海神针
因此,ResNet 的核心不是某个更复杂的卷积,而是那条看似朴素的“直通线”——让每一层学习 F(x),但输出是 y = x + F(x)。原论文把这种 直通车道(shortcut) 设计解释为“identity mapping”,它让信息可以跨层稳定传递。
你可以把它当作在深度网络这个“层层加工的工厂”里,额外修了一条不加工作业、直达下一站的传送带。于是深度从几十层堆到几百层、上千层时,也不至于在复合变换里越走越偏,最终训练崩盘。
1.webp

ResNet 把每一层从“直接学一个函数”改成“学一个增量”。这就好比雕塑大师把人物雕塑工作,转变为“去除多余的部分”。一块大理石,多余的“残差”去除殆尽,人物自然就成型了。
这件事的关键在于它把恒等映射(identity mapping)塞进了网络:哪怕 F 学得一塌糊涂,x  这条直通路径也能把信号和梯度比较完整地送到更深处,从而让几百上千层不至于“越算越跑偏”。mHC 论文在引言里也把这点讲得很直白:残差的稳定性,来自恒等映射跨层累积时的结构性保障。
作为研究背景,一句话总结残差的精神内核:
让网络“可以很深”,靠的不是每层转换多聪明,而是“永远留一条‘不作妖’的直达通路”。
02|单车道不够了:HC 把残差流“扩建成多车道”

传统残差是一条残差流(hidden state 的那条“主干通道”)。但当模型越来越大,研究者会自然产生一个念头:
既然残差流像高速公路的主干,那我能不能把它从 1 条车道扩成 n 条车道,让信息在不同车道之间更自由地交换、混合,表达力更强?
这就是 Hyper-Connections(HC)这类工作的出发点:把残差流的宽度从 C 扩到 n×C,并引入一个可学习的混合矩阵,把“各条车道”的信息在每层重新路由。在 HC 原论文里,核心机制就是这种“复制 n 份 residual path、再在它们之间做连接”的宏观结构。
2.webp

到这里为止,一切都很美:
路修宽了,车更多了,理论上吞吐更大、信息更丰富。
但问题是:你把高速路扩建成多车道,最怕的不是车多,而是没有交规。
03|HC 为什么会炸:无约束矩阵跨层复合变成“放大器”

残差之所以稳,关键是 identity mapping 这条线天然具备一种“守恒”味道:
你至少能保证有一部分信号,不被层内变换“瞎折腾”(带偏)。但 HC 的混合矩阵完全自由学习、没有任何约束,跨多层之后,实际上是在做一串矩阵连乘。
mHC 论文直说了:HC 的这种无约束设计在大规模训练时会破坏 identity mapping 作为“conservation mechanism(守恒机制)”的角色,导致平均信号强度无法保持,从而出现无界放大或衰减
更直观地讲这种“放大器效应”就是:

  • 如果某几层学到的“残差”在某些方向上“略大于 1”,
  • 经过几十层、上百层复合后,增长会呈指数积累,
  • 最终就是大家熟悉的两种灾难:信号爆炸 / 梯度爆炸,或者相反:梯度消失。都是模型训练的灾难。
不是 HC 多车道思路不对,而是它把原残差网络自带的这根“定海神针”,拆成了“自由的放大链路”。
04|DeepSeek 的一招:把混合矩阵关进“双随机”的笼子里

mHC 的核心思想可以一句话概括:
你可以修立交桥、修多车道;但负责“指挥交通”的矩阵,必须服从一套严格的守恒规则。他们选择的规则是:把残差约束到所谓 双随机(doubly stochastic / bistochastic)矩阵集合上——元素非负、每一行和每一列都等于 1(归一化)
这样做带来三层非常“工程友好”的稳定性保证:
     凸组合(convex combination)解释

  • 因为行列和为 1,残差等价于对输入特征做“加权混合”,但权重总量守恒,所以整体更像“搅拌”而不是“放大器”。均值守恒 + 范数被严格规整
  • 论文明确说:这种约束让特征均值保持、信号范数被严格 regularize,从而缓解 信号爆炸/消失(vanishing/exploding)。跨层复合仍然稳定(乘法封闭性)
双随机矩阵相乘仍是双随机矩阵(非负性与行列和约束都能传递),因此“多层连乘”不会越乘越野,守恒性可以贯穿整个深度。翻译成咱老百姓的话就是:
每一层的混合矩阵,本质上像是在“若干种换道方案(置换)”之间做概率意义上的加权选择。这就特别像一个“带守恒约束的交通路由系统”:怎么换道都行,但总车流不能凭空变多或变少。另外,mHC 还对前后残差引入非负约束(论文用 sigmoid 形式实现),避免正负系数复合导致的数值抵消行为。
3.webp

05|把“野矩阵”投影成“双随机矩阵”

“利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上”,这里的核心是这一步:

  • 归一化每一行(让行和=1)
  • 归一化每一列(让列和=1)
行列交替迭代,最终收敛到双随机结构。你可以把所谓 Sinkhorn-Knopp 过程想象成一个“交警训练营”:
不管你原来学出来的“交警”矩阵多么放飞自我,进训练营一套队列动作做完,它就必须满足“行列守恒”的硬纪律,才能上岗指挥交通。关于“流形”(manifold)这个术语,可以这样理解:
严格说双随机矩阵集合整体是个凸多胞形(边界有棱角),但在其内部(所有元素严格正)可以视为一个受约束的光滑空间;论文在工程语境里用“manifold”来表达“我们不让参数在整个欧氏空间乱跑,而是限制在一个有几何结构的可行集合里”。
06|它不仅是数学,更是工程:6.7% 的代价换稳定与收益

把残差流扩成 n 倍,直觉上显存与通信都会爆炸。mHC 论文非常明确地把“系统开销”当作同等重要目标:它不仅提出数学约束,也在配套工程上做了 kernel fusion、选择性重计算、以及在 DualPipe 调度里更激进的通信-计算重叠。
最后他们给出的系统级结论是:当 n = 4 时,mHC 只带来约 6.7% 的额外训练时间开销
这点很关键:
如果只讲“理论上更稳”,我们会问“那是不是贵得用不起?”
而这篇论文显然在回答:“我们把它做成了大训练里可落地的结构升级。”
07|一句话总结:mHC 的创新意义在哪?

HC 想把残差从单车道升级成立交桥;mHC 做的,是给立交桥加上守恒型交通规则——用双随机约束恢复 identity mapping 的稳定性,同时把工程开销压到可接受范围。
这也解释了下列对应关系:

  • 残差的多流并行架构:残差流从 C 变成 n×C,让“通道”更多;
  • 连接矩阵受约束:核心是残差不再自由,而是双随机;
  • Sinkhorn-Knopp:实现“投影/归一化”的具体算法;
  • 解决数值不稳定与信号爆炸:把跨层连乘的放大链条关进“守恒笼子”
残差之所以稳,不是因为“加法神奇”,而是因为它隐含了某种守恒结构;
当我们试图把残差升级成更复杂的拓扑时,真正需要被继承的,是这份守恒,而不是加号本身。
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 20:24 | 显示全部楼层
上次公司用类似mHC思路优化推荐算法后点击率涨了15% 就像给堵车的高速加了智能调度员 虽然服务器多了6.7%电费但值得
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 21:25 | 显示全部楼层
Deepseek帮人民赚钱的AI
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 21:51 | 显示全部楼层
如果把AI模型比作城市交通:- 传统架构是单车道马路,信息传递容易“堵车”;- HC是拓宽到多车道但无红绿灯,车多了反而混乱;- mHC则是给多车道装上智能交通系统,车流有序且通行效率更高。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 21:58 | 显示全部楼层
梁文峰,我们老梁家的骄傲!同志们,点起来!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 22:20 | 显示全部楼层
以前AI训练是“一路狂飙”,现在变成“科目三考试”——不能压线、不能熄火、还得守规矩。mHC这套操作,相当于给神经网络装了导航+限速+交警三件套,难怪能稳到2026年。以后别再说AI乱来,人家现在可是文明驾驶模范。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 22:20 | 显示全部楼层
去年调模型时,经常训到一半梯度爆炸,loss直接变NaN,头发都快薅秃了。后来只能手动降学习率、加梯度裁剪,效果还不稳。看到mHC用数学约束从结构上解决这问题,真是又羡慕又踏实——原来不是我菜,是真的缺这种“基建级”方案。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:410
发表于 2026-1-2 22:20 | 显示全部楼层
AI发展到这阶段,拼的早不是谁参数多,而是谁跑得稳、活得久。mHC没搞花哨的概念,而是回头把“残差”这个老地基重新加固,还扩了车道。这种“在守恒中创新”的思路特别珍贵——不是推翻重来,而是让已有的好东西更可靠,这才是技术成熟的表现。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 22:20 | 显示全部楼层
mHC的价值不在理论多惊艳,而在工程可落地。它没否定HC的多通道思路,而是用双随机矩阵给自由度上锁,既保留表达能力又防数值崩溃。这种“约束即自由”的哲学,其实适用于很多AI子领域。未来大模型竞争,或许不再是“谁更大”,而是“谁更稳、更省、更可控”。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:410
发表于 2026-1-2 22:22 | 显示全部楼层
DeepSeek 这波操作太秀了!给大模型的 “信息高速公路” 加了交通规则,多车道还不堵车不翻车,6.7% 的开销换稳定升级,简直是 AI 界的 “基建狂魔”。梁文锋带队果然硬核,新年礼直接上干货~
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-1-3 15:02 , Processed in 0.189791 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表