DeepSeek元旦论文讲了啥

hnn · 发表于 2026-1-1 21:30

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

DeepSeek 改进残差连接，性能更强还不崩溃
AI圈就是卷，DeepSeek迎着元旦发了篇论文，稍作解读。
1、深层网络的困境
大模型由几十层甚至上百层计算单元堆叠而成。数据从第一层流入，逐层处理后从最后一层流出。问题在于：如果每一层都让数据的数值稍微变大，几十层累积下来就会爆炸式增长；反过来，如果每层都让数值变小，最后就趋近于零。这就是"梯度爆炸"和"梯度消失"，会导致训练崩溃。
2、残差连接：十年前的解决方案
2015年，何恺明提出了一个简洁的设计：在每一层的计算之外，额外开一条"直通道"，让原始数据不经处理直接传到下一层。直通道里的数据乘以 1，不放大、不缩小。无论网络多深，这部分数据始终保持原样。
这个设计叫"残差连接"，支撑了过去十年几乎所有深度学习的成功。
3、HC：让直通道也参与学习
残差连接虽然稳定，但直通道完全不参与学习，只是被动保底。能不能让它也"干点活"？
2024年提出的"超连接"（HC）做了尝试：把直通道从一条扩展为四条，且数据通过时不再乘以固定的 1，而是乘以一组网络自己学出来的数字。
可以想象成调音台上的四个音轨。每一层可以调节怎么混合——音轨 1 调小点，音轨 2 调大点。怎么混最有效，是网络自己学出来的。问题是调节没有限制，可能把某个音轨放大太多导致爆音，或调得太小导致消音。60 层累积下来，论文显示放大倍数峰值达到 3000，训练在约 12000 步时崩溃。
4、mHC：可以混音，但总音量守恒
mHC 沿用四音轨设计，也允许调节混合方式，但加了一条规矩：总音量必须不变。可以把音轨 1 调小、音轨 2 调大，但四个音轨加起来的总量必须和之前一样。现实中的调音台没有这个约束，这里只是借用来说明"可以重新分配，但总量守恒"。
总量不变，意味着放大倍数理论上是 1。实际工程中为了计算效率用了近似算法，放大倍数是 1.6，但比 HC 的 3000 已是天壤之别，训练全程稳定。
5、效果
27B 模型测试中，mHC 相比传统方案：复杂推理从 43.8% 提升到 51.0%，阅读理解从 47.0% 提升到 53.9%。训练时间仅增加 6.7%。
6、定位
论文将 mHC 定位为"HC 的灵活实用扩展"。在学术语境里，这是克制的自我评价：说"扩展"而非"突破"，意味着是现有方法上的改进；说"实用"，强调工程上能落地。

账号		自动登录	找回密码
密码			注册

[科技新闻] DeepSeek元旦论文讲了啥

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。