找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 87|回复: 0

[科技新闻] DeepSeek元旦论文讲了啥

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-1 21:30 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
DeepSeek 改进残差连接,性能更强还不崩溃
AI圈就是卷,DeepSeek迎着元旦发了篇论文,稍作解读。
1、深层网络的困境
大模型由几十层甚至上百层计算单元堆叠而成。数据从第一层流入,逐层处理后从最后一层流出。问题在于:如果每一层都让数据的数值稍微变大,几十层累积下来就会爆炸式增长;反过来,如果每层都让数值变小,最后就趋近于零。这就是"梯度爆炸"和"梯度消失",会导致训练崩溃。
2、残差连接:十年前的解决方案
2015年,何恺明提出了一个简洁的设计:在每一层的计算之外,额外开一条"直通道",让原始数据不经处理直接传到下一层。直通道里的数据乘以 1,不放大、不缩小。无论网络多深,这部分数据始终保持原样。
这个设计叫"残差连接",支撑了过去十年几乎所有深度学习的成功。
3、HC:让直通道也参与学习
残差连接虽然稳定,但直通道完全不参与学习,只是被动保底。能不能让它也"干点活"?
2024年提出的"超连接"(HC)做了尝试:把直通道从一条扩展为四条,且数据通过时不再乘以固定的 1,而是乘以一组网络自己学出来的数字。
可以想象成调音台上的四个音轨。每一层可以调节怎么混合——音轨 1 调小点,音轨 2 调大点。怎么混最有效,是网络自己学出来的。问题是调节没有限制,可能把某个音轨放大太多导致爆音,或调得太小导致消音。60 层累积下来,论文显示放大倍数峰值达到 3000,训练在约 12000 步时崩溃。
4、mHC:可以混音,但总音量守恒
mHC 沿用四音轨设计,也允许调节混合方式,但加了一条规矩:总音量必须不变。可以把音轨 1 调小、音轨 2 调大,但四个音轨加起来的总量必须和之前一样。现实中的调音台没有这个约束,这里只是借用来说明"可以重新分配,但总量守恒"。
总量不变,意味着放大倍数理论上是 1。实际工程中为了计算效率用了近似算法,放大倍数是 1.6,但比 HC 的 3000 已是天壤之别,训练全程稳定。
5、效果
27B 模型测试中,mHC 相比传统方案:复杂推理从 43.8% 提升到 51.0%,阅读理解从 47.0% 提升到 53.9%。训练时间仅增加 6.7%。
6、定位
论文将 mHC 定位为"HC 的灵活实用扩展"。在学术语境里,这是克制的自我评价:说"扩展"而非"突破",意味着是现有方法上的改进;说"实用",强调工程上能落地。
1.webp
您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-1-2 03:58 , Processed in 0.116137 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表