夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 101|回复: 2

[科技新闻] 梁文锋带队,首次回应“蒸馏”争议

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-19 08:05 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
1.webp

2.jpg
3.jpg
4.jpg

导语:资金与算力,成了决定话语权的核心。然而,DeepSeek打破了这一“潜规则”。

2025年9月17日,属于中国人工智能的又一个高光时刻来到了。DeepSeek-AI团队梁文锋及其同事在《自然》杂志发表了关于开源模型 DeepSeek-R1 的研究成果,并登上当期封面。
5.webp

6.jpg
7.jpg
8.jpg

图|来源于网络

论文指出,大语言模型(LLM)的推理能力可以通过纯强化学习显著提升,从而减少对人工标注的依赖。与传统训练方式相比,这一方法培养出的模型在数学解题、编程竞赛以及涉及STEM领域研究生水平的问题上,均展现出更优的表现。
在此,DeepSeek也首次回应“蒸馏”争议,在与审稿人的交流中,DeepSeek明确表示,R1并非通过复制OpenAI模型生成的推理示例来学习。只是和大多数其他大语言模型一样,R1的基础模型是在网络上训练的,因此它会吸收互联网上已有的AI生成的内容。
9.webp

“低成本奇迹”:从29万美元到世界舞台


在AI世界,有一个残酷的共识:顶尖大模型的门槛,从来不是算法,而是成本。OpenAI训练GPT-4,外界估算其花费在1亿美元以上;谷歌、Anthropic、Meta也在数千万美元级别的预算上展开竞赛。资金与算力,成了决定话语权的核心。
然而,DeepSeek打破了这一“潜规则”。根据研究团队在论文补充材料披露的细节,DeepSeek-R1的推理成本仅为29.4万美元,低到惊人。即便加上约600万美元的基础模型训练开销,整体成本依然远低于国外巨头。
DeepSeek-R1的真正突破,不仅体现在成本,更在于方法论上的创新。
研究团队在《Nature》发表的论文中指出,他们采用了纯强化学习(RL)框架,并引入组相对策略优化(GRPO)算法,仅依据最终答案的正确与否给予奖励,而非让模型模仿人类推理路径。
10.webp

令人意外的是,这种看似“粗放”的训练方式,却让模型在实践中自然涌现出自我反思(reflection)、自我验证(self-verification)以及生成更长推理链条(long chains of thought)等高级行为,有时甚至会生成成百上千个token来反复推敲一个问题。
这一点在数学测试中尤为明显。论文数据显示,在美国数学邀请赛(AIME 2024)中,DeepSeek-R1-Zero的准确率从15.6%跃升至77.9%,在使用自洽解码(self-consistency decoding)后更达到86.7%,超过了人类平均水平。
《Nature》评论称,这表明模型能够在没有人类推理示范的情况下,通过强化学习自主形成复杂的思维模式。
在后续的多阶段优化中(包括RL、拒绝采样、监督微调及二次RL),最终版本的DeepSeek-R1不仅在数学和编程等硬核任务上表现突出,还在写作、问答等通用任务上展现了流畅性和一致性。这意味着,DeepSeek并不是在“教AI思考”,而是在“让AI学会自己思考”。
11.webp

梁文锋的十年长跑


除了技术层面的突破,DeepSeek-R1的成功背后,更有一段鲜为人知的奋斗故事。梁文锋,1985年出生于广东湛江一个普通家庭,父亲是小学老师。他的成长轨迹虽不为大众熟知,却在细节中显露出早期的求知与坚韧。
12.webp

2002年,17岁的梁文锋考入浙江大学电子信息工程专业;五年后,他继续攻读信息与通信工程硕士,师从项志宇,专注机器视觉研究。正是在硕士阶段,他与同学尝试将机器学习应用于金融市场,探索全自动量化交易——那一年,全球金融危机正在席卷世界。尽管机会很多,像大疆创始人汪滔曾邀请他共同创业,梁文锋却选择了一条少有人走的路:坚信人工智能将改变世界,他决定独立创业。
硕士毕业后,梁文锋先是将人工智能技术与量化交易结合,创办雅克比投资及幻方科技,并在十余年间稳步发展。直到2023年,他将目光转向通用人工智能,创办DeepSeek,开启了AI大模型研发之路。凭借对算法和成本效率的双重关注,DeepSeek在短短两年内连续发布V2、V3模型,不仅拉低了国产大模型的推理成本,更以惊人的性价比震撼了全球市场。
梁文锋对团队建设的理念同样非同寻常。他坚持“能力为先”,核心岗位多由应届毕业生和经验仅一两年的年轻人组成,“我们或许不是在中国找到前50名顶尖人才,但我们可以自己培养。”这种信念,也正是DeepSeek能够在低成本下实现高推理能力的关键。
现在来看,DeepSeek的这项研究,其价值远不止于一个性能强大的模型。它更像是一份“方法论宣言”,向世界展示了一条不依赖天量标注数据、更具可持续性的AI进化之路。它打破了“资金即壁垒”的魔咒,将AI发展的主动权交还给了科学创新本身。
这不仅仅是中国AI的高光时刻,更是全球AI迈向“推理革命”的一个重要里程碑。Nature审稿人、Hugging Face机器学习工程师Lewis Tunstall认为,“R1开启了一场革命”。越来越多正在应用R1的方法论改善现有的大语言模型。
未来的AI竞争,很可能将从“数据与算力的军备竞赛”,转向“算法与智慧的创新竞赛”。而DeepSeek-R1,已经为这场新竞赛吹响了号角。
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-19 09:04 | 显示全部楼层
29万搞出AI大佬,这性价比绝了!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-19 09:04 | 显示全部楼层
29万美元搞出这么牛的推理模型,就像花小钱办大事,我家那台老电脑跑简单程序都卡,这模型在数学题上能到86.7%准确率太牛了,就是不知道日常对话会不会偶尔抽风
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-23 23:18 , Processed in 0.203196 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表