梁文锋领衔团队在《自然》发论文了…

华语天空 · 发表于 2025-9-18 17:09

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

设置星标关注，从此你的世界多点科学~

今年1月，来自杭州的深度求索公司携开源推理模型DeepSeek-R1火爆全网。
AI专家盛赞其“纯强化学习”的创新范式让模型自我进化、摆脱对人工标注文本的依赖，业内同行惊叹于其超高性能背后的超低投入，金融市场则以股价巨震向这位物美价廉的数学大师、编程高手、推理王者致敬。
DeepSeek-R1是开放权重模型(训练参数对公众公开)，可供任何人下载使用。时至今日，它在AI开源社区Hugging Face上的下载量已超过1090万次，是目前同类模型里最受欢迎的。此外，它还刚刚成为全球第一款经过完整同行评审的大语言模型(LLM)。
9月17日，深度求索创始人梁文锋及其团队正式于《自然》杂志发表封面文章，详细阐述了他们强化标准LLM、升级推理策略的方式和过程。

DeepSeek的核心创新在于采用纯强化学习(pure reinforcement learning)这一自动化试错方法构建R1：通过奖励机制驱动模型自己得出正确答案，而非教它遵循人类选择的推理示例。因此，DeepSeek-R1能在“独立思考”中学习形成自己的推理策略，例如“怎样不受人类思维影响地验证自己的结果”。

为提升效率，模型选择估计值(而非独立算法)来给自己的工作评分——此项技术被称为“群体相对策略优化”(GRPO)，属于强化学习中的一种优化方法，允许模型在训练时通过自我评估和群体比较以求增效。
有同行表示，DeepSeek-R1已对人工智能学界产生“相当显著的影响”，2025年几乎所有给大语言模型上强化学习的研究都“或多或少受到R1启发”。

另一方面，新论文在补充材料中首次披露了R1模型的训练成本——区区29.4万美元。构建基础LLM的投入则为600万美元。这是什么概念呢？OpenAI、谷歌DeepMind、Meta等AI巨头的模型训练成本都是几千万起步的。
值得一提的是，R1主要采用英伟达H800芯片进行训练，而该芯片在2023年因美国出口管制禁令而被禁止对华销售。
此外，梁文锋等人根据评审意见减少了拟人化表述，并补充了技术细节说明，包括模型训练数据类型和安全性方面的内容。
Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)是这篇《自然》新作的评审者之一。在他看来，如果不树立“将模型的大部分开发过程与学界共享”的规范，同行就没法评估系统是否存在风险。
俄亥俄州立大学的人工智能研究员孙欢则指出，严格的同行评审过程确实有助于验证模型的有效性和实用性，其他公司应当效仿DeepSeek。
此前有媒体报道OpenAI方面对DeepSeek-R1的质疑：深度求索团队可能使用了OpenAI模型的输出数据来训练R1，这帮助他们以更少资源取得更高性能。
梁文锋等人未通过论文公开训练数据，但根据他们与评审人员的交流内容，R1并未复制OpenAI模型生成的推理示例以开展学习。不过他们也承认，与大多数大语言模型一样，R1的基础模型确实“上网”练过，因此必然吸收互联网上既有的AI生成内容。
坦斯托尔认为，虽无法百分百确定R1未使用OpenAI的示例进行训练，但其他实验室的复现结果已证明，DeepSeek的推理方案可能足够优秀了，优秀到不必做那种事。“仅靠纯强化学习就可实现极高性能！”

他还表示，目前很多同行正尝试运用R1的开发方法，既增强现有LLM的类推理能力，又将其应用领域拓展至数学和编程之外。“R1成功引领了一场变革。”

孙欢指出，对研究者来说，R1很强很好用。在做数据分析和可视化等科学任务时，R1的准确率并未遥遥领先，但它最好地平衡了性能与成本。

资料来源：Secrets of DeepSeek AI model revealed in landmark paper
DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

—じ☆ve人生— · 发表于 2025-9-19 02:28

DeepSeek-R1低成本高能，开源模式或将重塑AI行业格局

神隐之左手 · 发表于 2025-9-19 02:28

DeepSeek-R1这种29.4万美元搞出来的模型就像用平价食材做出米其林味道，让那些砸几千万的巨头有点尴尬，开源后1090万次下载直接重塑了AI竞争规则

华语天空 · 发表于 2025-9-19 08:18

R1已经远远落后了

com2 · 发表于 2025-9-19 10:11

谢谢楼主分享！

账号		自动登录	找回密码
密码			注册

[科学观察] 梁文锋领衔团队在《自然》发论文了…

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块