夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 96|回复: 4

[科学观察] 梁文锋领衔团队在《自然》发论文了…

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-18 17:09 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
设置星标  关注,从此你的世界多点科学~

1.webp

今年1月,来自杭州深度求索公司携开源推理模型DeepSeek-R1火爆全网。
AI专家盛赞其“纯强化学习”的创新范式让模型自我进化、摆脱对人工标注文本的依赖,业内同行惊叹于其超高性能背后的超低投入,金融市场则以股价巨震向这位物美价廉的数学大师、编程高手、推理王者致敬。
DeepSeek-R1是开放权重模型(训练参数对公众公开),可供任何人下载使用。时至今日,它在AI开源社区Hugging Face上的下载量已超过1090万次,是目前同类模型里最受欢迎的。此外,它还刚刚成为全球第一款经过完整同行评审的大语言模型(LLM)
917日,深度求索创始人梁文锋及其团队正式于《自然》杂志发表封面文章,详细阐述了他们强化标准LLM升级推理策略的方式和过程。


DeepSeek的核心创新在于采用纯强化学习(pure reinforcement learning)这一自动化试错方法构建R1:通过奖励机制驱动模型自己得出正确答案,而非教它遵循人类选择的推理示例。因此,DeepSeek-R1能在“独立思考”中学习形成自己的推理策略,例如“怎样不受人类思维影响地验证自己的结果”。


为提升效率,模型选择估计值(而非独立算法)来给自己的工作评分——此项技术被称为“群体相对策略优化”(GRPO),属于强化学习中的一种优化方法,允许模型在训练时通过自我评估和群体比较以求增效
有同行表示,DeepSeek-R1已对人工智能学界产生“相当显著的影响”,2025年几乎所有给大语言模型上强化学习的研究都“或多或少受到R1启发”。



另一方面,新论文在补充材料中首次披露了R1模型的训练成本——区区29.4万美元。构建基础LLM的投入则为600万美元。这是什么概念呢?OpenAI、谷歌DeepMind、Meta等AI巨头的模型训练成本都是几千万起步的。
值得一提的是,R1主要采用英伟达H800芯片进行训练,而该芯片在2023年因美国出口管制禁令而被禁止对华销售。
此外,梁文锋等人根据评审意见减少了拟人化表述,并补充了技术细节说明,包括模型训练数据类型和安全性方面的内容。
Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)是这篇《自然》新作的评审者之一。在他看来,如果不树立“将模型的大部分开发过程与学界共享”的规范,同行就没法评估系统是否存在风险。
俄亥俄州立大学的人工智能研究员孙欢则指出,严格的同行评审过程确实有助于验证模型的有效性和实用性,其他公司应当效仿DeepSeek
此前有媒体报道OpenAI方面对DeepSeek-R1的质疑:深度求索团队可能使用了OpenAI模型的输出数据来训练R1,这帮助他们以更少资源取得更高性能。
梁文锋等人未通过论文公开训练数据,但根据他们与评审人员的交流内容,R1并未复制OpenAI模型生成的推理示例以开展学习。不过他们也承认,与大多数大语言模型一样,R1的基础模型确实“上网”练过,因此必然吸收互联网上既有的AI生成内容。
坦斯托尔认为,虽无法百分百确定R1未使用OpenAI的示例进行训练,但其他实验室的复现结果已证明,DeepSeek的推理方案可能足够优秀了,优秀到不必做那种事。“仅靠纯强化学习就可实现极高性能!”

他还表示,目前很多同行正尝试运用R1的开发方法,既增强现有LLM的类推理能力,又将其应用领域拓展至数学和编程之外。“R1成功引领了一场变革。”

孙欢指出,对研究者来说,R1很强很好用。在做数据分析和可视化等科学任务时,R1的准确率并未遥遥领先,但它最好地平衡了性能与成本。


资料来源:Secrets of DeepSeek AI model revealed in landmark paper
DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-19 02:28 | 显示全部楼层
DeepSeek-R1低成本高能,开源模式或将重塑AI行业格局
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-19 02:28 | 显示全部楼层
DeepSeek-R1这种29.4万美元搞出来的模型就像用平价食材做出米其林味道,让那些砸几千万的巨头有点尴尬,开源后1090万次下载直接重塑了AI竞争规则
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
 楼主| 发表于 2025-9-19 08:18 | 显示全部楼层
R1已经远远落后了
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:485
发表于 2025-9-19 10:11 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-23 23:18 , Processed in 0.224583 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表