找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 83|回复: 3

[科技新闻] 腾讯辟谣 OpenAI 姚顺雨 1 亿薪资入职,27 岁清华姚班天才已开启下半场

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-9-12 10:38 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
AI 圈这几天最火的八卦,非姚顺雨的去向莫属。多方消息源显示,这位 27 岁的天才少年已经从 OpenAI 离职了。细数姚顺雨的履历,只能用开挂来形容——合肥一中出身、NOI 银牌得主、高考 704 分勇夺安徽理科探花,担任过清华姚班联席会主席,甚至还联合创办了清华说唱社,妥妥的全能型人才。
1.webp

普林斯顿计算机博士毕业后,他更是直奔 OpenAI,期间,他曾深度参与 Computer-Using Agent (CUA)、Deep Research 等重要产品。今年 5 月份,凭借过硬的履历,他成功入选《MIT 科技评论》「35 岁以下科技创新 35 人」中国区榜单,成为该届最年轻入选者。
2.webp

图片来自清华校友总会学术成果也相当能打,他推动了 LLM 从「对话系统」向「任务执行系统」的范式转变。随便拎几篇代表作出来:ReAct (ICLR 2023):将推理与行动结合的经典框架,引用超 4300 次。Tree of Thoughts (NeurIPS 2023):大语言模型的「思维树」问题求解方法,引用超 4000 次。Reflexion (NeurIPS 2023):引入语言反馈的自我改进智能体,引用超 2600 次。SWE-bench (ICLR 2024):评估语言模型解决真实 GitHub 问题的能力。WebShop (NeurIPS 2022):可扩展的基于语言代理的网页交互任务。SWE-agent (NeurIPS 2024):面向自动化软件工程的智能体-计算机接口。……Google Scholar 显示,他的总引用次数超过 1.5 万次,h-index 为 24,i10-index 为 29——这个数据在 27 岁这个年龄段,表现相当不俗。
3.webp


而关于他的下一站,最近有媒体爆料称姚顺雨将以上亿薪资加盟腾讯。结果今早腾讯官方公众号鹅厂黑板报火速辟谣。
4.webp


巧合的是,今年 5 月姚顺雨在一次与张小珺、李广密的对谈中,恰好聊到了微信和 AI 的话题。当时李广密抛出观点:微信卡位确实好,但如果未来 Multi-Agents、Long-Term Memory 这些技术成熟了,Agent 系统却没长在微信上,那就「比较恐怖」了。姚顺雨的回应颇为哲学:「这取决于人类的网络会变成什么样?你会有更多 Agent 朋友,还是更多人类朋友?」他进一步解释,微信既承载社交关系,也承载职业交互——比如购物咨询、法律服务等。无论人类网络如何演变,总需要基础设施和平台支撑。面对张小珺的灵魂拷问:如果你是微信一号位,会怎么做 Agent?姚顺雨表示:「我可能会不急,先观望观望。」在他看来。微信已经易守难攻,为什么要急着进攻?真正的威胁不是类似产品的竞争,而是颠覆性创新。就像当年微信打败 QQ 那样,危险的是「很不一样的东西」。除了这次精彩的对谈,今年 4 月份姚顺雨发表的技术博文《AI 的下半场》同样在业界引起了广泛讨论。让我们一起来重温一下这篇颇具预见性的文章——🔗 https://ysymyth.github.io/The-Second-Half/AI 下半场总结:AI 正处在中场休息。几十年来,AI 的主要精力都放在开发新的训练方法和模型上。事实证明,这条路走得通:从在国际象棋和围棋上击败世界冠军,到在 SAT 和律师资格考试中超过大多数人类考生,再到拿下 IMO 和 IOI 金牌。写进历史的这些里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背后都是 AI 方法上的根本创新:搜索、深度强化学习、规模化训练以及推理。随着时间推移,效果一次次被刷新。那现在突然有什么不同呢?三个词:强化学习真的能用了。更准确地说,强化学习终于能够泛化了。经历了多次迂回探索和里程碑的积累,我们终于找到了一套能解决各种强化学习任务的有效方法——依托语言与推理。要是你一年前对大多数 AI 研究者说:有一个通用方案能同时搞定软件开发、创意写作、IMO 级别的数学题、键鼠操作,甚至长篇问答——他们大概会笑你在「幻觉」。因为这些任务都极其困难,很多研究者整个博士阶段可能只专注在其中一个方向。然而,这已经成真。那么接下来会怎样?AI 的下半场——从现在开始——将把重心从「解决问题」转向「定义问题」。在这个新阶段,评估的重要性会超过训练。我们不再只是问「能不能训练出一个模型解决 X 问题?」,而是要问「我们究竟应该让 AI 去做什么?又该如何衡量真正的进展?」。要想在下半场脱颖而出,我们需要及时转变思维方式和技能组合,更接近于产品经理的思路。上半场要理解 AI 的上半场,可以看看它的「赢家」们。到目前为止,你认为最有影响力的 AI 论文有哪些?我做了下 Stanford 224N 的小测,结果并不意外:Transformer、AlexNet、GPT-3 等等。这些论文的共同点是什么?它们都提出了训练更好模型的重大突破。同时,它们也靠在某些基准测试上取得(显著的)提升,才得以顺利发表。但还有个潜在的共性:这些「赢家」几乎全都是训练方法或模型,而不是基准或任务。就算是公认最有影响力的基准之一——ImageNet,它的引用量也不到 AlexNet 的三分之一。而在其他地方,方法和基准的对比更悬殊。比如,Transformer 的主要基准是 WMT'14 翻译任务,该研讨会的报告大约有 1300 次引用,而 Transformer 论文本身超过 16 万次。
5.webp

这说明了上半场的游戏规则:重点在于创造新的模型和方法,而评估和基准虽然必要,却始终是次要的。为什么?很大一个原因是,在 AI 的上半场,方法比任务更难,也更令人兴奋。从零开始发明一种新算法或网络结构——比如反向传播算法、卷积神经网络(AlexNet),或者后来 GPT-3 所用的 Transformer——需要非凡的洞察力和工程能力。相比之下,给 AI 定义任务就显得直接得多:我们只需要把人类已经在做的事情(翻译、图像识别、下棋)变成基准测试就行,几乎不需要太多新洞见或工程创新。方法的价值还在于它们往往比单个任务更通用、应用更广。以 Transformer 为例,它不仅推动了自然语言处理(NLP),还在计算机视觉(CV)、强化学习(RL)等领域全面开花,远远超越了它最初验证成果的那个小小的翻译数据集(WMT』14)。一个伟大的新方法可以「爬」上许多不同的基准,因为它足够简洁和通用,所以影响往往超越单一任务。这种玩法延续了数十年,催生了改变世界的思想和突破,并通过不断刷新的基准成绩体现出来。那为什么这个游戏会改变呢?因为这些思想和突破的累积,已经带来了质的飞跃——我们终于找到了可行的通用方案来解决任务。配方那么,「配方」到底是什么?配料其实并不意外:大规模的语言预训练、数据和算力的扩展,以及「推理与行动」的理念。这些听起来像是你每天在旧金山都会听到的流行词,但为什么要称它为配方呢?我们可以从强化学习(RL)的视角去理解。RL 常被认为是 AI 的「终局」——理论上它能保证赢得游戏,而在实践中,你也几乎无法想象没有 RL 的超级智能系统(比如 AlphaGo)。在 RL 中,有三个关键组成部分:算法、环境和先验知识。长期以来,RL 研究者主要聚焦在算法本身(比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……),这是智能体如何学习的「智力核心」,而环境和先验往往被视作固定不变或最低限度的设置。比如,Sutton 和 Barto 的经典教材几乎完全讲算法,几乎没涉及环境或先验。
6.webp

然而,在深度 RL 时代,研究者们逐渐发现:环境的重要性极高。一个算法的表现往往与它所处的环境高度绑定。如果你忽略环境,就可能造出一个只在玩具问题里「最优」的算法。那为什么不先想清楚:我们到底想要解决什么样的环境,然后再去寻找最合适的算法?这正是 OpenAI 最初的计划。它先推出了 Gym,把各种游戏变成标准化的 RL 环境;接着又尝试了 World of Bits 和 Universe 项目,试图把互联网或计算机本身变成一个游戏。这听起来很合理:一旦把所有数字世界转化为环境,再用聪明的 RL 算法去解决,就能得到数字版的 AGI。这是个好计划,但没能完全走通。OpenAI 确实取得了巨大进展,用 RL 解决了 Dota、机械手等难题。但它始终没能真正攻克电脑操作或网页导航的问题,而且在一个领域中训练出来的 RL 智能体,几乎无法迁移到另一个领域。显然,缺了点什么。直到 GPT-2、GPT-3 出现,人们才意识到:缺少的关键其实是先验。你需要强大的语言预训练,把常识和语言知识蒸馏进模型里,然后再进行微调,让它们成为能上网(WebGPT)或能聊天(ChatGPT)的智能体(并由此改变世界)。事实证明,RL 中最重要的部分可能既不是算法,也不是环境,而是先验知识——而且这种先验完全可以通过与 RL 毫不相关的方法获得。语言预训练为对话提供了很好的先验,但在控制电脑或玩电子游戏时效果却不那么理想。为什么?因为这些任务与互联网文本的分布差距更大,直接在这些领域做 SFT(监督微调)或 RL(强化学习)时,泛化能力很差。我在 2019 年就注意到了这个问题。当时 GPT-2 刚发布,我尝试在它的基础上做 SFT 和 RL 来解决文字冒险游戏——CALM 是世界上第一个基于预训练语言模型构建的智能体。但它需要上百万步的 RL 训练才能「爬」过一款游戏,而且无法迁移到新游戏。虽然这正是 RL 的典型特征,RL 研究者对此并不意外,但我却觉得奇怪:因为人类可以很轻松地尝试一款新游戏,并且在零样本情况下表现显著更好。就在那时,我迎来了人生中的第一个「顿悟时刻」——人类之所以能泛化,是因为我们不仅能选择「去 2 号柜子」「用 1 号钥匙开 3 号宝箱」「用剑杀地牢怪」,还可以选择去思考:
「地牢很危险,我需要一件武器来应对。但目前没有现成的武器,也许需要去锁着的箱子里找。3 号宝箱在 2 号柜子里,那我应该先去柜子 2,把它打开。」
7.webp

思考,或者说推理,是一种奇怪的行动。它不会直接改变外部世界,但推理的空间是开放的、组合上无限的——你可以思考一个词、一句话、一整段话,甚至一万个随机单词,而周围的世界并不会立刻发生变化。在传统 RL 理论中,这是个「糟糕的选择」,会让决策几乎不可能。想象一下:你需要从两个盒子里挑一个,一个有 100 万美元,另一个是空的。你期望值是 50 万。现在如果我加上无限多个空盒子,你的期望值就变成了 0。但如果我们把推理加入 RL 环境的动作空间,就能利用语言预训练提供的先验来实现泛化,同时还能根据不同决策灵活分配推理时的计算量。这真的是一件很神奇的事。我在这里没法完全解释清楚,可能需要专门写一篇博文。你可以去读一下 ReAct,它讲述了智能体推理的最初故事,也能感受到我当时的心路。直观地说:即便你加了无数个空盒子,但你在生活和游戏中早已见过类似情况,所以选择这些空盒子的经历反而能帮助你在真正有钱的游戏里更好地做出选择。抽象地说:语言是通过推理在智能体中实现泛化的。一旦我们拥有了合适的 RL 先验(语言预训练)和合适的 RL 环境(把语言推理作为动作),结果发现 RL 算法本身反而成了最不重要的部分。于是才有了 o-series、R1、deep research、会用电脑的智能体,以及未来更多的成果。多么讽刺的转折!长期以来,RL 研究者最关心的都是算法,而几乎没人注意先验——几乎所有 RL 实验都是从零开始。但我们花了几十年的迂回才意识到,也许优先级应该完全反过来。下半场这个「配方」正在彻底改变游戏规则。回顾一下上半场的玩法:
我们开发新的训练方法或模型,用来在基准测试上爬坡。
然后我们再设计更难的基准,继续循环。但这种玩法正在失效,原因有二:
这个配方基本上已经把「刷基准」的过程标准化、产业化了,不需要多少新的点子。随着配方的规模化和泛化,你为某个特定任务设计的新方法,可能只能提升 5%;而下一代 o-series 模型即便没有专门针对这个任务,也能直接提升 30%。
即便我们设计出更难的基准,也会很快(而且越来越快)被这个配方解决。我的同事 Jason Wei 画过一个很漂亮的图,把这种趋势表现得很清晰:
8.webp

那么下半场还能玩什么?如果新的方法已不再需要,而更难的基准也会越来越快被解决,那我们接下来该做什么?我认为我们需要从根本上重新思考「评估」。这不仅仅是去设计新的、更难的基准,而是要彻底质疑现有的评估方式,并创造新的评估体系,从而逼迫我们去发明超越现有「配方」的新方法。这很难,因为人类有惯性,几乎不会去怀疑最基本的假设——你习以为常地接受它们,却没意识到它们只是「假设」,而不是「规律」。举个关于惯性的例子:假设你在 2021 年设计了一种基于人类考试的评估方式,这是一个极其大胆的想法。但三年后,这个方法就已经饱和了。你会怎么做?最可能的做法就是——设计一份更难的考试。或者,假设你解决了简单的编程任务,那你会怎么做?很可能就是去找更难的编程任务来解,直到达到 IOI 金牌水平。这种惯性很自然,但问题在于:AI 已经在国际象棋和围棋上击败了世界冠军,在 SAT 和律师资格考试中超过了大多数人类,甚至在 IOI 和 IMO 上拿下了金牌。可世界并没有发生太大改变——至少从经济和 GDP 的角度来看如此。我称之为效用问题,并认为这是 AI 最重要的问题。也许我们很快就能解决效用问题,也许不会。但无论如何,这个问题的根源可能出奇地简单:我们的评估方式在很多基本层面上与现实世界的设定并不一致。举两个例子:- 在评估中,任务「应该」自动运行:通常智能体接收任务输入,自主执行,然后得到一个奖励。但现实中,智能体必须在任务过程中持续与人类互动——你不会只给客服发一段超长的文字,等上 10 分钟,就指望对方给你一份完整的回复解决所有问题。通过质疑这种评估设定,人们发明了新的基准:要么把真实人类纳入环节(如 Chatbot Arena),要么引入用户模拟(如 tau-bench)。
9.webp

- 评估「应该」是 i.i.d.(独立同分布) 的。如果你有一个包含 500 个任务的测试集,就会独立运行每个任务,最后取平均得到一个总体指标。可在现实中,我们解决问题往往是顺序进行的,而不是并行。比如,一个 Google 的软件工程师(SWE)在处理 google3 的问题时,随着她对代码库越来越熟悉,效率会越来越高;但一个 SWE 智能体在同一个代码库中解决了很多问题,却无法获得这种熟悉度。我们显然需要长期记忆的方法(事实上已经有一些了),但学术界既没有合适的基准来证明其必要性,也缺乏质疑 i.i.d. 假设的勇气——而 i.i.d. 一直以来是机器学习的基础。这些假设「一直以来」就是如此。在 AI 的上半场,基于这些假设去设计基准是没问题的,因为智能水平还低,提升智能基本就等于提升效用。但现在,这套通用配方在这些假设下几乎必定能奏效。所以,在下半场的新玩法是:
我们开发新的评估方式或任务,以衡量真实世界的效用。
我们用现有配方去解决它们,或在配方上加入新的组件,然后继续循环。这个游戏很难,因为它是陌生的。但它同样令人兴奋。上半场的玩家解决的是电子游戏和考试,下半场的玩家则有机会靠构建真正有用的智能产品,打造市值数十亿甚至数万亿美元的公司。上半场充斥着方法和模型的渐进改进,而下半场会对它们进行一定的「筛选」。这套通用配方会轻易击败那些渐进式的方法,除非你能设计出新的假设,打破现有配方。那时,你才会做出真正改变游戏的研究。欢迎来到下半场!致谢
  • 打卡等级:自成一派
  • 打卡总天数:331
发表于 2025-9-12 13:54 | 显示全部楼层
看看
回复 支持 反对

使用道具 举报

  • 打卡等级:渐入佳境
  • 打卡总天数:36
发表于 2025-9-12 14:50 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:初窥堂奥
  • 打卡总天数:16
发表于 2025-9-13 04:13 | 显示全部楼层
膜拜神贴,后面的请保持队形~
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-9-13 07:11 , Processed in 0.179267 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表