给世界模型加上因果，她要让机器人真正理解“为什么”｜对话Aether AI创始人黄碧薇

陪着寂寞看孤单 · 发表于 2026-6-20 21:49

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

2011 年，Judea Pearl 凭借在因果推理领域的奠基性贡献获得图灵奖。他提出 AI 必须跨越三层：关联、干预、反事实。2018 年，他在面向大众的著作《The Book of Why》中将这一框架系统化为“因果之梯”。

十五年过去了，深度学习沿着另一条路径走到了 GPT，走到了多模态大模型，也走到了今天的世界模型军备竞赛，一路走来，AI 产业的主旋律始终是 Scaling Law：更多数据、更大模型、更强算力。

但与此同时，Scaling 也让下一个瓶颈暴露清晰：预测结构不等于因果结构。

一个模型可以从生物标记物预测疾病进展，却分不清它是病因还是症状；能模仿机器人轨迹，却不懂动作背后的物理机制。环境一变，相关性模型就失效。

大家常说“压缩即智能”，但仅压缩不够，必须是结构化的压缩——提取出因果变量和物理规律，而非统计模式。这是黄碧薇创立 Aether AI 的技术信念，也是整条技术栈的起点。

2026 年，世界模型成为AI最热赛道。LeCun 离开 Meta 创立 AMI Labs，10.3 亿美元押注 JEPA；李飞飞的 World Labs 融资超 12 亿美元，发布商用产品 Marble；Google DeepMind 推出 Genie 3，NVIDIA Cosmos 下载量破200 万。

所有人都在说“理解物理世界”，但没有一家把因果置于架构底层。

而在机器人控制侧，行业重注 VLA（视觉-语言-动作模型），靠大规模示教数据训练泛化能力。VLA 进展迅速，但弱点明确：部署时性能不可预测退化，对干扰和分布偏移鲁棒性差，长程任务误差累积。

这里涉及到一个关键区分：观察机器人完成抓取（P(Y|X)）和让机器人主动执行抓取（P(Y|do(X))）是两回事。VLA 学到的是前者，真实世界需要后者。

也正是在这样的背景下，总部位于圣地亚哥的 Aether AI 及它的创始人黄碧薇成为行业焦点，其团队约 20 人，成立不久就拿下了由经纬创投领投的 2000 万美元融资。

黄碧薇博士（Prof. Biwei Huang）是 UCSD 助理教授，也是 Aether AI 的创始人。她师从因果发现奠基人 Clark Glymour,Kun Zhang, Bernhard Schölkopf，深耕 12 年，是少数串起马普所、CMU、UCSD 三处学术资源的人。

图｜黄碧薇（来源：受访者）

她对 VLA 路线的判断比学术论文里的措辞要犀利得多：“它完全是死记硬背训练数据里出现过的 pattern，即使桌面高两厘米，可能就失败了。”

不过，事实上，这条路并非她最初的规划。

本科在华东师大读计算机时，她上的还是一门三层网络的人工神经网络课，因为对“大脑如何计算”产生好奇，大四去了中科院神经所。硕士到德国马普所念计算神经科学，在一次暑期学校上听到 Bernhard Schölkopf 讲因果推理，觉得很有意思，于是找到实验室导师转了方向。

此后她到 CMU 攻读博士，在因果领域一扎就是 12 年，研究主线也恰好回应了物理世界的复杂现实：在经典假设被违反的条件下，异质性、非平稳、选择偏差、隐变量——因果结构能否被识别。

Aether AI 的核心突破，是以因果智能为核心的下一代 AI 范式。技术栈分为四层：第一层是 Causation Transformer，直接在 Transformer 层学习因果关系，而不只是相关性；第二层是模块化架构，类似今天大模型中的 MoE，但模块对应的是不同的因果机制，可组合、可替换、可动态调用；第三层是因果世界模型，不只预测下一步，而是模拟“如果干预，世界会如何变化”；最顶层是因果驱动智能体，具备规划、归因和策略调整能力，能够基于因果理解做出更可靠的决策。

需强调的是，因果世界模型与主流“世界模型”做的不是同一件事。

VLA 把动作当输出，不当作对环境的干预；视频生成模型产出视觉合理的画面，但视觉合理不等于因果正确；3D 重建提供空间几何，但不编码力、接触、动力学，也不回答“如果我这样做，世界会如何”。因果世界模型的目标，是在这些之上提供干预推理和反事实推理的基础层。

目前，Aether AI 因果世界模型的首个落地场景是机器人决策大脑——不做本体，只做感知与控制之间的智能推理层。内部评测中，其在机器人操作、locomotion 和长程任务上，相比传统世界模型实现 25%-50% 成功率提升和 5-10 倍样本效率提升，且在任务、环境、奖励函数变化下保持泛化。

但黄碧薇的野心不止于此。她把 Aether AI 定位为前沿实验室，认为因果世界模型的框架一旦搭好，可延伸到生物医学、科学发现、金融等需要因果推理的领域。

就像她说的那样，“我们不是给现有 AI 加一个因果模块，而是从 Transformer 到 Agent 系统，全部换成因果思维。”她或许不是第一个谈论因果 AI 的人，但她可能是第一个带着一家公司、一支团队，站在梯子下面准备往上爬的人。

以下是 DeepTech 与黄碧薇的对话。

“即使桌面只高两厘米，它也会失败”

DeepTech：因果学界的学者之前比较少创业。你为什么决定在这个时间点出来？

黄碧薇：也不能说完全没有。比较早期的前辈学者里，有几位后来完全离开学术界去创业了。近些年在生物医学、金融领域也有一些。但的确，我们这个圈子里创业的人不多。

至于我创业的原因，可以分为两个层面。内部原因是，做科研和创业一直是我想做的事。前期完全专注在科研上，等成果做得比较扎实之后，再让它自然转化为应用和产品，我觉得现在条件成熟了。

外部原因是，具身智能领域过去三年投入了大量资金和精力，但 VLA 只能停留在视频演示阶段，没办法真正落地——它完全是死记硬背训练数据里出现过的 pattern。

对我们做因果的人来说，我们早就知道会是这样。现在大家撞到南墙了，开始意识到必须走一条新路线：让模型懂得背后的规律和因果关系，而不是死记硬背却不理解为什么这么做。

DeepTech：你的导师们知道你要创业的时候是什么反应？

黄碧薇：非常支持。张坤（Kun Zhang）愿意公开做顾问。Clark Glymour 已经八十多岁了，他不想抛头露面，更倾向于做内部顾问。他们的态度是：既然决定做了，就一定要做好。他们也会帮我介绍资源。

DeepTech：因果这个圈子不大，核心人才又大多在学术界，组建团队顺利吗？

黄碧薇：比较顺利。我长期在这个领域，因果方向谁做得扎实、在哪些问题上有深度积累、谁更偏论文发表而非实质性突破，我基本都比较了解。

我算是因果领域的第三代。我的导师们，Clark Glymour、Peter Spirtes、Bernhard Schölkopf、Kun Zhang，他们是第一代、第二代的开创者。作为第三代，这个领域所有核心人物我都能联系到，基本都是朋友，自己培养的学生也在陆续加入。

图丨黄碧薇与她的导师们以及其他因果领域学者（来源：受访者）

当然，我们也需要在大模型基础设施和机器人全栈层面有经验的人。招人最看重自驱力和聪明程度，不管读博还是在创业公司做事，这一点都很重要。

DeepTech：从学界进入产业界，有什么是你之前没预料到的？

黄碧薇：公司涉及方方面面。首先是投融资，尤其我们这条路线非常新、非常独特。幸运的是，投资人多多少少意识到了当前范式的瓶颈，以及进入新方法的重要性。当然，有些人愿意下注，有些人要观望一下，看别人投了再跟。

内部管理、市场推广、做活动，以及即将到来的商业层面，都是 0 到 1 的过程。好在团队在各个层面都有非常靠谱、有经验的人在共同推进。

DeepTech：兼顾学校和公司，精力怎么分配？

黄碧薇：我现在不用上课，协调起来还好。不过大家其实不是一周工作 40 个小时，是一周工作 80 个小时。（笑）

DeepTech：这次 CVPR 是 Aether AI 第一次以公司身份亮相，也是你以创业者身份的首次公开露面。现场对“因果世界模型”的反响怎么样？

黄碧薇：我们在 CVPR 设了展台，还安排了午餐会和晚餐会，后两者主要是为了招人。从公司角度看，我们希望让所有人看到，我们要做的是下一代 AI 范式。

现场的反响也很好。很多人的反应是：“这才是真正的世界模型。”现在市面上什么都叫世界模型，没有统一标准。但我们定义的这个世界模型，才是它的终极形式。学术圈的人懂这个，能理解。现场来了很多高校老师、大厂研究员和博士生，聊合作或者聊加入公司。

“三条方程式，everything is very clear”

DeepTech：展开聊聊技术路线。“世界模型”现在被用得非常泛滥，各种路线都在叫世界模型。在你的定义里，因果世界模型到底是什么？和其他路线差在哪里？

黄碧薇：现在世界模型的定义很混乱。视频生成模型、3D 生成模型、JEPA 系列，大家都叫世界模型。但真正的世界模型要能理解物理世界底层的规律和因果关系：从一个状态，通过某个动作，转移到下一个状态，状态转移到底是怎样的？你能模拟物理世界各个要素之间怎么相互影响、怎么变化，这才是最本质的东西。

如果用数学方程式来表达，大家就很容易抓住要点。一共三条。

第一条，状态转移方程。在 t 时刻我有若干个状态变量，经过一个动作，t+1 时刻的状态是什么样的？这是最重要的一条。

第二条，观测函数。真正的状态变量很多时候不能直接观测到，状态变量到观测数据之间的映射关系是什么？

第三条，奖励函数。在上一时刻的状态和动作下，到达新状态会得到什么回报？

从数学方程来看，everything is very clear。现在市面上许多所谓的“世界模型”做的只是预测下一帧，不是模拟干预。视频生成模型可以生成看起来很合理的未来画面，但视觉上合理不等于物理上正确。

3D 重建可以给你空间结构，但几何本身不编码力、不编码接触、不编码动力学。你问它“如果我换个方式做，会怎样”，它就无法回答了，真正的世界模型必须能回答这个问题。

（来源：Aether AI）

DeepTech：外界经常拿 LeCun 的 JEPA 路线和你做比较，能不能具体讲讲两者的区别？

黄碧薇：LeCun 在公开场合谈到他想实现的目标时，其实已经带了因果的色彩，但他的那套 JEPA 模型本身并没有实现因果。JEPA的做法是去掉像素层面的 decoder，在隐空间里只保留平滑过渡的信号。这个设计背后的直觉是有道理的：去掉高频的像素级噪声，只保留有语义信息的部分。

但我们看到这个路线在实际应用中有一些局限。一方面，去掉 decoder 之后，像素层面的一些信息也跟着丢了。在具身智能的操作任务中，接触面的细节、力的传递这些信息在像素层面可能表现为高频信号，但对任务本身非常关键。这也是为什么 JEPA 这些年主要还是在学术界、在相对简单的数据集上使用比较多，在更复杂的真实任务上还有提升空间。

另一方面，JEPA 在隐空间里没有把因果变量解耦出来，也没有显式地学习因果结构，各种信息还是混在一起的。

我们是在 JEPA 的方向上往前走了一步：在隐空间里把因果变量解耦，学习因果结构，学习因果动力学。

举个例子，假设一个机器人学会了在光滑桌面上推杯子。如果只学了统计相关性，换一个粗糙桌面它就可能又失败了，因为它没有学到摩擦力、接触面、力的方向这些真正决定结果的因果变量。但如果模型学到了这些变量以及它们之间的结构，它就知道“桌面变了，但力学关系没变”，可以自动调整策略，这就是因果泛化和统计泛化的本质区别。

DeepTech：在当下 LLM 占据主流的情况下，会有一种观点认为，新进入的玩家需要讲一个差异化的故事。你听到这种评价会怎么回应？

黄碧薇：能名副其实讲这个故事的，市场上可能只有我们一家。拿具身任务举例，VLA 就是 LLM 模型在具身领域的应用，它只能存在于视频演示里面，没法真正部署到真实环境。

具体来说，部署到真实环境的任务成功率，迁移到新环境、不完全一样的任务和技能时候的泛化能力，长程任务的能力，加上 decoder 之后生成视频在物理规则一致性上的表现，帧与帧之间的连续性，这些方面都是因果结构的优势所在。

（来源：Aether AI）

“我们希望开创下一代 AI 范式”

DeepTech：如果从 AI 的范式演进来看，你怎么定位因果大模型在其中的位置？

黄碧薇：这三十年来的 AI 范式进化可以分为四个阶段，从模型大小和模型抽象能力两个维度来看。

第一个阶段是 90 年代初，以相关性为主的小模型，学的是浅层的统计相关性。

第二个阶段大概在 2010 年前后，有一个圈子进入了以因果为核心的小模型范式，开始从观测数据里学习背后的因果结构，并利用学到的因果关系帮助各种机器学习任务，包括强化学习、迁移学习、表征学习等。

第三个阶段就是大家耳熟能详的大语言模型范式，本质上还是基于相关性的大模型。它在自然语言和编程任务上做得很好，因为这两类任务的信息已经比较表层化、符号化。

第四个阶段自然而然就是以因果为核心的大模型。它站在第二代和第三代范式的肩膀上：有了第二代在因果理论和算法层面的积累，又有了第三代在大模型训练和 scaling 层面的突破，两者结合，就可以推进到下一代范式。

DeepTech：因果推理有相当长的历史了，但工业界长期以来没有靠因果推理规模化落地的先例。你认为之前没走通的原因是什么？为什么现在到了能走通的时间点？

黄碧薇：在上一波的因果领域，我们做的主要是理论和算法：从理论上证明在什么条件下可以唯一识别底层的因果结构，然后设计算法来推断它们。

在 LLM 火起来之前，大家并没有意识到 scaling 的重要性。我们这个圈子更专注在理论和算法层面，而这部分在 LLM 之前已经做得很成熟了。现在 LLM 的成功让我们意识到 scaling 同样重要。下一步就是把 scaling 和因果理论结合起来，让大模型不再是死记硬背，而是真正能提取背后的概念，学习根本性的规律。

还有一点。为什么 LLM 在自然语言上效果那么好？因为语言本身已经是人类压缩过的高层表征，概念、实体、事件、关系都以符号形式存在了，模型只需要学习符号之间的统计规律。

但到了视频、机器人、生物实验这些领域，因果变量不是现成的，它们埋在像素、轨迹、传感器信号里，你必须先把它们提取出来。这就是为什么光靠 scaling 在物理世界走不通，必须加入因果结构。

DeepTech：传统因果方法有一些公认的瓶颈，比如图结构搜索的组合爆炸、强假设依赖，比如无隐变量、线性关系，而且大多只在表格数据和小规模问题上验证过，处理不了图像、视频这类高维感知输入。这些问题在你们的路线里是怎么解决的？

黄碧薇：传统方法和我们的解决思路完全不同。

传统的因果发现假设因果变量是可观测的，通过离散的图搜索，比如利用条件独立性检验，找到变量之间的因果关系和方向。以前用 CPU 跑，可能只能处理几千个变量。现在即使是原来的经典离散图搜索算法，用 GPU 并行，三天之内也可以跑完几十万个变量的图。

但在具身领域，我们观测的是视频和传感器信号，还涉及表征学习的过程。我们不会主要依赖传统的离散图搜索方法，而是用基于 encoder-隐空间-decoder的架构来实现，实现方式完全不一样。具体算法和模型我们会陆续发布。

DeepTech：你今年 1 月发了一篇论文《Transformer Is Inherently a Causal Learner》，提出 Transformer 天然编码了因果结构，而且因果发现的准确率随数据量增长。这是你方法论的理论起点吗？

黄碧薇：那篇文章的结论是：当假设这个世界上只有时滞关系的时候，Transformer 确实是在学因果关系。但现实情况是，不仅有时滞关系，还有瞬时关系，也会被未观测的隐变量影响。在这些更真实的情况下，Transformer 学的就是相关性。

所以这篇论文是为下一步实现 Causation Transformer 做了一个铺垫。它指明了方向：在简单条件下，Transformer 天然有因果性；但要在真实世界中实现因果学习，还需要在架构上做进一步工作。

DeepTech：目前在具体的产品上有试点吗？基础模型大概什么时候发布？

黄碧薇：我们在各个算法层面都有工作在推进，包括构建以任务为中心的世界模型、处理有隐变量和层级隐变量动力学的情况、在跨本体层面实现统一动作空间等等，这些已经陆续在发布。

同时，我们内部也在训练因果世界模型基础模型，大概明年上半年发第一版。可能不会马上开源所有内容，但最终肯定会开源。现在行业的一个普遍策略是早期开源一部分来建立生态，做足够好之后再调整策略。

DeepTech：具体的里程碑可以透露一下吗？

黄碧薇：预期明年可以在机器人操作任务上做到“GPT-3.0 时刻”，在各种操作任务上有比较好的泛化性能、较高的成功率，并且能执行长程任务。明年晚些时候，结合 locomotion 和 manipulation，机器人可以在开放环境里既走动又完成操作任务，达到“GPT-3.5 时刻”。更进一步，我们希望机器人在开放环境中通过自强化学习的方式自主探索和学习，实现终身学习。

DeepTech：因果学界有三个方法论流派：因果发现、因果推理、潜在结果框架。你是少数能融会贯通的研究者。落到 Aether AI 的产品上，你具体走的是哪条线？

黄碧薇：我主要走的是因果发现和因果 AI 这条线。另外两个流派做的是因果推理，也就是假设因果图已经确定，只需要估计因果效应有多大。

因果发现要从头开始，从原始数据里学到因果结构，同时学习因果模型，这本身就涵盖了因果推理的部分。再加上如何从因果角度更好地解决机器学习和AI的任务——也就是因果 AI。所以这条线是一个更根本、更集大成的路线。

当然，其他流派的思想，比如 Judea Pearl 的结构方程模型，不管用哪种实现方式都很有借鉴意义。回到公司：高层思想上是融会贯通，具体实现上走的是因果发现和因果 AI。因为我们是从零开始训练，只有原始数据，没有假设已知的因果结构。从观测数据出发，提取因果变量，学习因果结构，学习因果动力学。

图丨黄碧薇与 Causality Community 部分核心成员（来源：受访者）

DeepTech：这个赛道上也有 Ilya Sutskever 的 SSI、LeCun 的 AMI Labs 这类以“开创新范式”为目标的公司，它们拿到了远超一般创业公司的融资体量。你怎么定位 Aether AI？你们和这些公司是同一类玩家吗？

黄碧薇：我们现阶段更像一个 Neo Lab 的形式，我们希望开创下一代AI范式。OpenAI 开创了 LLM 这套范式，我们要开创以因果世界模型为核心的下一代范式。现在各个领域都构建在 LLM 范式上，我们认为下一步会转向因果世界模型，实现更好的性能，更好的泛化能力，减少幻觉，能够超越人类现有知识。

同时，它也是可解释、可控、安全的，就像Ilya想要实现的那样。你要能够理解模型为什么做出这样的决策，背后的因果路径是怎样的，这样才能可控，才能安全。

DeepTech：说到幻觉这个问题，因果模型有可能从根本上解决吗？

黄碧薇：为什么之前的 LLM 会有幻觉？核心原因是它只学了统计相关性，找概率最大的 token 做预测。比如早期 GPT-3 的时候，你问它华盛顿州的首都在哪里，它可能告诉你是西雅图。因为“西雅图”和“华盛顿州”经常一起出现，但正确答案是奥林匹亚，一个非常小的地方。这就是相关性和因果性的区别。

而且模型越来越聪明，会不会不可控？核心还是要回到理解背后的因果关系和思考过程。如果我知道模型是怎么想的、如何产生我们看到的答案，我就可以非常有效地控制它。所以不管从减少幻觉还是从安全可控性的角度看，我们都必须走到因果这一层。

DeepTech：你们在官网上还提到了一些更长期的愿景，比如科学发现、生物等方向。这些是在推进了，还是更远期的目标？

黄碧薇：总体来说是未来更进一步的目标，但研究层面也有少部分人在同步探索。科学发现领域，我们规划的第一个应用场景是生物方向，比如长寿研究。选这个方向有两个原因：一是这是每个人都关心的问题；二是特别是在 T 细胞层面，数据积累比较多，人类的认知也相对成熟，可以从比较成熟的数据出发，一步步打通闭环。

DeepTech：假如五年后 Aether AI 做成了你期待的样子，那时候的机器人行业会和今天有什么不一样？

黄碧薇：我说个可能有点悲观的话，大多数现在的机器人厂商可能届时都不一定存在了。早期探索期过去之后，大脑这一层也会收敛到一个比较确定的范式下，会出现像今天大语言模型一样的、几家确定的格局。

所以我们当下是以模型为主，但长期而言也会有自己的本体团队。

DeepTech：最后一个问题。如果用一句话概括因果大模型的核心理念，你会怎么说？

黄碧薇：大家常说“压缩即智能”，但我觉得这句话还不够。仅仅压缩是不够的，我们需要的是结构化的压缩。只有结构化的压缩，才能真正产生智能。

账号		自动登录	找回密码
密码			注册

[科技新闻] 给世界模型加上因果，她要让机器人真正理解“为什么”｜对话Aether AI创始人黄碧薇

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。