AI浪潮正在从信息领域扩散至物理现实。
然而一旦进入需要与物理世界交互的场景,比如操控物体、完成任务或适应变化环境,现有AI系统仍存在明显短板。
如AI教母李飞飞在其广受关注的长文《From Words to Worlds》中所指出的那样:人类理解世界,不仅仅看到眼前的东西,还要理解它们在空间上的关系、语义上的意义,以及现实中的重要性。
这种“空间智能”的能力,正是AI下一阶段突破的核心。
这也解释了,为什么当下全球研究和产业界都将注意力集中到了世界模型和具身智能上——它们是打通AI与物理世界之间壁垒的关键路径。
因为这两个方向都指向同一个目标:让模型具备与物理世界交互的能力。
训练世界模型和具身智能模型,需要的不再是图文对齐或语言标注数据,而是多模态交互过程数据。这类数据必须具备规模化、结构化、可控性强的特点。
行业通用的数据金字塔,把训练所需数据划分为三类:
真实遥操作数据
仿真合成数据
人类视频数据
其中仿真合成数据和人类视频数据属于“本体无关数据”,更容易标准化和大规模生成。
两者中,相较而言,仿真合成数据结构更清晰、精度更高,可控性也更强,ROI(投资回报率)也更高。
具身智能方向,训练机器人的大、小脑模型都需要大量仿真合成数据,尤其是小脑模型,对高保真仿真合成数据的依赖程度更高。
有一点很容易被人忽视,其实世界模型也对仿真合成数据有很强的需求。
就像李飞飞在《From Words to Worlds》中强调的那样:
更进一步,光轮融资的新进展背后透露出来的是一个行业数据观的转变:
数据正在从“被采购的资源”变成“可服务的平台”,不能直接吃互联网数据的具身智能和世界模型,需要海量吞吃定制生成的结构化场景数据。 谁能持续供给高质量的仿真与人类行为数据,谁就掌握了新一代智能体系的底层资源。数据公司的价值,就藏在这种转向里。
AI 2.0的变革浪潮,已经进入了数据变革为核心的基建时间。