清华研究生开源大一统世界模型：性能超越硅谷标杆40%

922b3eb6 · 发表于 2026-2-7 22:07

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

金磊发自凹非寺
量子位 | 公众号 QbitAI

国产开源具身世界模型，直接秒了Pi-0.5，而且还是几位清华硕、博士研究生领衔推出的。

这就是由生数科技联合清华大学，正式开源的大一统世界模型——Motus。
项目主要负责人，是来自清华大学计算机系朱军教授TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷。
之所以说是大一统，是因为Motus在架构上，直接把VLA（视觉-语言-动作）、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式，首次实现了“看-想-动”的完美闭环。
而且在50项通用任务的测试中，Motus的绝对成功率比国际顶尖的Pi-0.5提升了35%以上，最高提升幅度甚至达到了40%！
在Motus的加持之下，现在的机器人已经具备了预测未来的能力。
瞧，Cloudflare人机验证任务，机器人可以轻松拿捏：

视频地址：https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA
从视频中不难看出，面对形状不规则的曲面鼠标，Motus控制的机械臂不仅能精准识别，还能根据鼠标与屏幕点击框的距离，平稳连续地移动，最后极度精准地完成点击。
再如长程多步推理的孔明棋任务，Motus同样展现出了严密的逻辑闭环，一步步解开棋局：

视频地址：https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA
再来看一个堪称是机器人噩梦的任务——叠衣服：

视频地址：https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA
衣服这种柔性物体的形变是过程中持续不断发生的，但在Motus手下，整个过程丝滑顺畅，就像有了人类的触觉和预判一样。
可以说，Motus的出现，率先在具身智能领域发现了Scaling Law，直接复刻了当年GPT-2被定义为“无监督多任务学习者”的奇迹。
很多CTO、创始人们看完之后直呼“妙哉”：

这是互联网视频学习与现实世界机器人之间的巧妙桥梁。
Motus的Latent Action范式太妙了。统一的VLA架构消除了机器人学中的模型碎片化，这才是真正的突破。
将感知、预测和行动统一在智能体内部确实是实质性的进展。

包括此前大火的英伟达Cosmos policy、DreamZero这些工作，被认为是颠覆了VLA的范式，转向WA（World Action Models）或VA（Vision Action）范式；但其核心思想与Motus相近，大同小异。
目前，Motus的代码、模型权重已全部开源（链接在文末）。
那么接下来，我们就来扒一扒这个大一统世界模型是如何实现的。
一个架构统一了五种范式

在过去，具身智能领域可以说是散装的。
因为像VLA、世界模型、视频生成、逆动力学、视频-动作联合预测等模型，很难有机地凑成一个整体。
而Motus最大的亮点，在一个框架内把这五种范式全包圆了。

大一统背后的技术，便是Mixture-of-Transformer（MoT）架构，配合Tri-model Joint Attention（三模态联合注意力）机制。
简单来说，通过这种方式，Motus相当于把三个专家攒到了一起：

理解专家（大脑）：基于Qwen-VL，负责看懂环境和指令；
视频生成专家（想象力）：基于Wan 2.2，负责推演未来画面；
动作专家（小脑）：负责具体的运动控制。

通过Tri-model Joint Attention，这三位专家可以在同一个注意力层里实时交换信息。
这就赋予了机器人一种很像人类的能力：不仅能看见（感知），还能在脑海里想象动作发生后的未来画面（预测），从而反过来倒推现在该做什么动作（决策）。
这正是我们刚才提到的“看—想—动”闭环。
但要训练这样一个全能模型，光在模型框架层面下功夫还是不够的——数据，也是一个老大难的问题。
因为机器人真机数据太贵、太少，而互联网上虽然有海量的视频，却只有画面，没有动作标签（Action Label）。
为了解决这个问题，Motus采取的策略便是潜动作（Latent Action）。

研究团队利用光流技术（Optical Flow），捕捉视频里像素级的运动轨迹，然后提出了一种Delta Action机制，将这些像素的变化翻译成机器人的动作趋势。
这个思路可以说是比较巧妙，就像是让机器人看武侠片学功夫。
虽然没有人手把手教（没有真机数据标签），但机器人通过观察视频里高手的动作轨迹（光流），看多了自然就懂了招式和发力方向（潜动作）。

由此，上至昂贵的真机数据，下至浩如烟海的互联网视频、人类第一视角视频（Egocentric Video），Motus全都能吃进去，从中提取通用的物理交互先验。
除此之外，基于数据金字塔和潜动作，Motus还构建了一套三阶段训练流程，逐步将通用的物理动力学常识“蒸馏”为精确的机器人控制能力：

视频生成预训练。利用多机器人轨迹和人类操作视频来微调视频生成专家，使其能根据条件帧和语言指令生成合理的机器人操作视频。
潜动作预训练。在冻结VLM的情况下，用视频、语言和潜动作同时预训练三个专家，将通用的运动先验充分地注入Motus中。
特定本体微调。利用目标机器人的真机数据对Motus进行整体微调，将模型适应到特定场景下的下游任务，例如RoboTwin仿真和真机机械臂抓取。

Scaling Law在物理世界跑通了

研究的实验结果表明：Scaling Law在物理世界里，真的跑通了。
在仿真榜单RoboTwin 2.0上，在50个通用任务中，Motus的平均成功率达到了88%：

特别是在高难度的Stack Bowls Three（叠三个碗）任务中，稍微一点误差就会导致碗塔倒塌。此前的基线模型在这个任务上的成功率不到16%，可以说是“帕金森级手抖”。
而Motus的成功率直接飙升至95%！
但比单点成绩更让人惊艳的，是下面这张Scaling Curves（扩展曲线）。

△上图为数据量Scaling，下图为任务数量Scaling。红色为Motus，蓝色为Pi-0.5

随着训练任务数量的增加（横轴），蓝色的线（Pi-0.5）呈现下降趋势。这意味着传统的模型架构在面对多任务时，容易发生过拟合，学了新的忘了旧的。
而红色的线（Motus）则是一路持续上升。
这证明了：只要模型架构足够统一、数据来源足够杂，具身智能完全可以像LLM一样，涌现出跨任务的通用泛化能力。
这也正是GPT-2当年带给NLP领域的震撼——Language Models are Unsupervised Multitask Learners。现在，Motus在具身智能领域复刻了这一奇迹。
在真机测试中，无论是AC-One还是Agilex-Aloha-2机械臂，Motus都表现出了较好的适应性。

△左：AC-One；右：Agilex-Aloha-2

数据显示，Motus的数据效率比对手提升了13.55倍。也就是说，达到同样的水平，Motus只需要别人十几分之一的数据量。
清华研究生领衔

最后，让我们把目光投向这个大一统世界模型背后的团队。
Motus由生数科技联合清华大学发布，而共同领衔的一作，是两位非常年轻的清华学生：

毕弘喆（Hongzhe Bi）：清华大学计算机系TSAIL实验室二年级硕士生。他的研究方向就是具身智能基础模型，此前还是CVPR2025 RoboTwin双臂机器人竞赛真机赛冠军。
谭恒楷（Hengkai Tan）：清华大学计算机系TSAIL实验室三年级博士生。主攻视频世界模型和具身大模型，曾获NOI银牌，在RDT、Vidar等多个重要项目中都有他的身影。

此外，团队成员还包括谢盛昊、王泽远、黄舒翮、刘海天等，均来自清华TSAIL实验室（朱军教授课题组）。
而作为联合发布方的生数科技，这次开源Motus，也暴露了其在世界模型上的布局。
熟悉生数科技的朋友都知道，他们刚完成新一轮融资，而且一直坚持视频大模型是通往AGI的核心路径。
在生数看来，视频天然承载了真实世界的物理时空、因果逻辑与动态演变。Motus的出现，正是这一战略的重要拼图。
它标志着机器人从“机械执行”向“端到端智能”的跨越，也推动了整个行业从单点突破走向统一基座。
产学研协作在这里发挥了巨大的化学反应：生数在多模态大模型上的深厚积累，加上清华团队的顶尖算法能力，才催生出了Motus这个大一统的世界模型。
Motus于25年12月就全部开源并发布论文，早于行业2个月，而最近火热的基于视频模型的具身智能路线，生数科技与清华大学在2025年7月份就已经发表Vidar具身视频模型，领先于行业半年之久。
目前，Motus已经全量开源。
感兴趣的小伙伴可以围观一下啦~
论文地址：
https://arxiv.org/abs/2512.13030
项目地址：
https://motus-robotics.github.io/motus
开源仓库：
https://github.com/thu-ml/Motus
模型权重：
https://huggingface.co/motus-robotics

华语天空 · 发表于 2026-2-7 23:10

之前就关注过清华在AI领域的研究，没想到这次又搞出这么牛的具身智能模型！

superzhzh · 发表于 2026-2-7 23:10

说Motus靠光流学招式挺妙但衣服叠那么顺肯定有后期处理痕迹真实布料形变哪会像视频里那么听话

酷狗e族 · 发表于 2026-2-7 23:11

国产机器人直接封神！清华大佬让机器人会叠衣服，还能预测未来？！[震惊]

922b3eb6 · 发表于 2026-2-8 02:14

加油。伟大的中国科学家研究团队！！

[烟花][万众一心]

ress · 发表于 2026-2-8 02:24

佩服！真的牛！

陪着寂寞看孤单 · 发表于 2026-2-8 05:41

现阶段用视频大模型训练可能是暂时的，或者说是一部分，后面必须会用更高级的视频大模型，比如机器人在夏天的山地里可以凭借视觉行动，但是在冬天的山地这个场景里，皑皑白雪覆盖了一切，机器人光凭视觉就可能无法判断地形地貌，就可能寸步难行了，所以说，视频大模型在训练机器人的感知、预测和行动能力上确实有用，都不是全部，未来还需要加入雷达、声波等技术来完善。

qqwa1234 · 发表于 2026-2-8 06:28

我就不喜这类吹牛皮式的报导。就制造模型而言只是个编程问题，真正的能耐还是来自掌握多类科学知识。什么”通用”呀，”大一统”呀，都是胡扯。AI要依赖于现有的数据库，哪来的可用的经过评价的教据库？你能懂得多少呀？

922b3eb6 · 发表于 2026-2-8 07:40

@元宝清华这个团队开源的世界模型号称性能超硅谷40%，可它现在真能让机器人叠衣服点鼠标了，为啥还没见工厂大规模用起来啊？是不是论文效果和实际落地还是有差距？

superzhzh · 发表于 2026-2-8 08:30

是中文语言训练吗？

账号		自动登录	找回密码
密码			注册

[科技新闻] 清华研究生开源大一统世界模型：性能超越硅谷标杆40%

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。