天涯Pro,一个融合社交与专业服务的创新平台,它如何提升用户体验并驱动社区发展,值得深入探索

作者团队来自南洋理工大学 MARS Lab、加州大学伯克利分校、斯坦福大学、哈佛大学、普林斯顿大学、ETH Zurich、牛津大学、东京大学、Microsoft 等机构的研究者。团队长期关注机器人学习、具身智能、世界模型、多模态基础模型与机器人策略学习。

世界模型正在成为机器人学习中绕不开的议题。

过去几年，机器人策略学习的主线之一，是从传统的任务特定策略，转向更通用的 Vision-Language-Action (VLA) 模型。通过大规模视觉语言模型和机器人轨迹数据，VLA 模型能够将视觉观测、语言指令和动作输出统一起来，在跨任务、跨场景泛化上展现出潜力。

但机器人控制并不只是「看图回答动作」。在真实物理环境中，策略模型需要面对接触、遮挡、长时序依赖、错误累积和多步规划等问题。一个只根据当前观测直接输出动作的模型，往往缺少对未来状态变化的显式预判。

这使得世界模型重新成为机器人学习中的核心方向：机器人不仅要知道「现在是什么」，还要能预测「如果执行某个动作，世界接下来会如何演化」。

近日，来自南洋理工大学 MARS Lab 的研究者，联合加州大学伯克利分校、斯坦福大学、哈佛大学、普林斯顿大学、ETH Zurich、牛津大学、东京大学、Microsoft 等机构，发布综述论文《World Model for Robot Learning: A Comprehensive Survey》，系统梳理了世界模型在机器人学习中的定义、架构范式、应用场景、评测基准与未来挑战。论文共 43 页，并配套持续更新维护的 GitHub 资源库。

论文标题：World Model for Robot Learning: A Comprehensive Survey

论文链接：https://arxiv.org/abs/2605.00080

项目主页：https://ntumars.github.io/wm-robot-survey/

GitHub：https://github.com/NTUMARS/Awesome-World-Model-for-Robotics-Policy

机器人世界模型：

重点不是生成，而是可用于决策的预测

在机器学习和认知科学语境中，world model 并不是一个新概念。它通常指能够刻画环境状态如何随时间和动作发生变化的预测模型。

但在机器人学习中，作者强调需要对这一概念作更严格的界定。机器人世界模型不应只是一个能生成未来画面的模型，而应是能够描述「智能体——环境」动态演化的模型。换言之，它需要回答的是：在当前状态下，如果机器人执行某个动作，未来状态会如何改变。

这一点也区分了机器人世界模型和一般视频生成模型。后者可以生成视觉上合理的视频，但未必具备动作一致性。例如，模型可能生成一段看似自然的物体移动视频，却无法准确反映机器人夹爪动作、接触关系和受力变化。对于机器人控制来说，这样的预测价值有限。

因此，论文将机器人世界模型的核心能力概括为三类：

第一，foresight，即在执行前预测动作后果；

第二，imagination-driven planning，即通过想象 rollout 比较候选行为；

第三，data amplification，即通过合成轨迹或演示数据改善策略学习。

这也解释了为什么世界模型与机器人学习的结合正在加速。VLA 策略提供了从视觉和语言到动作的接口，而世界模型补充了对未来物理变化的预测结构。二者结合后，机器人策略不再只是反应式映射，而是有机会引入更强的前瞻性和规划能力。

世界模型如何接入机器人策略？

论文首先讨论的是世界模型与机器人策略的结合方式。作者将现有方法按架构划分为多类，从早期解耦式方法，到单骨干网络、MoE / MoT 架构、统一 VLA，再到 latent-space world modeling。

早期路线通常采用「预测未来，再恢复动作」的两阶段框架。模型先利用视频生成或未来观测预测模块，生成任务相关的未来状态；随后，一个逆动力学模型根据当前观测和预测未来，推断机器人应执行的动作。UniPi、VidMan、Vidar、Gen2Act 等工作可以归入这一类。

这类方法的优势在于模块清晰。世界模型负责预测「将会发生什么」，策略模块负责把预测结果转化为动作。但问题也很明显：两个模块之间存在接口误差，生成的视频或 latent 表征如果与真实动作后果不一致，就会影响后续控制。

随后，研究开始转向更紧耦合的方案。一类方法使用单一生成骨干同时建模未来视觉状态和动作序列，将视频预测与动作生成放进同一个扩散或流匹配过程。UVA、UWA、VideoVLA、Cosmos Policy 等方法都体现了这一趋势。它们不再把世界模型当作外部模块，而是试图让预测和控制在同一个模型内部共同发生。

另一类方法采用 MoE / MoT 或多分支专家结构。视频专家、动作专家和语言理解模块保持一定程度的参数独立，但通过共享注意力、交叉注意力或层间交互实现信息融合。Motus、LingBot-VA、BagelVLA 等方法都属于这一方向。相比完全共享骨干，这种设计保留了不同模态的专门能力，同时让视频预测中的时序和物理先验影响动作生成。

统一 VLA 则代表了另一条路线。它们不一定显式调用外部视频世界模型，而是通过未来图像预测、视觉 foresight、结构化世界知识或 latent 动态建模，把预测目标内化到 VLA 训练过程之中。GR-1、WorldVLA、DreamVLA、UniVLA、CoWVLA 等方法都在不同层面体现了这种趋势。

值得注意的是，论文并没有简单判断哪一路线已经胜出。相反，作者指出，当前机器人世界模型仍处在快速演化阶段。解耦模块、统一生成骨干、专家混合结构和 latent 表征各有优劣，最终效果取决于数据规模、控制频率、任务复杂度、推理成本以及模型是否真正捕捉到动作条件下的物理变化。

从策略模块到可交互模拟器

世界模型的第二类重要用途，是作为机器人学习中的模拟器。

传统机器人强化学习面临一个长期瓶颈：真实交互成本高、采样效率低、复位困难，而且存在硬件安全风险。如果可以用学习到的世界模型替代真实环境进行 rollout，策略就可以在虚拟交互中获得训练信号。

论文将这一方向称为 World Model as Simulator。在这一范式中，世界模型接收当前观测、任务指令和候选动作，预测下一步观测、奖励或终止信号。策略模型可以在这个学习到的环境中进行强化学习后训练，也可以在测试阶段用世界模型评估多个候选动作。

这一路线的关键价值，是把世界模型从「辅助预测器」推进到「训练环境」。例如，部分方法尝试用世界模型生成 imagined transitions，用于 VLA 的 RL post-training；也有方法利用预测 rollout 对候选动作进行排序，在执行前判断哪一组动作更可能成功。

不过，作为模拟器的世界模型也面临更高要求。用于开放式视频生成时，模型只需在视觉上保持合理；但用于策略训练时，模型错误会直接影响策略优化方向。一个略微偏差的动力学预测，可能在多步 rollout 中被放大，导致策略学到错误行为。因此，长期稳定性、动作敏感性和奖励一致性，是这一方向绕不开的问题。

视频生成模型能否成为机器人世界模型？

近年来，大规模视频生成模型的发展，为机器人世界模型提供了新的基础设施。视频模型天然学习时序变化、运动连续性和空间结构，因此被认为可能为机器人控制提供有价值的先验。

但论文强调，机器人视频世界模型不能直接等同于通用视频生成。对于机器人学习而言，最重要的并不是画面质量，而是动作可控性和物理一致性。

一个真正有用的机器人视频世界模型，需要在给定语言指令、当前观测和动作序列时，生成与动作后果一致的未来状态。它还需要处理物体遮挡、接触变化、工具使用、场景几何和长时序任务等问题。

论文将机器人视频世界模型的发展概括为几个阶段：

从最初的 imagination-based generation，即生成未来视频作为策略学习的辅助；

到 action-controllable world model，即显式建模动作对未来视觉状态的影响；

再到 structure-aware world model，即引入深度、3D、对象、轨迹、场景结构等中间表示；

最终走向 foundation-scale world model，即具备更大数据规模、更强泛化能力和多任务适应性的基础世界模型。

评测标准正在发生变化

论文的另一个重点是评测。对于世界模型，单纯评估视频清晰度或生成质量已经不够。

在机器人场景中，评测应关注模型是否能改善真实任务表现。例如，它能否提升策略成功率？能否正确排序候选动作？能否预测失败轨迹？能否在长时序任务中保持因果一致？能否帮助策略减少真实交互样本？

因此，作者认为未来的 benchmark 需要从 open-loop visual fidelity 转向 closed-loop task utility。也就是说，世界模型的好坏不应只由「生成得像不像」决定，而应由「是否帮助机器人做得更好」来决定。

论文整理了多个机器人学习 benchmark 和数据集，包括 LIBERO、RoboTwin、CALVIN、SIMPLER 等，并对不同世界模型策略在这些环境中的表现进行了归类比较。这些结果显示，当前最有效的方法并不集中在单一架构上；不同任务下，解耦式、统一式、专家混合式和 latent-space 方法都可能表现出竞争力。

未来挑战：动作一致性、效率和物理 grounding

尽管世界模型在机器人学习中展现出潜力，但论文也指出，距离可靠部署仍有多项关键挑战。

首先是动作条件下的因果一致性。模型不能只根据历史观测「脑补」未来，而必须准确反映动作带来的状态变化。对于闭环控制来说，这是世界模型是否真正有用的基础。

其次是推理效率。许多视频扩散模型计算成本较高，难以满足机器人实时控制需求。因此，越来越多方法开始探索 latent-space prediction、训练时使用世界模型、测试时跳过显式视频生成等方案。

第三是物理 grounding。真实机器人交互依赖摩擦、力、触觉、物体材质和接触稳定性，仅靠视觉预测往往不足。未来世界模型可能需要融合本体感觉、力觉、触觉和结构化几何表示。

此外，论文也提到，神经世界模型并不必然取代传统规划和控制方法。相反，符号表示、对象关系、因果结构和经典控制仍可能为长时序任务提供更稳定的抽象层。如何把神经预测能力与结构化规划结合起来，将是机器人世界模型的重要方向。

结语

这篇综述的价值在于，它没有把世界模型简单视为视频生成模型在机器人领域的迁移，而是从机器人学习本身出发，重新梳理了世界模型应该承担的功能：辅助策略生成、充当学习模拟器、支持评估与规划、生成训练数据，并最终服务于真实可执行的机器人行为。

对机器人学习而言，世界模型的核心问题不是「能不能想象未来」，而是「想象出的未来能否用于控制」。

当机器人能够在行动前预测后果、在执行中校正计划、在训练中利用虚拟交互改进策略，世界模型才真正从生成模型走向具身智能系统的核心组件。