未开启屏蔽访客功能,允许调试 天涯Pro,一个融合社交与专业服务的创新平台,它如何提升用户体验并驱动社区发展,值得深入探索
五指山新闻网
您的位置: 首页新闻中心本地要闻机器人为什么{需}要世界模型?世界顶尖机构联合综述震撼,发布
机器人为什么{需}要世界模型?世界顶尖机构联合综述震撼,发布
来源:红星资本局 记者:山河坊 发布时间:2026-05-16 20:08:50

作者团队来自南洋理工大学 MARS Lab、加州大学伯克利分校、斯坦福大学、哈佛大学、普林斯顿大学、ETH Zurich、牛津大学、东京大学、Microsoft 等机构的研究者。团队长期关注机器人学习、具身智能、世界模型、多模态基础模型与机器人策略学习。

世界模型正在成为机器人学习中绕不开的议题。

过去几年,机器人策略学习的主线之一,是从传统的任务特定策略,转向更通用的 Vision-Language-Action (VLA) 模型。通过大规模视觉语言模型和机器人轨迹数据,VLA 模型能够将视觉观测、语言指令和动作输出统一起来,在跨任务、跨场景泛化上展现出潜力。

但机器人控制并不只是「看图回答动作」。在真实物理环境中,策略模型需要面对接触、遮挡、长时序依赖、错误累积和多步规划等问题。一个只根据当前观测直接输出动作的模型,往往缺少对未来状态变化的显式预判。

这使得世界模型重新成为机器人学习中的核心方向:机器人不仅要知道「现在是什么」,还要能预测「如果执行某个动作,世界接下来会如何演化」。

近日,来自南洋理工大学 MARS Lab 的研究者,联合加州大学伯克利分校、斯坦福大学、哈佛大学、普林斯顿大学、ETH Zurich、牛津大学、东京大学、Microsoft 等机构,发布综述论文《World Model for Robot Learning: A Comprehensive Survey》,系统梳理了世界模型在机器人学习中的定义、架构范式、应用场景、评测基准与未来挑战。论文共 43 页,并配套持续更新维护的 GitHub 资源库。

论文标题:World Model for Robot Learning: A Comprehensive Survey

论文链接:https://arxiv.org/abs/2605.00080

项目主页:https://ntumars.github.io/wm-robot-survey/

GitHub:https://github.com/NTUMARS/Awesome-World-Model-for-Robotics-Policy

机器人世界模型:

重点不是生成,而是可用于决策的预测

在机器学习和认知科学语境中,world model 并不是一个新概念。它通常指能够刻画环境状态如何随时间和动作发生变化的预测模型。

但在机器人学习中,作者强调需要对这一概念作更严格的界定。机器人世界模型不应只是一个能生成未来画面的模型,而应是能够描述「智能体——环境」动态演化的模型。换言之,它需要回答的是:在当前状态下,如果机器人执行某个动作,未来状态会如何改变。

这一点也区分了机器人世界模型和一般视频生成模型。后者可以生成视觉上合理的视频,但未必具备动作一致性。例如,模型可能生成一段看似自然的物体移动视频,却无法准确反映机器人夹爪动作、接触关系和受力变化。对于机器人控制来说,这样的预测价值有限。

因此,论文将机器人世界模型的核心能力概括为三类:

第一,foresight,即在执行前预测动作后果;

第二,imagination-driven planning,即通过想象 rollout 比较候选行为;

第三,data amplification,即通过合成轨迹或演示数据改善策略学习。

这也解释了为什么世界模型与机器人学习的结合正在加速。VLA 策略提供了从视觉和语言到动作的接口,而世界模型补充了对未来物理变化的预测结构。二者结合后,机器人策略不再只是反应式映射,而是有机会引入更强的前瞻性和规划能力。

世界模型如何接入机器人策略?

论文首先讨论的是世界模型与机器人策略的结合方式。作者将现有方法按架构划分为多类,从早期解耦式方法,到单骨干网络、MoE / MoT 架构、统一 VLA,再到 latent-space world modeling。

早期路线通常采用「预测未来,再恢复动作」的两阶段框架。模型先利用视频生成或未来观测预测模块,生成任务相关的未来状态;随后,一个逆动力学模型根据当前观测和预测未来,推断机器人应执行的动作。UniPi、VidMan、Vidar、Gen2Act 等工作可以归入这一类。

这类方法的优势在于模块清晰。世界模型负责预测「将会发生什么」,策略模块负责把预测结果转化为动作。但问题也很明显:两个模块之间存在接口误差,生成的视频或 latent 表征如果与真实动作后果不一致,就会影响后续控制。

随后,研究开始转向更紧耦合的方案。一类方法使用单一生成骨干同时建模未来视觉状态和动作序列,将视频预测与动作生成放进同一个扩散或流匹配过程。UVA、UWA、VideoVLA、Cosmos Policy 等方法都体现了这一趋势。它们不再把世界模型当作外部模块,而是试图让预测和控制在同一个模型内部共同发生。

另一类方法采用 MoE / MoT 或多分支专家结构。视频专家、动作专家和语言理解模块保持一定程度的参数独立,但通过共享注意力、交叉注意力或层间交互实现信息融合。Motus、LingBot-VA、BagelVLA 等方法都属于这一方向。相比完全共享骨干,这种设计保留了不同模态的专门能力,同时让视频预测中的时序和物理先验影响动作生成。

统一 VLA 则代表了另一条路线。它们不一定显式调用外部视频世界模型,而是通过未来图像预测、视觉 foresight、结构化世界知识或 latent 动态建模,把预测目标内化到 VLA 训练过程之中。GR-1、WorldVLA、DreamVLA、UniVLA、CoWVLA 等方法都在不同层面体现了这种趋势。

值得注意的是,论文并没有简单判断哪一路线已经胜出。相反,作者指出,当前机器人世界模型仍处在快速演化阶段。解耦模块、统一生成骨干、专家混合结构和 latent 表征各有优劣,最终效果取决于数据规模、控制频率、任务复杂度、推理成本以及模型是否真正捕捉到动作条件下的物理变化。

从策略模块到可交互模拟器

世界模型的第二类重要用途,是作为机器人学习中的模拟器。

传统机器人强化学习面临一个长期瓶颈:真实交互成本高、采样效率低、复位困难,而且存在硬件安全风险。如果可以用学习到的世界模型替代真实环境进行 rollout,策略就可以在虚拟交互中获得训练信号。

论文将这一方向称为 World Model as Simulator。在这一范式中,世界模型接收当前观测、任务指令和候选动作,预测下一步观测、奖励或终止信号。策略模型可以在这个学习到的环境中进行强化学习后训练,也可以在测试阶段用世界模型评估多个候选动作。

这一路线的关键价值,是把世界模型从「辅助预测器」推进到「训练环境」。例如,部分方法尝试用世界模型生成 imagined transitions,用于 VLA 的 RL post-training;也有方法利用预测 rollout 对候选动作进行排序,在执行前判断哪一组动作更可能成功。

不过,作为模拟器的世界模型也面临更高要求。用于开放式视频生成时,模型只需在视觉上保持合理;但用于策略训练时,模型错误会直接影响策略优化方向。一个略微偏差的动力学预测,可能在多步 rollout 中被放大,导致策略学到错误行为。因此,长期稳定性、动作敏感性和奖励一致性,是这一方向绕不开的问题。

视频生成模型能否成为机器人世界模型?

近年来,大规模视频生成模型的发展,为机器人世界模型提供了新的基础设施。视频模型天然学习时序变化、运动连续性和空间结构,因此被认为可能为机器人控制提供有价值的先验。

但论文强调,机器人视频世界模型不能直接等同于通用视频生成。对于机器人学习而言,最重要的并不是画面质量,而是动作可控性和物理一致性。

一个真正有用的机器人视频世界模型,需要在给定语言指令、当前观测和动作序列时,生成与动作后果一致的未来状态。它还需要处理物体遮挡、接触变化、工具使用、场景几何和长时序任务等问题。

论文将机器人视频世界模型的发展概括为几个阶段:

从最初的 imagination-based generation,即生成未来视频作为策略学习的辅助;

到 action-controllable world model,即显式建模动作对未来视觉状态的影响;

再到 structure-aware world model,即引入深度、3D、对象、轨迹、场景结构等中间表示;

最终走向 foundation-scale world model,即具备更大数据规模、更强泛化能力和多任务适应性的基础世界模型。

评测标准正在发生变化

论文的另一个重点是评测。对于世界模型,单纯评估视频清晰度或生成质量已经不够。

在机器人场景中,评测应关注模型是否能改善真实任务表现。例如,它能否提升策略成功率?能否正确排序候选动作?能否预测失败轨迹?能否在长时序任务中保持因果一致?能否帮助策略减少真实交互样本?

因此,作者认为未来的 benchmark 需要从 open-loop visual fidelity 转向 closed-loop task utility。也就是说,世界模型的好坏不应只由「生成得像不像」决定,而应由「是否帮助机器人做得更好」来决定。

论文整理了多个机器人学习 benchmark 和数据集,包括 LIBERO、RoboTwin、CALVIN、SIMPLER 等,并对不同世界模型策略在这些环境中的表现进行了归类比较。这些结果显示,当前最有效的方法并不集中在单一架构上;不同任务下,解耦式、统一式、专家混合式和 latent-space 方法都可能表现出竞争力。

未来挑战:动作一致性、效率和物理 grounding

尽管世界模型在机器人学习中展现出潜力,但论文也指出,距离可靠部署仍有多项关键挑战。

首先是动作条件下的因果一致性。模型不能只根据历史观测「脑补」未来,而必须准确反映动作带来的状态变化。对于闭环控制来说,这是世界模型是否真正有用的基础。

其次是推理效率。许多视频扩散模型计算成本较高,难以满足机器人实时控制需求。因此,越来越多方法开始探索 latent-space prediction、训练时使用世界模型、测试时跳过显式视频生成等方案。

第三是物理 grounding。真实机器人交互依赖摩擦、力、触觉、物体材质和接触稳定性,仅靠视觉预测往往不足。未来世界模型可能需要融合本体感觉、力觉、触觉和结构化几何表示。

此外,论文也提到,神经世界模型并不必然取代传统规划和控制方法。相反,符号表示、对象关系、因果结构和经典控制仍可能为长时序任务提供更稳定的抽象层。如何把神经预测能力与结构化规划结合起来,将是机器人世界模型的重要方向。

结语

这篇综述的价值在于,它没有把世界模型简单视为视频生成模型在机器人领域的迁移,而是从机器人学习本身出发,重新梳理了世界模型应该承担的功能:辅助策略生成、充当学习模拟器、支持评估与规划、生成训练数据,并最终服务于真实可执行的机器人行为。

对机器人学习而言,世界模型的核心问题不是「能不能想象未来」,而是「想象出的未来能否用于控制」。

当机器人能够在行动前预测后果、在执行中校正计划、在训练中利用虚拟交互改进策略,世界模型才真正从生成模型走向具身智能系统的核心组件。

8. 理想汽车 260271
  2018年自然资源部成立后,钟自然任自然资源部党组成员,中国地质调查局局长、党组书记。直至2022年9月卸任。今年1月2日,即2024年首个工作日,其官宣被查。
初审:轻舞 责任编辑:不为人知的神
延伸阅读
中共西宁委员会宣传部主管 五指山融媒体中心主办
互联网新闻信息服务许可证:3318029052 | 广播电视节目制作许可证:浙备字(2026)第011号
工信部备案号:浙ICP备20260307号-3 | 浙公网安备33180202000516号
新闻热线:0575-88812390 投稿邮箱:editor@ny365.cn
版权所有 © 2026 五指山新闻网(3g.sousuo.ny365.cn) 未经授权不得转载