Qwen-RobotWorld:具身智能体的无界世界
具身智能的世界模型长期受限于单一形态,Qwen-RobotWorld用语言统一动作接口,把操作、驾驶、导航合训,多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号,做机器人的别错过。
Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。
Qwen
Qwen Studio
更多
EN
下载 试用 Qwen Studio
Qwen-RobotWorld:为具身智能体创造无限世界 | Qwen
Qwen-RobotWorld:为具身智能体创造无限世界
2026/06/16 · 6分钟 · 1168字 · QwenTeam丨翻译:简体中文
论文 具身智能需要智能体在物理环境中进行感知、推理和行动。世界模型提供了一条可扩展的前进路径——但当前的方法面临着一个根本性的矛盾。通用视频生成模型学习了丰富的视觉先验,但缺乏对具身物理世界的建模能力。领域特定的具身模型则针对个别场景量身定制,无法在不同具身形态间泛化。
Qwen-RobotWorld 通过将自然语言视为一种通用的动作接口,弥合了这一差距。像“拿起红色杯子并将其放在架子上”这样的单一指令,隐含地编码了完整的动作序列、目标状态和物理约束——无需机器人专属的控制接口。这使得操作、自动驾驶和室内导航可以联合训练,每个领域的物理知识相互增强。
语言统一了动作空间:世界知识和具身知识在单个模型中相互增强,实现了跨场景、跨任务的物理泛化。
关键亮点#
在 4 个评测基准上达到顶尖水平
统一了 20 多种机器人具身形态
860 万组跨场景训练数据对
1300 多种操作技能
语言驱动的统一动作接口——自然语言将 20 多种机器人具身形态和 500 多种动作类别标准化为单一接口,实现了跨场景联合训练 双流扩散模型世界模型——以 Qwen2.5-VL 作为动作编码器的 MMDiT,结合了深度语言理解能力与内化的物理世界知识 跨场景物理泛化——操作、驾驶、导航以及人-机器人技能迁移在 860 万组视频-文本对下联合训练 多视图几何一致生成——同步 2–4 路摄像头流,具备 3D 一致性的物体身份和运动轨迹
模型架构#
双流扩散模型世界模型#
Qwen-RobotWorld 采用双流多模态扩散 Transformer 架构(MMDiT):
理解流处理来自冻结的 Qwen2.5-VL 编码器的语义特征,表示语言动作 $a{t}$a t。 生成流处理来自视频兼容 VAE 的视觉隐空间,表示视觉状态 $s{t}$s t。
两个流通过每一层的联合注意力机制相互交互,从而在整个去噪过程中实现双向跨模态融合。
使用 MLLM 作为动作编码器——而不是像 T5 或 CLIP 这样的轻量级编码器——具有两个关键优势:(1) 深度语言理解能力能够准确解析复杂的组合性指令,并将其转化为精确的条件信号;(2) 内化的世界知识(例如,机械臂是具有固定关节约束的刚体)隐式约束了物理上合理的过渡,防止了跨帧物体变形等常见失败模式。
Scene2Robot:从人类到机器人的迁移#
Scene2Robot 实现了跨本体视频编辑:通过多段条件机制,将人类演示重新定位到 14 种机器人形态上,其中联合注意力机制允许生成过程同时关注场景外观和机器人运动轨迹。这一能力既在训练时作为数据扩展引擎,也支持在推理时实现从人类到机器人的迁移。
多视图几何一致生成#
单相机观测不可避免地会遮挡关键接触和空间细节。Qwen-RobotWorld 生成 2–4 路同步的相机流——主视角、腕载视角和第三人称视角——并在所有视点中保持物体身份和运动的几何一致性。在训练过程中,来自多个相机的同步帧在空间上拼接成单个输入;模型同时生成所有视图,非对称 3D RoPE 提供空间编码,注意力层自然建立跨视图对应关系——无需任何架构修改。这种跨视图一致性进一步充当了几何正则化器,教会模型物体的形状、深度和空间布局。
数据:具身世界知识#
EWK 数据集#
具身世界知识(EWK)数据集沿四个互补维度组织,每个维度针对不同的物理变化来源:
多形态——人类双手、7种机械臂配置、自我车辆、移动智能体,涵盖20多种不同的机器人型号 多任务——原子操作技能、长程组合、运动控制、动态/可变形交互,跨越500多个动作类别 多场景——以真实世界为主、仿真增强:厨房、车间、户外环境,以及用于下游VLA评估的光照真实仿真 多视角——主视角、腕部视角和同步多视角流(600万个具身样本中约160万个包含2-4个视角拼接)
查看详细数据集清单
| 数据集 | 形态 | 视角 | 贡献 | | --- | --- | --- | --- | | 操作类(约590万样本) | | EgoHOD, EPIC-Kitchens, Egocentric-10k | 人类双手 | 第一人称 | 灵巧性与协调性先验 | | Bridge V2, RH20T, Droid | 单臂夹爪 | 第三人称 + 腕部 | 交互基元 | | Robomind, RoboCoin | 单/双臂、人形机器人 | 第一人称 + 第三人称 | 跨形态泛化 | | Agibot-World, Galaxea | 单臂(夹爪 + 灵巧手) | 同步第一人称 + 腕部 + 第三人称 | 时间与多视角一致性 | | Qwen-Aloha(内部) | 双臂夹爪 | 头部 + 双腕 | 多视角抓取先验 | | ActionNet, OpenLoong | 灵巧手 | 腕部 + 第三人称 | 细粒度灵巧性 | | 自动驾驶类(约20万样本) | | Waymo, NVIDIA PhysicalAI-AD, Bench2Drive, Sekai | 自我车辆 | 环视 | 大规模自我运动与多智能体动力学 | | 室内导航(6000+条片段) | | VLNVerse | 移动智能体 | 第一人称 | 房间级空间推理 | | 人机迁移 | | Scene2Robot(合成数据) | 14种机器人形态 | 多视角 | 跨形态视频编辑 |
动作-语言映射#
构建通用世界模型的核心挑战在于表征的异质性:操作使用关节角度,驾驶使用转向指令,导航使用朝向向量——每种都需要独立的模型。我们的动作-语言映射框架通过将所有动作信号投影到共享的自然语言空间来解决这一问题,使得来自Franka夹爪、自动驾驶车辆和导航智能体的视频都成为同一语言条件视频生成任务的实例。
一个分五层的层级化标注流水线确保了描述的质量与精度:
1
任务目标高层意图——状态之间应发生什么变化
2
动作细节时空轨迹,附带明确的视角声明
3
物理反馈 环境中的可观测结果
4
综合描述 用于精确预测的完整描述
5
简洁描述 用于简短任务级指令的必备元素
在训练过程中,综合描述和简洁描述以相等概率采样,因此模型既能处理详细的轨迹规范,也能处理简短的任务级指令。
训练#
训练遵循从通用到专家的渐进式课程:
| 阶段 | 阶段名 | 数据混合 | 目标 | | --- | --- | --- | --- | | 预训练 | T2I / T2V / TI2V 联合训练 | 通用数据 | 建立基础视觉先验 | | 人机交互 | Ego4D、EPIC-Kitchen 等 | 抓取与工具使用先验 | | SFT | 阶段 1:单视角操作 | 具身 + 通用联合训练 | 核心操作物理 | | 阶段 2:多视角扩展 | 拓宽视角覆盖范围 | | 阶段 3:多视角拼接 | 跨视角几何一致性 | | 阶段 4:复杂跨领域 | 长程与跨场景 |
在通用数据和人类交互视频(Ego4D、EPIC-Kitchen)上进行预训练,构建了广泛的视觉先验——其中 T2I 任务特别锚定了通过共享骨干网络迁移到视频生成的对象几何特性。随后,SFT 在四个阶段中渐进式深化具身专业知识,同时每个批次中保留通用数据,确保两种能力共同提升而非相互权衡。
演示#
细粒度语言对齐#
给定相同的初始帧,当单个关键词不同时,模型会产生性质上截然不同的视频。它还能处理需要长程推理的复杂多步指令。
对比指令跟随:
视频 1
左:拿起红色草莓
右:拿起黄色土豆
视频 2
左:将笔放在木质托盘上
右:将笔放在白色纸张上
视频 3
左:将胶水递给那个人
右:将胶水放入笔筒中
复杂多步指令:
视频 4
依次拿起红色和黄色甜椒,从左到右放在桌子上
视频 5
抓住黄蓝叠放的积木,将其放置到绿蓝叠放的积木上方
跨领域泛化#
(A) 跨具身形态:
视频 6
视频 7
视频 8
视频 9
(B) 跨任务 × 跨环境:
视频 10
视频 11
视频 12
视频 13
(C) 多视角一致性:
视频 14
视频 15
视频 16
视频 17
(D) 零样本鲁棒性:
我们的方法
LVP
Cosmos2.5-14B
视频 18
视频 19
视频 20
视频 21
视频 22
视频 23
## 人到机器人的迁移 #
Scene2Robot 机制保留人类演示中的任务意图(左),同时将动作调整为适应具体形态的运动学约束(右)。
Video 24
Video 25
Video 26
Video 27
## 超越操作:驾驶与导航 #
学习到的世界模型从机器人操作泛化到更广泛的移动场景。
**自动驾驶。** 从 Bench2Drive、NVIDIA PhysicalAI-AD、Sekai 和 Waymo 生成的驾驶序列展示了连贯的场景动态和车辆行为。
Video 28
Video 29
Video 30
Video 31
**室内导航。** 来自 VLNVerse 的以自我为中心的导航序列展示了模型在复杂室内环境中模拟第一人称移动的能力。
Video 32
Video 33
Video 34
Video 35
从桌面操作到自动驾驶和室内导航——Qwen-RobotWorld 展示了一个统一的世界模型能够超越单一形态或场景族进行泛化。
## 性能 #
我们在四个基准上评估了通用视频生成模型(Sora2, Veo3, Wan2.6, Kling, LTX-2)和具身世界模型(Cosmos, LVP, GigaWorld, Vidar, Wow)。
**EWMBench**
4.60
具身运动保真度
**DreamGen**
4.952
指令遵循与物理对齐
**WorldModelBench**
8.99
物理推理与指令遵循
**PBench**
0.804
物理行为评估
| 类型 | 模型 | SceneC | HSD | Dyn | nDTW | Diversity | BLEU | CLIP | Logics | Overall | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 通用 | Veo3 | 0.842 | 0.213 | 0.193 | 0.161 | 0.022 | 0.214 | 0.897 | 0.947 | 3.49 | | Wan2.6 | 0.671 | 0.203 | 0.090 | 0.172 | 0.050 | 0.162 | 0.874 | 1.000 | 3.22 | | Kling | 0.821 | 0.327 | 0.182 | 0.342 | 0.017 | 0.259 | 0.901 | 1.000 | 3.85 | | LTX-2 | 0.785 | 0.208 | 0.128 | 0.244 | 0.012 | 0.143 | 0.887 | 0.500 | 2.91 | | Sora2 | 0.853 | 0.281 | 0.349 | 0.275 | 0.031 | 0.247 | 0.910 | 0.947 | 3.89 | | 具身 | Cosmos | 0.796 | 0.250 | 0.205 | 0.253 | 0.080 | 0.123 | 0.846 | 0.733 | 3.29 | | GigaWorld | 0.871 | 0.305 | 0.085 | 0.278 | 0.028 | 0.205 | 0.887 | 0.900 | 3.56 | | LVP | 0.880 | 0.425 | 0.043 | 0.623 | 0.009 | 0.218 | 0.900 | 0.952 | 4.05 | | Vidar | 0.734 | 0.188 | 0.152 | 0.177 | 0.065 | 0.161 | 0.882 | 0.941 | 3.30 | | Wow | 0.887 | 0.249 | 0.053 | 0.257 | 0.027 | 0.193 | 0.900 | 0.952 | 3.52 | | | 我们的 | 0.914 | 0.566 | 0.343 | 0.671 | 0.011 | 0.208 | 0.883 | 1.000 | 4.60 |
强运动保真度(HSD 0.566)、高场景一致性(0.914)以及完美的逻辑约束满足。
DreamGen Bench
| 模型 | GR1-Env PA | GR1-Env IF | GR1-Object PA | GR1-Object IF | GR1-Behavior PA | GR1-Behavior IF | 总分 | | --- | --- | --- | --- | --- | --- | --- | --- | | Cosmos-sft | 0.709 | 0.655 | 0.775 | 0.720 | 0.649 | 0.621 | 4.129 | | LVP | 0.810 | 0.772 | 0.745 | 0.829 | 0.713 | 0.889 | 4.758 | | Vidar | 0.445 | 0.647 | 0.478 | 0.726 | 0.394 | 0.651 | 3.341 | | GigaWorld | 0.621 | 0.933 | 0.500 | 0.852 | 0.426 | 0.884 | 4.216 | | Wow | 0.793 | 0.826 | 0.755 | 0.849 | 0.809 | 0.696 | 4.728 | | 我们的 | 0.828 | 0.793 | 0.840 | 0.878 | 0.781 | 0.832 | 4.952 |
强大的物体级组合泛化能力(GR1-Object IF: 0.878),在所有子集上保持一致的物理对齐。
WorldModelBench
| 类型 | 模型 | 指令(0-3) | 帧 | 温度 | 牛顿 | 质量 | 流体 | 穿透 | 重力 | 物理 | 总分 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 通用 | Veo3 | 2.52 | 0.98 | 0.95 | 1.00 | 0.89 | 0.99 | 0.91 | 1.00 | 4.80 | 9.25 | | Wan2.6 | 2.50 | 0.99 | 0.95 | 1.00 | 0.89 | 0.99 | 0.94 | 1.00 | 4.83 | 9.27 | | Sora2 | 2.21 | 0.96 | 0.93 | 1.00 | 0.91 | 0.99 | 0.95 | 1.00 | 4.84 | 8.93 | | Kling | 1.59 | 0.97 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 5.00 | 8.55 | | LTX-2 | 1.97 | 0.69 | 0.62 | 0.99 | 0.60 | 1.00 | 0.73 | 1.00 | 4.32 | 7.61 | | 具身 | Cosmos | 2.14 | 1.00 | 0.94 | 1.00 | 0.92 | 1.00 | 0.94 | 1.00 | 4.86 | 8.94 | | LVP | 2.01 | 0.89 | 0.91 | 1.00 | 0.93 | 0.99 | 0.95 | 1.00 | 4.87 | 8.67 | | GigaWorld | 2.13 | 0.59 | 0.46 | 1.00 | 0.48 | 0.99 | 0.69 | 0.98 | 4.13 | 7.31 | | Vidar | 1.62 | 0.54 | 0.45 | 1.00 | 0.56 | 1.00 | 0.85 | 1.00 | 4.40 | 7.01 | | Wow | 2.05 | 0.76 | 0.65 | 1.00 | 0.65 | 0.99 | 0.81 | 1.00 | 4.45 | 7.91 | | | 我们的 | 2.33 | 0.87 | 0.85 | 1.00 | 1.00 | 1.00 | 0.94 | 1.00 | 4.94 | 8.99 |
在牛顿定律、质量守恒、流体动力学和重力方面达到完美的物理遵守(1.00),同时具备强大的指令遵循能力(2.33/3.0)。
PBench
| 类型 | 模型 | I2V-Bg | I2V-S | Aes | Img | Bg-Con | Mot | Sub-Con | O-Con | Quality | Domain | Overall | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 通用 | Veo3 | 0.975 | 0.980 | 0.526 | 0.698 | 0.938 | 0.994 | 0.927 | 0.128 | 0.771 | 0.882 | 0.827 | | Wan2.6 | 0.856 | 0.843 | 0.514 | 0.719 | 0.906 | 0.978 | 0.843 | 0.136 | 0.724 | 0.832 | 0.778 | | Sora2 | 0.981 | 0.973 | 0.487 | 0.672 | 0.961 | 0.994 | 0.954 | 0.129 | 0.769 | 0.841 | 0.805 | | Kling | 0.982 | 0.979 | 0.521 | 0.699 | 0.920 | 0.990 | 0.927 | 0.124 | 0.768 | 0.874 | 0.821 | | LTX-2 | 0.948 | 0.955 | 0.506 | 0.622 | 0.932 | 0.986 | 0.904 | 0.118 | 0.746 | 0.845 | 0.796 | | 具身 | LVP | 0.979 | 0.981 | 0.515 | 0.679 | 0.954 | 0.991 | 0.962 | 0.116 | 0.772 | 0.812 | 0.792 | | GigaWorld | 0.957 | 0.944 | 0.495 | 0.641 | 0.925 | 0.984 | 0.892 | 0.128 | 0.746 | 0.841 | 0.794 | | Wow | 0.967 | 0.957 | 0.517 | 0.689 | 0.941 | 0.980 | 0.929 | 0.111 | 0.761 | 0.786 | 0.774 | | Vidar | 0.935 | 0.922 | 0.501 | 0.573 | 0.912 | 0.982 | 0.863 | 0.120 | 0.726 | 0.810 | 0.768 | | Cosmos | 0.974 | 0.973 | 0.470 | 0.663 | 0.940 | 0.989 | 0.931 | 0.160 | 0.763 | 0.840 | 0.802 | | | Ours | 0.956 | 0.943 | 0.455 | 0.649 | 0.956 | 0.990 | 0.933 | 0.124 | 0.751 | 0.857 | 0.804 |
领域理解(0.857)和运动平滑度(0.990)表现出色,反映了在物理场景中一致的时序连贯性。
← 返回 Qwen-Robot Suite
引用#
如果您觉得我们的工作有帮助,欢迎引用我们。
bibtex
@article{qwenrobot-world, title={Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation}, author={Qwen Team}, year={2026}
")
尝试 Qwen Studio
Web
iOS
Android
macOS
Windows
Qwen Studio
Qwen Studio 概览
下载
API 平台
我们的旗舰模型
平台概览
API 平台
Qwen Cloud
研究
最新进展
研究索引
GitHub
条款与政策
服务条款
隐私政策
使用政策
Cookies 通知
训练数据摘要
Qwen © 2026