Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite
Qwen-RobotSuite 一次性放出三个具身模型,用统一对齐策略解决了机器人数据碎片化问题,多个 SOTA 结果加上两个开源仓库,做具身智能的值得认真看一下。
Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite:Qwen-RobotManip(基于Qwen3.5-4B的VLA模型,通过统一对齐框架和3800小时开源数据(含24708小时合成)实现跨本体操作,在LIBERO-Plus OOD基准上达91.4%,跨本体迁移性能为π0.5的3.2倍)、Qwen-RobotWorld(60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型,以自然语言为统一动作接口预测未来视频)和Qwen-RobotNav(基于Qwen3-VL的导航模型,2B/4B/8B,输出航点轨迹)。RobotManip与RobotNav已开源GitHub。
通义千问团队发布了三款具身AI模型,统称为Qwen-Robot-Suite。这三款模型分别是Qwen-RobotManip、Qwen-RobotWorld和Qwen-RobotNav。每款模型均基于Qwen视觉语言骨干网络构建,分别针对不同的机器人学问题。
Qwen-RobotManip是一个面向操控任务的视觉语言动作模型,基于Qwen3.5-4B构建。Qwen-RobotWorld是一个基于语言条件的视频世界模型,包含60层MMDiT和冻结的Qwen2.5-VL编码器。Qwen-RobotNav是一个基于Qwen3-VL构建的导航模型,提供2B、4B和8B三种参数量版本。
Qwen-Robot-Suite
Qwen-Robot-Suite并非单一模型,而是由三个独立基础模型组成的套件。其中两个模型RobotManip和RobotNav随附公开的GitHub仓库。
机器人数据因硬件和任务不同而碎片化严重。不同机器人采用互不兼容的观测和动作格式。在一条机械臂上训练的策略几乎无法迁移到另一条上。
这三份研究报告以不同方式应对碎片化问题。RobotManip通过统一动作表征,使操控数据得以规模化扩展;RobotWorld将语言作为统一的动作接口用于视频预测;RobotNav则为导航任务提供了一个可控的观测接口。
以下是三款发布的核心区分:
| 模型 | 问题 | 骨干网络 | 输出 |
|---|---|---|---|
| Qwen-RobotManip | 机械臂操控 | Qwen3.5-4B(Qwen-VL) | 连续机器人动作 |
| Qwen-RobotWorld | 具身世界建模 | 冻结的Qwen2.5-VL | 预测的未来视频 |
| Qwen-RobotNav | 移动导航 | Qwen3-VL(2B/4B/8B) | 路点轨迹 |
Qwen-RobotManip:对齐解锁操控规模化
Qwen-RobotManip是一个视觉语言动作(VLA)基础模型。它基于Qwen-VL构建,能够预测连续的机器人动作。
VLA模型接收摄像头视角和语言指令,然后输出底层机器人动作。其挑战在于,操控数据本质上具有异质性。
不同机器人以互不兼容的格式记录状态和动作。当演示数据带有不匹配的表征时,数据规模化会产生干扰。RobotManip通过统一的对齐框架解决了这一问题。
统一对齐框架
该框架包含三种互补机制。首先是规范的状态-动作表示。它是一个80维的向量,每个维度都带有二进制掩码。
该向量包含两个29维的每臂数据块,外加22个保留维度。每个数据块存储关节位置、末端执行器姿态、夹爪状态以及灵巧手关节。机器人只填充其自身具备的维度。
其次是相机帧相对位姿参数化。末端执行器动作以相机帧中的相对量表示。这使得视觉上相似的动作在不同形态之间数值接近。
第三是上下文内策略自适应机制。它将最近的执行历史读取为隐式形态标识符。该策略在部署时调整行为,无需更新参数。
与上述机制并行的是一个双流协同训练策略。它联合优化操作数据和一个视觉-语言流。这防止了主干网络的感知和推理能力退化。
数据引擎
RobotManip 收集了大约 38,100 小时的操作数据。它仅使用开源数据集和人类视频。未使用任何专有数据收集。
一个人到机器人的合成流程产生了大部分这样的规模。它将第一人称视角的手部演示转换为机器人轨迹。该流程在 15 个机器人平台上进行渲染。
仅此合成流程就产生了约 24,808 小时的演示数据。第一人称源数据约为 1,933 小时。开源机器人数据集贡献了超过 11,000 小时。
该流程将动作对齐与视觉对齐分开。动作对齐将手部关键点重新映射到夹爪姿态。视觉对齐使用 SAM3 掩码、ProPainter 补画和 MuJoCo 逆运动学。
随后,一个五阶段筛选流程对合并后的语料库进行过滤。它能捕捉突变、时间错位和极值。一项检查发现,某个子集中 81% 的片段未通过状态-动作对齐。
基准测试结果
该研究报告认为,标准基准测试无法衡量泛化能力。在分布内测试中,未经机器人预训练的模型与预训练模型表现相当。因此,RobotManip 专注于分布外(OOD)设定。
| 基准测试(OOD) | 此前 SOTA(π0.5) | Qwen-RobotManip |
|---|---|---|
| LIBERO-Plus | 84.4 | 91.4 |
| RoboTwin-C2R Hard | 47.9 | 69.4 |
| EBench | 27.1 | 45.6 |
| RoboCasa365 | 16.9 | 35.9 |
| RoboTwin-IF | 49.6 | 72.2 |
报道中最大的差距出现在跨实体迁移上。RobotManip 使用相机坐标系下的末端执行器动作达到了 23.9%,是 π0.5 所达到 7.5% 的 3.2 倍。
该模型还在 RoboChallenge Table30-v1 通用性赛道中排名第一。相比之前的最佳结果,它取得了 20% 的相对提升。实物机器人验证涵盖了 AgileX ALOHA、Franka、UR 和 ARX 平台。
RobotManip:规范动作向量探索器
RobotManip 将每个机器人映射为一个 80 维向量:两个 29 维的单臂模块加上 22 个预留维度。选择一个实体,查看它填充了哪些维度。未点亮(未激活)的单元格被零填充,并在训练损失中被掩蔽。
Qwen-RobotWorld:语言作为通用动作接口
Qwen-RobotWorld 是一个基于语言条件的视频世界模型。它从当前观察中预测未来的视觉轨迹。自然语言作为统一的动作接口。
世界模型学习环境动力学。给定当前状态和一个动作,它预测下一个状态。RobotWorld 将状态表示为视频帧,将动作表示为文本。
这一点很重要,因为语言与实体无关。一条指令编码了动作序列、目标和约束条件。它适用于 Franka 夹爪、Aloha 双臂系统或人形机器人。
双流 MMDiT 架构
该模型使用一个 60 层双流多模态扩散 Transformer(MMDiT)。理解流处理冻结的 Qwen2.5-VL 编码器的特征。生成流处理视频 VAE 隐变量。
两个流通过每一层的联合注意力进行交互。使用 MLLM 作为动作编码器有两个优势:它可以解析组合式指令,并约束物理上合理的状态转移。
MMDiT 有 200 亿参数。VAE 采用 Wan-VAE 架构。上下文长度最多支持 48,360 个视频 token。
一种 Scene2Robot 机制将该主干复用于跨具身形态合成。它同时处理场景、机器人参考和生成片段。这使得无需针对特定机器人设计提示词,即可实现从人类到机器人的视频迁移。
具身世界知识数据集
训练使用具身世界知识(EWK)数据集。它包含大约 860 万条视频-文本对,覆盖超过 2 亿帧观察画面。
语料库涵盖四个具身领域以及通用视频。操作类提供约 590 万个样本,涉及 20 多种形态。驾驶、导航和人到机器人迁移填补了其余部分。
一种动作-语言映射框架将所有内容标准化。它将 20 多种具身形态和 500 多个动作类别转化为语言。一个五级分层标注流水线生成这些描述文本。
基准测试结果
RobotWorld 在四个既定基准上进行了评估。在其中两个基准上总体排名第一:
| 基准 | 结果 | 排名 |
|---|---|---|
| EWMBench | 4.60 | 总体第一 |
| DreamGen Bench | 4.952 | 总体第一 |
| WorldModelBench | 8.99 | 开源第一(总体第三) |
| PBench | 0.804 | 开源第一 |
在 EWMBench 上,它在运动保真度方面领先,HSD 为 0.566,比第二名高出 33%。场景一致性达到 0.914。
在 WorldModelBench 上,它在四个物理遵从类别中得分 1.00。这些类别是牛顿定律、质量守恒、流体动力学和重力。穿透性得分为 0.94,指令跟随得分为 2.33(满分 3.0)。
RobotWorld:语言动作接口
RobotWorld 将自然语言视为通用动作接口。一条指令编码了整个动作序列、目标和约束条件,无需任何针对特定机器人的控制格式。输入一条指令并选择一个具身形态,即可追踪模型如何解析它。
Qwen-RobotNav:用于导航的可控接口
Qwen-RobotNav 是一个基于 Qwen3-VL 构建的可扩展导航模型。它将多任务导航重新定义为观测上下文建模。该模型面向外部控制暴露了一个参数化接口。
导航涵盖众多任务族。指令跟随、点目标导航、物体搜索、目标跟踪以及驾驶各有不同。每种任务都需要不同的策略来处理视觉数据流。
指令跟随需要长期记忆来反复参考地标。目标跟踪只需要最近的帧。没有一种固定上下文策略能很好地适用于所有任务。
参数化接口
RobotNav 将所有任务表述为航点轨迹预测。它预测 8 个航点,每个航点包含二维位置和朝向。一个轻量级的 4 层 MLP 头部基于骨干网络生成这些预测。
该接口包含两个配置维度。任务模式可在 VLN、PointNav、ObjNav 和 Tracking 之间选择导航行为。观测参数决定了视觉历史如何编码。
这些观测控制包括视觉 token 预算和时间衰减,还包括每台摄像头的权重。训练过程中对所有参数进行随机化处理,可确保鲁棒性。
摄像头身份和时间顺序使用自然语言标签。这不需要对 Qwen3-VL 进行任何架构修改。支持新平台只需一个新的提示词模板。
智能体系统
该接口使 RobotNav 成为智能体系统的构建模块。一个上层规划器将长期目标分解为子目标。Qwen3.6-Plus 在该系统中充当此规划器。
规划器会在单次运行期间重新配置 RobotNav 的任务模式。RobotNav 充当反应式执行器。两个层级之间仅通过自然语言进行通信。
一个两层记忆系统支持长期推理。单次运行记忆总结每一次 rollout。跨运行记忆累积可持续的结论,例如已搜索过的区域。
基准测试结果
RobotNav 在 1560 万条样本上进行了训练。其中导航轨迹数据占 85%,视觉语言推理数据占剩余的 15%。
| 基准测试 | 指标 | 结果 |
|---|---|---|
| VLN-CE RxR(验证集-未见场景) | 成功率 | 76.5% |
| VLN-CE R2R(验证集-未见场景) | 成功率 | 72.1% |
| EVT-Bench | 跟踪率 | 90.0% |
| HM3Dv2(物体导航) | 成功率 | 75.6% |
| NAVSIM | PDMS | 91.4 |
该智能体系统在具身问答任务上创下新最先进水平。它在 HM-EQA 上相比先前最佳方法提升了 10.8%。在 EXPRESS-Bench 上也提升了 15.4%,同时所需的导航步数减少 77%。
报告显示性能从 2B 参数提升至 8B 参数。联合多任务训练建立了一个共享的空间规划基底。报告指出,这一基底可跨任务族迁移。
RobotNav: 模型 Token 分配模拟器
RobotNav 暴露了一个参数化观测接口。规划器设置模型 Token 预算 B、时间衰减 γ 以及每个摄像头的权重,以控制视觉历史如何编码。移动控件,观察模型 Token 如何跨摄像头和时间步重新分配。
用例及示例
每个模型都对应具体的部署场景。以下示例结合了报告支持的结果与说明性框架。
- RobotManip 在新硬件上的少样本部署:某团队拥有一台 Franka 机械臂和少量演示数据。他们在自己的工作空间上微调 RobotManip。报告显示,预训练先验在杂乱和未见状态上的帮助大于从头训练。
- RobotManip 跨实体技能迁移:一个策略在 6K CobotMagic 和 130 个 ARX 演示上联合微调,随后在四个新颖 ARX 任务上测试,无目标任务演示。研究报告成功率为 55.0%,是最佳消融变体的 4 倍以上。
- RobotWorld 作为合成数据引擎:一个 VLA 策略所需的训练数据超过物理采集所能提供的量。研究团队将合成数据生成列为三个应用方向之一。RobotWorld 可以为新的语言指令生成视频。
- RobotWorld作为策略评估环境:该研究将策略评估列为第二个应用方向。在部署到真实硬件之前,可以对生成的轨迹运行策略。这被作为一个研究方向提出,而非经过基准测试的结果。
- 智能体系统中的RobotNav:上层规划器将长程目标分解为子目标,并按照不同的任务模式和上下文设置调度导航调用。研究团队的智能体系统在HM-EQA上比此前最优的EQA方法提升了10.8%。
- RobotNav用于自动驾驶:同一模型将点目标驾驶作为一种任务模式来处理,在NAVSIM上达到了91.4 PDMS。默认情况下,前置摄像头获得最高的token权重。
对比表:三种模型
下表汇总了技术细节,可作为选择合适模型的参考。
| 属性 | RobotManip | RobotWorld | RobotNav |
|---|---|---|---|
| 任务类型 | 操作(VLA) | 视频世界模型 | 导航 |
| 主干网络 | Qwen3.5-4B | 冻结的Qwen2.5-VL | Qwen3-VL |
| 动作接口 | 相机帧内末端执行器/关节 | 自然语言 | 航点轨迹 |
| 训练数据 | 约38,100小时 | 860万视频-文本对 | 1560万样本 |
| 关键架构 | DiT流匹配头 | 60层双流MMDiT | MLP动作头 |
| 主要成果 | 在RoboChallenge Table30-v1上排名第一 | 在EWMBench、DreamGen上排名第一 | 在VLN-CE RxR上达到76.5%成功率 |
| 输出 | 连续动作 | 预测视频 | 8个航点(x, y, θ) |
| 公开仓库 | 是(GitHub) | 仅博客 | 是(GitHub) |
这三份研究报告并未呈现一个组合系统。但综合来看,它们覆盖了互补的层次:RobotWorld负责仿真和数据生成,RobotManip负责操作,RobotNav负责移动。
实现说明:标准动作向量
RobotManip的动作表示值得从代码层面理解。正是这种机制让不同机器人能够共享同一个模型。以下是对该掩码思想的简化说明。
# Conceptual sketch of RobotManip's 80-dim canonical vector.
# Two 29-dim per-arm blocks + 22 reserved dimensions = 80.
# This is illustrative, not the official implementation.
CANONICAL_DIM = 80
# Per-arm semantic groups, per the report:
ARM_GROUPS = {
"joints": 7, # joint positions
"eef_pose": 9, # 3D position + 6D rotation
"gripper": 1, # parallel gripper width
"hand": 12, # dexterous hand joints
}
ARM_BLOCK = sum(ARM_GROUPS.values()) # 29
def build_masked_action(populated_groups, arms):
"""Build the action vector and a per-dimension binary mask.
populated_groups: set of group names this robot uses.
arms: 1 for single-arm, 2 for dual-arm.
Only populated dimensions carry supervision; the rest are masked.
"""
action = [0.0] * CANONICAL_DIM
mask = [0] * CANONICAL_DIM
idx = 0
for _ in range(arms):
for group, size in ARM_GROUPS.items():
if group in populated_groups:
for d in range(idx, idx + size):
mask[d] = 1 # gradients flow only here
idx += size
if arms == 1:
idx = ARM_BLOCK # skip to the second block
return action, mask
# A 7-DOF single-arm gripper fills joints, eef_pose, gripper of one arm.
_, mask = build_masked_action({"joints", "eef_pose", "gripper"}, arms=1)
print(sum(mask)) # -> 17 populated dims; the rest stay zero and masked关键思想是按维度的二进制掩码。它确保梯度仅流经语义占用的条目,从而防止对缺失自由度产生虚假的监督信号。
相同的掩码原则也出现在流匹配损失中。每个样本的贡献是均等的,无论有多少维度处于激活状态。这防止了填充槽位更多的机器人主导优化过程。
要点总结
- 通义千问(Qwen)发布了三款具身 AI 模型:RobotManip、RobotWorld 和 RobotNav(统称为 Qwen-RobotSuite)。
- RobotManip 将机器人数据对齐到一个 80 维的动作向量中,并在 RoboChallenge Table30-v1 基准上排名第一。
- RobotWorld 使用自然语言作为动作接口,在 EWMBench 和 DreamGen Bench 基准上均排名第一。
- RobotNav 提供了一个可控的 token 预算接口,在 VLN-CE RxR 基准上取得了 76.5% 的成功率。
- 这三款模型中有两款附带了公开的 GitHub 代码仓库;RobotWorld 仅以研究论文形式呈现。