MarkTechPost（RSS）

精选76

Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite

2026-06-17 00:51·8天前·Asif Razzaq

精选理由

Qwen-RobotSuite 一次性放出三个具身模型，用统一对齐策略解决了机器人数据碎片化问题，多个 SOTA 结果加上两个开源仓库，做具身智能的值得认真看一下。

AI 摘要

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite：Qwen-RobotManip（基于Qwen3.5-4B的VLA模型，通过统一对齐框架和3800小时开源数据（含24708小时合成）实现跨本体操作，在LIBERO-Plus OOD基准上达91.4%，跨本体迁移性能为π0.5的3.2倍）、Qwen-RobotWorld（60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型，以自然语言为统一动作接口预测未来视频）和Qwen-RobotNav（基于Qwen3-VL的导航模型，2B/4B/8B，输出航点轨迹）。RobotManip与RobotNav已开源GitHub。

AI 翻译 · 中文

通义千问团队发布了三款具身AI模型，统称为Qwen-Robot-Suite。这三款模型分别是Qwen-RobotManip、Qwen-RobotWorld和Qwen-RobotNav。每款模型均基于Qwen视觉语言骨干网络构建，分别针对不同的机器人学问题。

Qwen-RobotManip是一个面向操控任务的视觉语言动作模型，基于Qwen3.5-4B构建。Qwen-RobotWorld是一个基于语言条件的视频世界模型，包含60层MMDiT和冻结的Qwen2.5-VL编码器。Qwen-RobotNav是一个基于Qwen3-VL构建的导航模型，提供2B、4B和8B三种参数量版本。

Qwen-Robot-Suite

Qwen-Robot-Suite并非单一模型，而是由三个独立基础模型组成的套件。其中两个模型RobotManip和RobotNav随附公开的GitHub仓库。

机器人数据因硬件和任务不同而碎片化严重。不同机器人采用互不兼容的观测和动作格式。在一条机械臂上训练的策略几乎无法迁移到另一条上。

这三份研究报告以不同方式应对碎片化问题。RobotManip通过统一动作表征，使操控数据得以规模化扩展；RobotWorld将语言作为统一的动作接口用于视频预测；RobotNav则为导航任务提供了一个可控的观测接口。

以下是三款发布的核心区分：

模型	问题	骨干网络	输出
Qwen-RobotManip	机械臂操控	Qwen3.5-4B（Qwen-VL）	连续机器人动作
Qwen-RobotWorld	具身世界建模	冻结的Qwen2.5-VL	预测的未来视频
Qwen-RobotNav	移动导航	Qwen3-VL（2B/4B/8B）	路点轨迹

Qwen-RobotManip：对齐解锁操控规模化

Qwen-RobotManip是一个视觉语言动作（VLA）基础模型。它基于Qwen-VL构建，能够预测连续的机器人动作。

VLA模型接收摄像头视角和语言指令，然后输出底层机器人动作。其挑战在于，操控数据本质上具有异质性。

不同机器人以互不兼容的格式记录状态和动作。当演示数据带有不匹配的表征时，数据规模化会产生干扰。RobotManip通过统一的对齐框架解决了这一问题。

统一对齐框架

该框架包含三种互补机制。首先是规范的状态-动作表示。它是一个80维的向量，每个维度都带有二进制掩码。

该向量包含两个29维的每臂数据块，外加22个保留维度。每个数据块存储关节位置、末端执行器姿态、夹爪状态以及灵巧手关节。机器人只填充其自身具备的维度。

其次是相机帧相对位姿参数化。末端执行器动作以相机帧中的相对量表示。这使得视觉上相似的动作在不同形态之间数值接近。

第三是上下文内策略自适应机制。它将最近的执行历史读取为隐式形态标识符。该策略在部署时调整行为，无需更新参数。

与上述机制并行的是一个双流协同训练策略。它联合优化操作数据和一个视觉-语言流。这防止了主干网络的感知和推理能力退化。

数据引擎

RobotManip 收集了大约 38,100 小时的操作数据。它仅使用开源数据集和人类视频。未使用任何专有数据收集。

一个人到机器人的合成流程产生了大部分这样的规模。它将第一人称视角的手部演示转换为机器人轨迹。该流程在 15 个机器人平台上进行渲染。

仅此合成流程就产生了约 24,808 小时的演示数据。第一人称源数据约为 1,933 小时。开源机器人数据集贡献了超过 11,000 小时。

该流程将动作对齐与视觉对齐分开。动作对齐将手部关键点重新映射到夹爪姿态。视觉对齐使用 SAM3 掩码、ProPainter 补画和 MuJoCo 逆运动学。

随后，一个五阶段筛选流程对合并后的语料库进行过滤。它能捕捉突变、时间错位和极值。一项检查发现，某个子集中 81% 的片段未通过状态-动作对齐。

基准测试结果

该研究报告认为，标准基准测试无法衡量泛化能力。在分布内测试中，未经机器人预训练的模型与预训练模型表现相当。因此，RobotManip 专注于分布外（OOD）设定。

基准测试（OOD）	此前 SOTA（π0.5）	Qwen-RobotManip
LIBERO-Plus	84.4	91.4
RoboTwin-C2R Hard	47.9	69.4
EBench	27.1	45.6
RoboCasa365	16.9	35.9
RoboTwin-IF	49.6	72.2

报道中最大的差距出现在跨实体迁移上。RobotManip 使用相机坐标系下的末端执行器动作达到了 23.9%，是 π0.5 所达到 7.5% 的 3.2 倍。

该模型还在 RoboChallenge Table30-v1 通用性赛道中排名第一。相比之前的最佳结果，它取得了 20% 的相对提升。实物机器人验证涵盖了 AgileX ALOHA、Franka、UR 和 ARX 平台。

RobotManip：规范动作向量探索器

RobotManip 将每个机器人映射为一个 80 维向量：两个 29 维的单臂模块加上 22 个预留维度。选择一个实体，查看它填充了哪些维度。未点亮（未激活）的单元格被零填充，并在训练损失中被掩蔽。

已填充（有监督）| 零填充（已掩蔽）| 预留（22 维）

左臂模块——29 维

右臂模块——29 维

预留——22 维（共享，例如移动基座速度）

已填充的维度

已掩蔽的维度

使用的向量比例

基于 Qwen-RobotManip 技术报告构建 · 80 维规范状态-动作表示

Qwen-RobotWorld：语言作为通用动作接口

Qwen-RobotWorld 是一个基于语言条件的视频世界模型。它从当前观察中预测未来的视觉轨迹。自然语言作为统一的动作接口。

世界模型学习环境动力学。给定当前状态和一个动作，它预测下一个状态。RobotWorld 将状态表示为视频帧，将动作表示为文本。

这一点很重要，因为语言与实体无关。一条指令编码了动作序列、目标和约束条件。它适用于 Franka 夹爪、Aloha 双臂系统或人形机器人。

双流 MMDiT 架构

该模型使用一个 60 层双流多模态扩散 Transformer（MMDiT）。理解流处理冻结的 Qwen2.5-VL 编码器的特征。生成流处理视频 VAE 隐变量。

两个流通过每一层的联合注意力进行交互。使用 MLLM 作为动作编码器有两个优势：它可以解析组合式指令，并约束物理上合理的状态转移。

MMDiT 有 200 亿参数。VAE 采用 Wan-VAE 架构。上下文长度最多支持 48,360 个视频 token。

一种 Scene2Robot 机制将该主干复用于跨具身形态合成。它同时处理场景、机器人参考和生成片段。这使得无需针对特定机器人设计提示词，即可实现从人类到机器人的视频迁移。

具身世界知识数据集

训练使用具身世界知识（EWK）数据集。它包含大约 860 万条视频-文本对，覆盖超过 2 亿帧观察画面。

语料库涵盖四个具身领域以及通用视频。操作类提供约 590 万个样本，涉及 20 多种形态。驾驶、导航和人到机器人迁移填补了其余部分。

一种动作-语言映射框架将所有内容标准化。它将 20 多种具身形态和 500 多个动作类别转化为语言。一个五级分层标注流水线生成这些描述文本。

基准测试结果

RobotWorld 在四个既定基准上进行了评估。在其中两个基准上总体排名第一：

基准	结果	排名
EWMBench	4.60	总体第一
DreamGen Bench	4.952	总体第一
WorldModelBench	8.99	开源第一（总体第三）
PBench	0.804	开源第一

在 EWMBench 上，它在运动保真度方面领先，HSD 为 0.566，比第二名高出 33%。场景一致性达到 0.914。

在 WorldModelBench 上，它在四个物理遵从类别中得分 1.00。这些类别是牛顿定律、质量守恒、流体动力学和重力。穿透性得分为 0.94，指令跟随得分为 2.33（满分 3.0）。

RobotWorld：语言动作接口

RobotWorld 将自然语言视为通用动作接口。一条指令编码了整个动作序列、目标和约束条件，无需任何针对特定机器人的控制格式。输入一条指令并选择一个具身形态，即可追踪模型如何解析它。

—

预测输出：未来视觉状态 sₜ₊₁

基于 Qwen-RobotWorld 技术报告构建 · 60 层双流 MMDiT，冻结的 Qwen2.5-VL 动作编码器

Qwen-RobotNav：用于导航的可控接口

Qwen-RobotNav 是一个基于 Qwen3-VL 构建的可扩展导航模型。它将多任务导航重新定义为观测上下文建模。该模型面向外部控制暴露了一个参数化接口。

导航涵盖众多任务族。指令跟随、点目标导航、物体搜索、目标跟踪以及驾驶各有不同。每种任务都需要不同的策略来处理视觉数据流。

指令跟随需要长期记忆来反复参考地标。目标跟踪只需要最近的帧。没有一种固定上下文策略能很好地适用于所有任务。

参数化接口

RobotNav 将所有任务表述为航点轨迹预测。它预测 8 个航点，每个航点包含二维位置和朝向。一个轻量级的 4 层 MLP 头部基于骨干网络生成这些预测。

该接口包含两个配置维度。任务模式可在 VLN、PointNav、ObjNav 和 Tracking 之间选择导航行为。观测参数决定了视觉历史如何编码。

这些观测控制包括视觉 token 预算和时间衰减，还包括每台摄像头的权重。训练过程中对所有参数进行随机化处理，可确保鲁棒性。

摄像头身份和时间顺序使用自然语言标签。这不需要对 Qwen3-VL 进行任何架构修改。支持新平台只需一个新的提示词模板。

智能体系统

该接口使 RobotNav 成为智能体系统的构建模块。一个上层规划器将长期目标分解为子目标。Qwen3.6-Plus 在该系统中充当此规划器。

规划器会在单次运行期间重新配置 RobotNav 的任务模式。RobotNav 充当反应式执行器。两个层级之间仅通过自然语言进行通信。

一个两层记忆系统支持长期推理。单次运行记忆总结每一次 rollout。跨运行记忆累积可持续的结论，例如已搜索过的区域。

基准测试结果

RobotNav 在 1560 万条样本上进行了训练。其中导航轨迹数据占 85%，视觉语言推理数据占剩余的 15%。

基准测试	指标	结果
VLN-CE RxR（验证集-未见场景）	成功率	76.5%
VLN-CE R2R（验证集-未见场景）	成功率	72.1%
EVT-Bench	跟踪率	90.0%
HM3Dv2（物体导航）	成功率	75.6%
NAVSIM	PDMS	91.4

该智能体系统在具身问答任务上创下新最先进水平。它在 HM-EQA 上相比先前最佳方法提升了 10.8%。在 EXPRESS-Bench 上也提升了 15.4%，同时所需的导航步数减少 77%。

报告显示性能从 2B 参数提升至 8B 参数。联合多任务训练建立了一个共享的空间规划基底。报告指出，这一基底可跨任务族迁移。

RobotNav: 模型 Token 分配模拟器

RobotNav 暴露了一个参数化观测接口。规划器设置模型 Token 预算 B、时间衰减 γ 以及每个摄像头的权重，以控制视觉历史如何编码。移动控件，观察模型 Token 如何跨摄像头和时间步重新分配。

所有摄像头和时间步的总模型 Token 数。

γ=0 时均匀分布。γ 值越高，模型 Token 越偏向于最近帧。

近期窗口 vs 广泛历史覆盖。

每个（时间步 × 摄像头）分配的模型 Token。越亮=模型 Token 越多=分辨率越高。

分配的模型 Token

用例及示例

每个模型都对应具体的部署场景。以下示例结合了报告支持的结果与说明性框架。

RobotManip 在新硬件上的少样本部署：某团队拥有一台 Franka 机械臂和少量演示数据。他们在自己的工作空间上微调 RobotManip。报告显示，预训练先验在杂乱和未见状态上的帮助大于从头训练。
RobotManip 跨实体技能迁移：一个策略在 6K CobotMagic 和 130 个 ARX 演示上联合微调，随后在四个新颖 ARX 任务上测试，无目标任务演示。研究报告成功率为 55.0%，是最佳消融变体的 4 倍以上。
RobotWorld 作为合成数据引擎：一个 VLA 策略所需的训练数据超过物理采集所能提供的量。研究团队将合成数据生成列为三个应用方向之一。RobotWorld 可以为新的语言指令生成视频。
RobotWorld作为策略评估环境：该研究将策略评估列为第二个应用方向。在部署到真实硬件之前，可以对生成的轨迹运行策略。这被作为一个研究方向提出，而非经过基准测试的结果。
智能体系统中的RobotNav：上层规划器将长程目标分解为子目标，并按照不同的任务模式和上下文设置调度导航调用。研究团队的智能体系统在HM-EQA上比此前最优的EQA方法提升了10.8%。
RobotNav用于自动驾驶：同一模型将点目标驾驶作为一种任务模式来处理，在NAVSIM上达到了91.4 PDMS。默认情况下，前置摄像头获得最高的token权重。

对比表：三种模型

下表汇总了技术细节，可作为选择合适模型的参考。

属性	RobotManip	RobotWorld	RobotNav
任务类型	操作（VLA）	视频世界模型	导航
主干网络	Qwen3.5-4B	冻结的Qwen2.5-VL	Qwen3-VL
动作接口	相机帧内末端执行器/关节	自然语言	航点轨迹
训练数据	约38,100小时	860万视频-文本对	1560万样本
关键架构	DiT流匹配头	60层双流MMDiT	MLP动作头
主要成果	在RoboChallenge Table30-v1上排名第一	在EWMBench、DreamGen上排名第一	在VLN-CE RxR上达到76.5%成功率
输出	连续动作	预测视频	8个航点（x, y, θ）
公开仓库	是（GitHub）	仅博客	是（GitHub）

这三份研究报告并未呈现一个组合系统。但综合来看，它们覆盖了互补的层次：RobotWorld负责仿真和数据生成，RobotManip负责操作，RobotNav负责移动。

实现说明：标准动作向量

RobotManip的动作表示值得从代码层面理解。正是这种机制让不同机器人能够共享同一个模型。以下是对该掩码思想的简化说明。

复制代码CopiedUse a different Browser

# Conceptual sketch of RobotManip's 80-dim canonical vector.
# Two 29-dim per-arm blocks + 22 reserved dimensions = 80.
# This is illustrative, not the official implementation.

CANONICAL_DIM = 80
# Per-arm semantic groups, per the report:
ARM_GROUPS = {
    "joints": 7,      # joint positions
    "eef_pose": 9,    # 3D position + 6D rotation
    "gripper": 1,     # parallel gripper width
    "hand": 12,       # dexterous hand joints
}
ARM_BLOCK = sum(ARM_GROUPS.values())  # 29

def build_masked_action(populated_groups, arms):
    """Build the action vector and a per-dimension binary mask.

    populated_groups: set of group names this robot uses.
    arms: 1 for single-arm, 2 for dual-arm.
    Only populated dimensions carry supervision; the rest are masked.
    """
    action = [0.0] * CANONICAL_DIM
    mask = [0] * CANONICAL_DIM
    idx = 0
    for _ in range(arms):
        for group, size in ARM_GROUPS.items():
            if group in populated_groups:
                for d in range(idx, idx + size):
                    mask[d] = 1  # gradients flow only here
            idx += size
        if arms == 1:
            idx = ARM_BLOCK  # skip to the second block
    return action, mask

# A 7-DOF single-arm gripper fills joints, eef_pose, gripper of one arm.
_, mask = build_masked_action({"joints", "eef_pose", "gripper"}, arms=1)
print(sum(mask))  # -> 17 populated dims; the rest stay zero and masked

关键思想是按维度的二进制掩码。它确保梯度仅流经语义占用的条目，从而防止对缺失自由度产生虚假的监督信号。

相同的掩码原则也出现在流匹配损失中。每个样本的贡献是均等的，无论有多少维度处于激活状态。这防止了填充槽位更多的机器人主导优化过程。

要点总结

通义千问（Qwen）发布了三款具身 AI 模型：RobotManip、RobotWorld 和 RobotNav（统称为 Qwen-RobotSuite）。
RobotManip 将机器人数据对齐到一个 80 维的动作向量中，并在 RoboChallenge Table30-v1 基准上排名第一。
RobotWorld 使用自然语言作为动作接口，在 EWMBench 和 DreamGen Bench 基准上均排名第一。
RobotNav 提供了一个可控的 token 预算接口，在 VLN-CE RxR 基准上取得了 76.5% 的成功率。
这三款模型中有两款附带了公开的 GitHub 代码仓库；RobotWorld 仅以研究论文形式呈现。

具身智能多模态开源/仓库模型发布

阅读原文

MarkTechPost（RSS）

精选76

Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite

2026-06-17 00:51·8天前·Asif Razzaq

精选理由

AI 摘要

AI 翻译 · 中文

Qwen-Robot-Suite

Qwen-Robot-Suite并非单一模型，而是由三个独立基础模型组成的套件。其中两个模型RobotManip和RobotNav随附公开的GitHub仓库。

机器人数据因硬件和任务不同而碎片化严重。不同机器人采用互不兼容的观测和动作格式。在一条机械臂上训练的策略几乎无法迁移到另一条上。

以下是三款发布的核心区分：

模型	问题	骨干网络	输出
Qwen-RobotManip	机械臂操控	Qwen3.5-4B（Qwen-VL）	连续机器人动作
Qwen-RobotWorld	具身世界建模	冻结的Qwen2.5-VL	预测的未来视频
Qwen-RobotNav	移动导航	Qwen3-VL（2B/4B/8B）	路点轨迹

Qwen-RobotManip：对齐解锁操控规模化

Qwen-RobotManip是一个视觉语言动作（VLA）基础模型。它基于Qwen-VL构建，能够预测连续的机器人动作。

VLA模型接收摄像头视角和语言指令，然后输出底层机器人动作。其挑战在于，操控数据本质上具有异质性。

统一对齐框架

该框架包含三种互补机制。首先是规范的状态-动作表示。它是一个80维的向量，每个维度都带有二进制掩码。

其次是相机帧相对位姿参数化。末端执行器动作以相机帧中的相对量表示。这使得视觉上相似的动作在不同形态之间数值接近。

第三是上下文内策略自适应机制。它将最近的执行历史读取为隐式形态标识符。该策略在部署时调整行为，无需更新参数。

与上述机制并行的是一个双流协同训练策略。它联合优化操作数据和一个视觉-语言流。这防止了主干网络的感知和推理能力退化。

数据引擎

RobotManip 收集了大约 38,100 小时的操作数据。它仅使用开源数据集和人类视频。未使用任何专有数据收集。

一个人到机器人的合成流程产生了大部分这样的规模。它将第一人称视角的手部演示转换为机器人轨迹。该流程在 15 个机器人平台上进行渲染。

仅此合成流程就产生了约 24,808 小时的演示数据。第一人称源数据约为 1,933 小时。开源机器人数据集贡献了超过 11,000 小时。

该流程将动作对齐与视觉对齐分开。动作对齐将手部关键点重新映射到夹爪姿态。视觉对齐使用 SAM3 掩码、ProPainter 补画和 MuJoCo 逆运动学。

基准测试结果

基准测试（OOD）	此前 SOTA（π0.5）	Qwen-RobotManip
LIBERO-Plus	84.4	91.4
RoboTwin-C2R Hard	47.9	69.4
EBench	27.1	45.6
RoboCasa365	16.9	35.9
RoboTwin-IF	49.6	72.2

报道中最大的差距出现在跨实体迁移上。RobotManip 使用相机坐标系下的末端执行器动作达到了 23.9%，是 π0.5 所达到 7.5% 的 3.2 倍。

RobotManip：规范动作向量探索器

已填充（有监督）| 零填充（已掩蔽）| 预留（22 维）

左臂模块——29 维

右臂模块——29 维

预留——22 维（共享，例如移动基座速度）

已填充的维度

已掩蔽的维度

使用的向量比例

基于 Qwen-RobotManip 技术报告构建 · 80 维规范状态-动作表示

Qwen-RobotWorld：语言作为通用动作接口

Qwen-RobotWorld 是一个基于语言条件的视频世界模型。它从当前观察中预测未来的视觉轨迹。自然语言作为统一的动作接口。

世界模型学习环境动力学。给定当前状态和一个动作，它预测下一个状态。RobotWorld 将状态表示为视频帧，将动作表示为文本。

这一点很重要，因为语言与实体无关。一条指令编码了动作序列、目标和约束条件。它适用于 Franka 夹爪、Aloha 双臂系统或人形机器人。

双流 MMDiT 架构

该模型使用一个 60 层双流多模态扩散 Transformer（MMDiT）。理解流处理冻结的 Qwen2.5-VL 编码器的特征。生成流处理视频 VAE 隐变量。

两个流通过每一层的联合注意力进行交互。使用 MLLM 作为动作编码器有两个优势：它可以解析组合式指令，并约束物理上合理的状态转移。

MMDiT 有 200 亿参数。VAE 采用 Wan-VAE 架构。上下文长度最多支持 48,360 个视频 token。

具身世界知识数据集

训练使用具身世界知识（EWK）数据集。它包含大约 860 万条视频-文本对，覆盖超过 2 亿帧观察画面。

语料库涵盖四个具身领域以及通用视频。操作类提供约 590 万个样本，涉及 20 多种形态。驾驶、导航和人到机器人迁移填补了其余部分。

一种动作-语言映射框架将所有内容标准化。它将 20 多种具身形态和 500 多个动作类别转化为语言。一个五级分层标注流水线生成这些描述文本。

基准测试结果

RobotWorld 在四个既定基准上进行了评估。在其中两个基准上总体排名第一：

基准	结果	排名
EWMBench	4.60	总体第一
DreamGen Bench	4.952	总体第一
WorldModelBench	8.99	开源第一（总体第三）
PBench	0.804	开源第一

在 EWMBench 上，它在运动保真度方面领先，HSD 为 0.566，比第二名高出 33%。场景一致性达到 0.914。

RobotWorld：语言动作接口

—

预测输出：未来视觉状态 sₜ₊₁

基于 Qwen-RobotWorld 技术报告构建 · 60 层双流 MMDiT，冻结的 Qwen2.5-VL 动作编码器

Qwen-RobotNav：用于导航的可控接口

Qwen-RobotNav 是一个基于 Qwen3-VL 构建的可扩展导航模型。它将多任务导航重新定义为观测上下文建模。该模型面向外部控制暴露了一个参数化接口。

导航涵盖众多任务族。指令跟随、点目标导航、物体搜索、目标跟踪以及驾驶各有不同。每种任务都需要不同的策略来处理视觉数据流。

指令跟随需要长期记忆来反复参考地标。目标跟踪只需要最近的帧。没有一种固定上下文策略能很好地适用于所有任务。

参数化接口

RobotNav 将所有任务表述为航点轨迹预测。它预测 8 个航点，每个航点包含二维位置和朝向。一个轻量级的 4 层 MLP 头部基于骨干网络生成这些预测。

该接口包含两个配置维度。任务模式可在 VLN、PointNav、ObjNav 和 Tracking 之间选择导航行为。观测参数决定了视觉历史如何编码。

这些观测控制包括视觉 token 预算和时间衰减，还包括每台摄像头的权重。训练过程中对所有参数进行随机化处理，可确保鲁棒性。

摄像头身份和时间顺序使用自然语言标签。这不需要对 Qwen3-VL 进行任何架构修改。支持新平台只需一个新的提示词模板。

智能体系统

该接口使 RobotNav 成为智能体系统的构建模块。一个上层规划器将长期目标分解为子目标。Qwen3.6-Plus 在该系统中充当此规划器。

规划器会在单次运行期间重新配置 RobotNav 的任务模式。RobotNav 充当反应式执行器。两个层级之间仅通过自然语言进行通信。

一个两层记忆系统支持长期推理。单次运行记忆总结每一次 rollout。跨运行记忆累积可持续的结论，例如已搜索过的区域。

基准测试结果

RobotNav 在 1560 万条样本上进行了训练。其中导航轨迹数据占 85%，视觉语言推理数据占剩余的 15%。

基准测试	指标	结果
VLN-CE RxR（验证集-未见场景）	成功率	76.5%
VLN-CE R2R（验证集-未见场景）	成功率	72.1%
EVT-Bench	跟踪率	90.0%
HM3Dv2（物体导航）	成功率	75.6%
NAVSIM	PDMS	91.4

报告显示性能从 2B 参数提升至 8B 参数。联合多任务训练建立了一个共享的空间规划基底。报告指出，这一基底可跨任务族迁移。

RobotNav: 模型 Token 分配模拟器

所有摄像头和时间步的总模型 Token 数。

γ=0 时均匀分布。γ 值越高，模型 Token 越偏向于最近帧。

近期窗口 vs 广泛历史覆盖。

每个（时间步 × 摄像头）分配的模型 Token。越亮=模型 Token 越多=分辨率越高。

分配的模型 Token

用例及示例

每个模型都对应具体的部署场景。以下示例结合了报告支持的结果与说明性框架。

RobotManip 在新硬件上的少样本部署：某团队拥有一台 Franka 机械臂和少量演示数据。他们在自己的工作空间上微调 RobotManip。报告显示，预训练先验在杂乱和未见状态上的帮助大于从头训练。
RobotManip 跨实体技能迁移：一个策略在 6K CobotMagic 和 130 个 ARX 演示上联合微调，随后在四个新颖 ARX 任务上测试，无目标任务演示。研究报告成功率为 55.0%，是最佳消融变体的 4 倍以上。
RobotWorld 作为合成数据引擎：一个 VLA 策略所需的训练数据超过物理采集所能提供的量。研究团队将合成数据生成列为三个应用方向之一。RobotWorld 可以为新的语言指令生成视频。
RobotWorld作为策略评估环境：该研究将策略评估列为第二个应用方向。在部署到真实硬件之前，可以对生成的轨迹运行策略。这被作为一个研究方向提出，而非经过基准测试的结果。
智能体系统中的RobotNav：上层规划器将长程目标分解为子目标，并按照不同的任务模式和上下文设置调度导航调用。研究团队的智能体系统在HM-EQA上比此前最优的EQA方法提升了10.8%。
RobotNav用于自动驾驶：同一模型将点目标驾驶作为一种任务模式来处理，在NAVSIM上达到了91.4 PDMS。默认情况下，前置摄像头获得最高的token权重。

对比表：三种模型

下表汇总了技术细节，可作为选择合适模型的参考。

属性	RobotManip	RobotWorld	RobotNav
任务类型	操作（VLA）	视频世界模型	导航
主干网络	Qwen3.5-4B	冻结的Qwen2.5-VL	Qwen3-VL
动作接口	相机帧内末端执行器/关节	自然语言	航点轨迹
训练数据	约38,100小时	860万视频-文本对	1560万样本
关键架构	DiT流匹配头	60层双流MMDiT	MLP动作头
主要成果	在RoboChallenge Table30-v1上排名第一	在EWMBench、DreamGen上排名第一	在VLN-CE RxR上达到76.5%成功率
输出	连续动作	预测视频	8个航点（x, y, θ）
公开仓库	是（GitHub）	仅博客	是（GitHub）

这三份研究报告并未呈现一个组合系统。但综合来看，它们覆盖了互补的层次：RobotWorld负责仿真和数据生成，RobotManip负责操作，RobotNav负责移动。

实现说明：标准动作向量

RobotManip的动作表示值得从代码层面理解。正是这种机制让不同机器人能够共享同一个模型。以下是对该掩码思想的简化说明。

复制代码CopiedUse a different Browser

# Conceptual sketch of RobotManip's 80-dim canonical vector.
# Two 29-dim per-arm blocks + 22 reserved dimensions = 80.
# This is illustrative, not the official implementation.

CANONICAL_DIM = 80
# Per-arm semantic groups, per the report:
ARM_GROUPS = {
    "joints": 7,      # joint positions
    "eef_pose": 9,    # 3D position + 6D rotation
    "gripper": 1,     # parallel gripper width
    "hand": 12,       # dexterous hand joints
}
ARM_BLOCK = sum(ARM_GROUPS.values())  # 29

def build_masked_action(populated_groups, arms):
    """Build the action vector and a per-dimension binary mask.

    populated_groups: set of group names this robot uses.
    arms: 1 for single-arm, 2 for dual-arm.
    Only populated dimensions carry supervision; the rest are masked.
    """
    action = [0.0] * CANONICAL_DIM
    mask = [0] * CANONICAL_DIM
    idx = 0
    for _ in range(arms):
        for group, size in ARM_GROUPS.items():
            if group in populated_groups:
                for d in range(idx, idx + size):
                    mask[d] = 1  # gradients flow only here
            idx += size
        if arms == 1:
            idx = ARM_BLOCK  # skip to the second block
    return action, mask

# A 7-DOF single-arm gripper fills joints, eef_pose, gripper of one arm.
_, mask = build_masked_action({"joints", "eef_pose", "gripper"}, arms=1)
print(sum(mask))  # -> 17 populated dims; the rest stay zero and masked

关键思想是按维度的二进制掩码。它确保梯度仅流经语义占用的条目，从而防止对缺失自由度产生虚假的监督信号。

相同的掩码原则也出现在流匹配损失中。每个样本的贡献是均等的，无论有多少维度处于激活状态。这防止了填充槽位更多的机器人主导优化过程。

要点总结

通义千问（Qwen）发布了三款具身 AI 模型：RobotManip、RobotWorld 和 RobotNav（统称为 Qwen-RobotSuite）。
RobotManip 将机器人数据对齐到一个 80 维的动作向量中，并在 RoboChallenge Table30-v1 基准上排名第一。
RobotWorld 使用自然语言作为动作接口，在 EWMBench 和 DreamGen Bench 基准上均排名第一。
RobotNav 提供了一个可控的 token 预算接口，在 VLN-CE RxR 基准上取得了 76.5% 的成功率。
这三款模型中有两款附带了公开的 GitHub 代码仓库；RobotWorld 仅以研究论文形式呈现。