Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力
Qwen 这次发布的机器人模型,用统一对齐框架把跨实体数据规模化训练跑通了,OOD 泛化大幅领先,做具身智能的值得认真看一下。
Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道(1,933 小时第一人称视频转 24,808 小时数据)及上下文策略适配。
Qwen-RobotManip: Alignment Unlocks Scale for Robotic Manipulation Foundation Models | Qwen
Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化潜力
2026/06/16 · 9分钟 · 1807字 · QwenTeam丨翻译:简体中文
GitHub
论文
Qwen-Omni × Qwen-RobotManip —— Qwen-Omni 观察场景,通过语音随机提出操作任务,并实时判断执行结果。每个视频展示 Qwen-RobotManip 在无预定义任务列表的情况下实时完成任务,展现了开放式指令跟随与泛化能力。
视频 1
视频 2
Qwen-RobotManip 已在多种真实机器人平台和任务上得到验证,展现出对全新场景、未见过的语言指令以及跨本体迁移的强泛化能力。
视频 3
视频 4
视频 5
查看真实世界评估图库
视频 6
视频 7
视频 8
视频 9
视频 10
视频 11
视频 12
视频 13
视频 14
视频 15
视频 16
视频 17
视频 18
视频 19
视频 20
视频 21
视频 22
视频 23
视频 24
视频 25
视频 26
视频 27
视频 28
视频 29
视频 30
视频 31
视频 32
视频 33
视频 34
视频 35
视频 36
视频 37
视频 38
视频 39
视频 40
视频 41
视频 42
视频 43
视频 44
视频 45
视频 46
视频 47
视频 48
视频 49
视频 50
视频 51
视频 52
视频 53
视频 54
视频 55
视频 56
视频 57
视频 58
视频 59
视频 60
视频 61
视频 62
视频 63
视频 64
视频 65
视频 66
视频 67
视频 68
视频 69
视频 70
视频 71
视频 72
视频 73
语言和多模态领域的基础模型已实现显著的泛化能力,因为异构数据源可以在统一框架下对齐,且丰富的低成本互联网数据使得多样化的训练信号能够在规模化条件下相互增强。但这一规模化方案能否应用于机器人操作?
这极具挑战性。与文本或图像不同,操作数据本质上是异质的,采集成本高昂,且多样性狭窄。如何在规模化数据的同时,跨不同的机器人本体、传感器和任务领域对齐表征,一直是一个未解难题。
Qwen-RobotManip 是一个基于 Qwen-VL 构建的、可泛化的视觉-语言-动作 (VLA) 基础模型。它在操作的表征、运动和行為三个维度上引入了统一的对齐框架,使得大规模多源训练变得协调一致,而非相互冲突。仅使用开源的机器人操作数据集和人类演示视频,而未进行任何专有数据收集,Qwen-RobotManip 构建了一个约 38,100 小时的预训练语料库,并已展现出涌现式的泛化能力。
如果没有统一的跨实体对齐,扩大数据规模会产生冲突;如果没有数据的多样性,仅靠对齐无法实现泛化。对齐与规模是机器人基础模型紧密耦合的前提条件。
核心亮点#
对齐
表征 · 运动 · 行为
三维对齐
仅使用开源数据
38,000 小时的操作数据
跨越 15 个实体
领先的
面向分布外数据的泛化
在所有基准测试中
#1
RoboChallenge Table30 v1 泛化能力赛道
横扫前两名,领先第三名 20%
统一的跨实体对齐框架——一个统一的 80 维状态-动作表征可适配多种不同实体,相机坐标系下的末端执行器增量位姿使视觉上相似的动作在数值上接近,而上下文内策略自适应通过读取执行历史作为隐式的实体标识符——共同实现了跨实体的一致性信号提取 大规模的人到机器人合成——一条流水线,通过动作重定向、手部去除与修补、模拟渲染以及深度引导合成,将 1,933 小时的第一人称人类视频转化为跨越 15 个实体的 24,808 小时机器人演示数据,并附带一个多阶段的数据筛选管道以确保数据质量 面向分布外数据的泛化:LIBERO-Plus 91.4%(较 π0.5 提升 7.0),RoboTwin-C2R Hard 69.4%(较 π0.5 提升 21.5),RoboCasa365 Composite-Unseen 14.9%(是次优方法的 3 倍),EBench 45.6%(较次优方法提升 18.5);RoboTwin-IF 72.0%(较 π0.5 提升 22.4),证实了真正的语言条件控制能力;在 RoboTwin-XE 上达到次优方法的 3 倍,展现了零样本跨实体迁移能力 强大的真实世界表现:在 RoboChallenge Table30 v1 泛化能力赛道中排名第一,成功率达 45%,横扫前两名并领先第三名 20%;在真实机器人平台上得到验证,在域内和域外任务上达到此前最先进方法的 2 倍,具备少样本自适应以及跨实体技能迁移能力
扩展操作数据#
人到机器人数据合成#
机器人操作数据稀缺且采集成本高昂。我们提出了一种从人类到机器人的合成管道,通过人体到机器人的重定向、手部去除与修复、以及深度引导的机器人合成,将第一人称的人类操作视频转换为15种机器人形态的演示数据。
### 数据来源#
由此得到的预训练语料库总计超过38,100小时,来自三个互补来源:
机器人数据(约11,420小时):开源机器人数据集,涵盖单臂、双臂和移动操作。
第一人称人类数据(约1,933小时):从开放世界环境中采集的人类操作视频,提供丰富的物体交互和场景先验知识。
人类到机器人合成数据(约24,808小时):基于上述第一人称数据在15种机器人平台上生成,是主要的规模化扩展引擎。
### 数据整理#
我们设计了一个多阶段整理管道,以确保VLA训练数据的质量和标注正确性。五个状态-动作过滤阶段用于去除噪声动作、修正时间错位并验证运动学一致性。随后三个跨模态检查用于验证语言指令与视频内容是否匹配、视觉观测与记录的机器人状态是否一致、以及视频帧是否无损坏。
### Qwen-RobotManip 模型设计#
Qwen-RobotManip 将 Qwen3.5-4B 视觉语言骨干网络与流匹配扩散 Transformer(DiT)动作头相结合。三个设计选择实现了连贯的跨形态训练:
**规范化状态-动作表示**。所有机器人状态和动作均映射到一个统一的80维向量中,涵盖单臂、双臂、灵巧手和移动底盘配置。每个维度的二进制掩码确保梯度仅流过已填充的槽位,从而让不同形态在共享同一表示时不会产生冲突。
**相机帧增量位姿**。末端执行器动作表示为相机坐标系中的增量,而非机器人基坐标系,使得视觉上相似的动作在不同形态下数值接近。相机外参通过交叉注意力层中的相机位置编码(CaPE)注入,内参则编码为视觉 token 以提供视野感知。DiT 进一步以末端执行器类型嵌入作为条件,实现形态感知的动作去噪。
上下文中策略适应。模型将动作预测条件化为一个结构化的具身提示词(指定机器人平台、执行速度和FPS)以及一个历史观察-动作片段,从而能够即时适应不同的具身形态和行为模式。训练中的随机上下文采样策略防止了动作拷贝捷径,并迫使模型进行真正的策略学习。
训练。预训练采用双流协同训练,以9:1的比例混合VLA流(机器人操作数据)和VLM流(视觉语言理解数据)。后训练则针对每个基准收集的所有演示数据,进行通用型SFT。我们提出在后训练过程中对VL数据和VLA数据进行协同训练,这进一步提升了OOD指令跟踪和泛化能力。
评估#
Qwen-RobotManip在500多个仿真任务和80多个真实世界任务上进行了评估,这些任务涵盖多种机器人具身形态。
为何OOD评估很重要#
我们实验中的一个关键发现:标准基准系统地未能捕捉到预训练的质量。在LIBERO和RoboTwin等分布内基准上,未经任何大规模机器人预训练从头训练的模型,其表现与之前SOTA预训练模型相当。强的IID分数并不代表真正的泛化能力,仅通过模式匹配即可达到。
只有在分布外评估下,差异才显现出来:新颖场景与任务变体、遵循未见指令、以及跨具身迁移。这就是为什么Qwen-RobotManip将OOD基准作为评估机器人基础模型的北极星。
分布内结果#
在标准基准上,Qwen-RobotManip达到或超越了之前的SOTA。
| 模型 | LIBERO | RT-Easy | RT-Hard | | --- | --- | --- | --- | | $\pi{0}$π 0 | 94.4 | 65.9 | 58.4 | | $\pi{0.5}$π 0.5 | 97.6 | 82.7 | 76.8 | | StarVLA | 98.0 | 85.7 | 87.3 | | Abot-M0 | 98.6 | 86.1 | 85.1 | | Being-H0.7 | 99.2 | 90.2 | 89.6 | | Qwen-RobotManip-scratch | 98.2 | 88.7 | 88.4 | | Qwen-RobotManip | 99.1 | 93.4 | 92.5 | | Qwen-RobotManip-Context | 99.2 | 93.7 | 94.0 |
分布外泛化#
Qwen-RobotManip在三个OOD泛化轴上均大幅优于以往所有模型:任务与场景变体、指令跟踪、以及跨具身迁移。
每个基准测试的详细分析
LIBERO-Plus — 在 7 个扰动维度(相机、机器人、语言、光照、背景、噪声、布局)下的 OOD 鲁棒性评估:
视频 74
视频 75
视频 76
视频 77
| 模型 | 相机 | 机器人 | 语言 | 光照 | 背景 | 噪声 | 布局 | 总计 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | $\pi{0}$π 0 | 13.8 | 6.0 | 58.8 | 85.0 | 81.4 | 79.0 | 68.9 | 53.6 | | $\pi{0.5}$π 0.5 | 78.4 | 73.6 | 80.8 | 96.2 | 94.1 | 89.0 | 84.5 | 84.4 | | StarVLA | 52.5 | 49.8 | 88.5 | 95.7 | 95.7 | 73.0 | 76.9 | 74.1 | | Abot-M0 | 60.4 | 67.9 | 86.4 | 96.2 | 91.6 | 86.4 | 82.6 | 80.5 | | Being-H0.7 | 82.0 | 59.0 | 82.8 | 97.8 | 90.0 | 93.5 | 88.5 | 84.8 | | Qwen-RobotManip | 87.2 | 75.5 | 85.6 | 96.6 | 97.7 | 97.7 | 87.3 | 89.0 | | Qwen-RobotManip-Context | 89.9 | 83.9 | 86.5 | 98.6 | 99.9 | 97.9 | 87.5 | 91.4 |
Qwen-RobotManip 总体达到 89.0%,Qwen-RobotManip-Context 总体达到 91.4%。各维度分解显示,相机和机器人扰动带来的收益最大,这得益于大规模机器人数据预训练;而语言和光照鲁棒性已由 VLM 骨干网络提供。
RoboTwin-Clean2Rand — 模型在 Clean 数据集上微调,并在渐进式环境随机化条件下测试:
视频 78
视频 79
视频 80
视频 81
| 模型 | Easy | Background | Light | Clutter | Height | Hard | | --- | --- | --- | --- | --- | --- | --- | | StarVLA | 58.1 | 27.1 | 50.9 | 24.2 | 48.4 | 10.6 | | GR00T-N1.7 | 43.6 | 40.4 | 41.9 | 27.1 | 39.0 | 20.7 | | $\pi{0.5}$π 0.5 | 73.1 | 67.0 | 69.2 | 57.9 | 67.6 | 47.9 | | Qwen-RobotManip | 73.2 | 74.6 | 68.4 | 61.3 | 71.0 | 62.6 | | Qwen-RobotManip-Context | 84.7 | 82.4 | 84.2 | 75.4 | 79.5 | 69.4 |
Qwen-RobotManip 取得了最高的 Hard 成功率(62.6%),保留了约 86% 的 Easy 性能,相比之下 $\pi{0.5}$π 0.5 为 66%,而未经过预训练的模型则低于 30%。Qwen-RobotManip-Context 在 Hard 上进一步提升至 69.4%,展示了上下文中策略适应的有效性。
RoboCasa365 — 在多样化厨房环境中评估原子操作和长程操作:
视频 82
视频 83
视频 84
视频 85
| 模型 | 原子 | 复合-见过 | 复合-未见 | 总计 | | --- | --- | --- | --- | --- | | $\pi{0}$π 0 | 36.3 | 5.2 | 0.7 | 15.0 | | $\pi{0.5}$π 0.5 | 39.6 | 7.1 | 1.2 | 16.9 | | GR00T-N1.5 | 50.7 | 14.8 | 2.7 | 23.9 | | RLDX-1 | 63.0 | 27.5 | 5.4 | 33.2 | | Qwen-RobotManip | 68.6 | 20.1 | 14.9 | 35.9 | | Qwen-RobotManip-Context | 63.9 | 22.6 | 11.2 | 33.8 |
在"复合-未见"(Composite-Unseen)任务上——该任务要求在分布外场景中完成长程任务——Qwen-RobotManip 取得了 14.9% 的成绩,几乎是次优模型(5.4%)的 3 倍。
EBench——涵盖桌面操作、拾取与放置以及长程任务的移动操作:
视频 86
视频 87
视频 88
视频 89
| 模型 | 桌面操作 | 简单拾放 | 长程 | 总体 | | --- | --- | --- | --- | --- | | 成功率 | 得分 | 成功率 | 得分 | 成功率 | 得分 | 成功率 | 得分 | | π₀ | 15.7 | 30 | 35.0 | 39 | 17.0 | 41 | 23.6 | 37 | | π₀.₅ | 12.9 | 32 | 45.0 | 50 | 18.1 | 39 | 27.1 | 41 | | X-VLA | 8.6 | 24 | 50.0 | 54 | 6.2 | 25 | 23.7 | 36 | | InternVLA-A1 | 4.3 | 11 | 43.0 | 47 | 17.9 | 46 | 23.9 | 36 | | Qwen-RobotManip | 50.0 | 70 | 56.5 | 60 | 29.9 | 55 | 45.6 | 60 | | Qwen-RobotManip-Context | 49.3 | 56 | 55.0 | 66 | 26.6 | 55 | 43.6 | 59 |
Qwen-RobotManip 在总体成功率上达到 45.6%,综合得分为 60,在每个细分任务上均大幅优于 $\pi{0.5}$π 0.5(27.1% / 41)和所有其他基线模型。
RoboTwin-IF——在保留的未见指令模板上进行指令跟随:
视频 90
视频 91
视频 92
视频 93
视频 94
| 模型 | 拾取-多样 | 放置-相对 | 操作-显微镜 | 操作-订书机 | 操作-桌子 | 平均值 | | --- | --- | --- | --- | --- | --- | --- | | StarVLA | 11 | 13 | 0 | 49 | 74 | 29.4 | | GR00T-N1.7 | 20 | 17 | 0 | 14 | 32 | 16.6 | | $\pi{0.5}$π 0.5 | 44 | 20 | 15 | 92 | 66 | 49.6 | | Qwen-RobotManip | 79 | 57 | 42 | 90 | 93 | 72.2 | | Qwen-RobotManip-Context | 77 | 71 | 33 | 89 | 90 | 72.0 |
Qwen-RobotManip 取得了 72.2% 的平均值,领先 $\pi{0.5}$π 0.5 达 22.6 个百分点。最大的提升出现在那些需要解析指令以从多个合理候选动作中选择正确动作的任务上,这证实了真正的语言条件控制能力。
零样本跨本体迁移——仅在 AgileX ALOHA 数据上训练,在 RoboTwin-XE 基准测试中针对未见过的机器人本体进行评估:
视频 95
视频 96
视频 97
| 模型 | ARX | UR5 | Franka | 总计 | | --- | --- | --- | --- | --- | | $\pi{0.5}$π 0.5 (joint) | 24.6 | 2.2 | 0.9 | 9.2 | | $\pi{0.5}$π 0.5 (eef) | 11.5 | 10.0 | 1.1 | 7.5 | | Qwen-RobotManip (joint) | 37.6 | 4.1 | 1.8 | 14.5 | | Qwen-RobotManip (eef) | 42.9 | 22.8 | 5.9 | 23.9 |
相机帧的EEF表示通过抽象化形态差异,显著提升了零样本迁移能力。Qwen-RobotManip (eef) 总体成功率达到23.9%,是 $\pi{0.5}$π 0.5 (eef) 的 3.2 倍(后者为7.5%)。
数据扩展:对齐是实现规模化的前提#
一个重要发现:只有具备统一跨本体表示的模型才会呈现出干净的对数线性数据扩展行为。如果没有对齐框架(UnifiedSpace + UnifiedEEF),增加更多数据会产生不规则或平坦的扩展曲线。这证实了对齐是规模化的先决条件,而非相反。
真实世界实验#
新场景与指令的泛化能力#
涵盖基础拾取放置、可变形物体操作和精密装配等7项任务的域内评估:
| 任务 | $\pi{0.5}$π 0.5 | StarVLA | 我们的模型 | | --- | --- | --- | --- | | 清理桌面 | 4/5 | 0/5 | 5/5 | | 三碗叠放 | 5/5 | 4/5 | 5/5 | | 瓜入碗 | 2/5 | 0/5 | 5/5 | | 叠毛巾 | 4/5 | 3/5 | 4/5 | | 方块入抽屉 | 0/5 | 0/5 | 5/5 | | 黄色圆盘插入 | 0/5 | 0/5 | 2/5 | | 三块叠放 | 0/5 | 0/5 | 5/5 | | 平均 | 42.9% | 20.0% | 88.6% |
域外评估,包含视觉场景、物体和指令的分布偏移:
| 任务 | OOD 因素 | $\pi{0.5}$π 0.5 | StarVLA | 我们的模型 | | --- | --- | --- | --- | --- | | 目标物体入篮 | 杂乱背景、未见物体 | 8/10 | 0/10 | 10/10 | | 左右碗叠放 | 杂乱背景、左右参照 | 1/10 | 0/10 | 10/10 | | 工具放毛巾上 | 未见小物体、干扰物 | 0/10 | 0/10 | 6/10 | | 香蕉放毛巾上 | 动态光照(迪斯科灯光) | 6/10 | 0/10 | 9/10 | | 平均 | | 37.5% | 0.0% | 87.5% |
Qwen-RobotManip 在域内任务中达到88.6%,在域外任务中达到87.5%的成功率,显著优于 $\pi{0.5}$π 0.5(42.9%/37.5%)和 StarVLA(20.0%/0.0%)。
跨本体的数据高效技能迁移#
少样本自适应。所有方法仅在5项任务的130次遥操作演示上联合微调。Qwen-RobotManip 在5项任务中的4项上超越了两种基线方法。
| 任务 | 子步骤 | StarVLA | π0.5π 0.5 | 我们的 | | --- | --- | --- | --- | --- | | 放置水果 | 放置第1/2/3个 | 3/1/0 | 9/5/2 | 9/5/3 | | | 平均成功率 | 13.3% | 53.3% | 56.7% | | 放置积木 | 打开/放置1/放置2/关闭 | 1/1/0/0 | 4/2/2/2 | 5/4/3/3 | | | 平均成功率 | 5.0% | 25.0% | 37.5% | | 折叠毛巾 | 折叠1次/折叠2次 | 0/0 | 3/1 | 3/3 | | | 平均成功率 | 0.0% | 20.0% | 30.0% | | 插入螺丝 | 交接/插入 | 0/0 | 2/0 | 2/0 | | | 平均成功率 | 0.0% | 10.0% | 10.0% | | 拧开瓶盖 | 抓取/拧开/放置 | 4/0/0 | 9/2/1 | 9/4/3 | | | 平均成功率 | 13.3% | 40.0% | 53.3% |
跨实体技能迁移。将单个策略在 6K CobotMagic 和 130 ARX 演示数据上联合微调后,在 ARX 上对 4 个新任务进行评估,而 ARX 对于这些任务完全没有训练演示数据:
| 模型 | 叠盘子 | 叠积木 | 水果入盘 | 垃圾入桶 | 平均 | | --- | --- | --- | --- | --- | --- | | 无 UnifiedSpace | 0/10 | 0/10 | 3/10 | 0/10 | 7.5% | | 无 UnifiedEEF | 0/10 | 0/10 | 5/10 | 0/10 | 12.5% | | Qwen-RobotManip | 3/10 | 5/10 | 7/10 | 7/10 | 55.0% |
完整的统一框架达到了 55.0%,是最优消融变体的 4 倍以上,表明统一表示能够实现跨运动学不同实体的技能级迁移。
复杂多步任务与突发恢复能力
在 RoboChallenge Table30 v1 Generalist Track(涵盖 4 种机器人平台上的 30 项任务)中,Qwen-RobotManip 以 45% 的成功率和 59.83 的过程得分排名第一,领先第二名 20%。在 8 项双臂协调任务上,它实现了 40% 的成功率,而 π0.5π 0.5 为 21.2%。
双手协调操作。在30个基准任务中,有8个需要在ALOHA平台上进行紧密的双手协调操作,两只手臂必须共同稳定、搬运和操作物体。Qwen-RobotManip的平均成功率达到40%,远超π0.5(21.2%)、DM0(16.2%)、GR00T-MULTI(7.5%)和π0(7.5%)。值得注意的是,Qwen-RobotManip是唯一在“将薯条倒入盘子”任务中成功的模型(成功率为30%,所有基线模型均为0%),该任务需要一系列双手协调操作步骤——用左臂固定薯条盒,用右臂打开它,拿起盒子,然后将内容物倒入盘子。我们将这种出色的双手操作能力归因于两个因素:(1) 我们的预训练语料库包含大量双手演示数据,使模型能够学习协调的双手控制基元;(2) 人至机器人合成流程通过从以自我为中心的人类视频中合成机器人双手演示,进一步扩展了有效的双手预训练数据。
跨形态的稳健抓取与放置。我们在所有四个平台上识别出12个以抓取与放置基元为核心的任务,涵盖从单物体抓取到涉及4-5个物体的多步顺序操作。Qwen-RobotManip在这些任务上的平均成功率达到63.3%,比次优基线DM0(48.3%)高出15.0个百分点。我们将这一能力归因于两个因素:(1) 大规模跨形态预训练数据编码了丰富的抓取与放置模式;(2) 统一的动作空间使得不同机器人形态之间的基本空间技能知识共享成为可能。
反应式错误恢复。当抓取过程中物体滑落时,模型会自动重试直至成功。这种行为源于大规模预训练,而非显式编程。
迈向可扩展的机器人基础模型
Qwen-RobotManip表明,语言和多模态基础模型背后的扩展法则可以延伸至机器人操作领域,但前提是对齐与规模必须协同工作。统一的跨形态表示使得大规模多源训练变得富有成效而非相互冲突,而人至机器人合成流程则提供了对齐本身无法提供的多样性数据。
具身智能仍处于早期阶段。高接触、长周期真实世界任务、故障恢复、持续学习以及复杂的人-机器人-环境交互仍然具有挑战性。然而,Qwen-RobotManip 指明了一条清晰的前进道路:
对齐解锁规模,规模解锁泛化。
← 返回 Qwen-Robot Suite
引用#
bibtex
@article{qwenrobotmanip, title={Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models}, author={Qwen Team}, year={2026}}
")
尝试 Qwen Studio
Web
iOS
Android
macOS
Windows
Qwen Studio
Qwen Studio 概览
下载
API 平台
我们的旗舰模型
平台概览
API 平台
Qwen Cloud
研究
最新进展
研究索引
GitHub
条款与政策
服务条款
隐私政策
使用政策
Cookie 声明
训练数据摘要
Qwen © 2026