Qwen-Robot Suite:一套面向物理世界智能的基础模型套件
Qwen-Robot Suite 包含三个基础模型:Qwen-RobotNav 通过可控观察编码统一指令跟随、点/物体目标导航、目标跟踪和自动驾驶五个导航域;Qwen-RobotManip 利用规范状态-动作空间和相机帧增量位姿,在超3.81万小时开源语料上实现跨具身操作对齐;Qwen-RobotWorld 以自然语言为动作接口,联合训练20余种具身,预测物理世界动态。三者可组合成通用智能体系统。
Qwen

Qwen Studio
更多
EN
下载 试用 Qwen Studio
Qwen-Robot Suite:面向物理世界智能的基础模型套件 | Qwen
Qwen-Robot Suite:面向物理世界智能的基础模型套件
2026/06/16 · 13 分钟 · 2637 词 · QwenTeam丨翻译:简体中文
Qwen 系列基础模型已具备对物理世界的强大感知和推理能力。但"看到"不等于"行动":视觉与语言理解到物理控制之间的鸿沟仍是具身智能的核心瓶颈。Qwen-Robot Suite 通过三个基础模型——Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld——跨越了这一鸿沟。Nav 通过可控制观测协议统一了五个导航任务族。Manip 将异构机器人数据转化为一致的规范空间,从而实现大规模跨本体训练。World 在单一世界模型下通过自然语言动作接口协同训练超过 20 种本体。三者共同构成一个智能系统,使通用智能直接转化为物理行动。

Qwen 系列多模态基础模型在理解物理世界方面取得了显著进展。Qwen-VL 可以解析复杂的空间关系,在杂乱场景中识别物体,遵循多步视觉指令,并推理物理配置,为物理智能体提供了初步的认知基础。VLM 已经能够用语言进行规划:"去厨房,找到红色杯子,拿起来,放在架子上。"
然而,理解物理世界与在物理世界中行动并非同一回事。能够规划这些步骤的 VLM(视觉语言模型)无法产生执行这些步骤所需的运动指令。这从根本上来说是一个对齐挑战——语言指令与物理动作信号存在于不同的表征空间中,而弥合这一鸿沟需要的不仅是感知能力。更困难的是,弥合这一差距所需的具身数据与互联网文本有着本质不同。这些数据天生异质、收集成本高昂、多样性狭窄。导航轨迹、远程操作抓取和行车记录仪片段分别存在于不相兼容的动作空间、观测格式和具身形态中。简单地将它们混合在一起会产生冲突而非协同效应。
Qwen-Robot Suite 通过三个基础模型——Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld——弥合了这一鸿沟,每个模型都将语言与不同领域的物理动作对齐。我们追求跨语言指令的泛化能力以及遵循物理定律的能力,并在两方面都取得了显著进展。在这篇文章中,我们还探讨了这些模型作为构建通用智能体系统的底层工具的潜力。
- Qwen-RobotNav:物理智能体移动能力的入口——通过可控观测编码和面向智能体系统的工具接口,将视觉语言表征空间桥接到移动动作,统一了指令跟随、点/物体目标导航、目标跟踪和自动驾驶。
- Qwen-RobotManip:物理智能体交互的基础——通过规范的状态-动作空间和相机帧增量位姿,将视觉语言表征空间桥接到操作动作,在超过 38,100 小时的开源语料上实现了连贯的跨具身训练。
- Qwen-RobotWorld:物理智能体的无限世界——通过自然语言动作接口,将视觉语言表征空间桥接到世界动力学,使单一世界模型能够预测跨操作、驾驶和导航的物理接地未来。

每个模型都有各自的技术报告和深度解读博客。本文讲述的是它们如何整合在一起的故事。
导航 Qwen-RobotNav 通往移动性的门户——在一个模型下统一 5 个导航领域,并支持可控观测。阅读技术博客 → 操作 Qwen-RobotManip 交互的基础——在超过 38K 小时的开源数据上进行跨实体对齐。阅读技术博客 → 想象 Qwen-RobotWorld 无限世界——语言驱动的世界模型,跨领域联合训练 20 多个实体。阅读技术博客 →
Qwen-RobotNav:物理移动性的门户#
导航
在智能体能操作任何东西之前,它必须先到达那里。移动导航涵盖具有根本不同记忆需求的任务:指令遵循需要长期上下文,而目标跟踪几乎完全关注最近的帧。没有任何固定的观测策略能同时服务两者。
基于 Qwen3-VL 构建的 Qwen-RobotNav 通过一个参数化的导航接口来解决这一问题,该接口包含两个互补维度:选择导航行为的任务模式(指令遵循、目标搜索、目标跟踪、自动驾驶),以及控制视觉历史如何编码的可控观测参数(token 预算、时间衰减、每镜头权重、帧采样模式)。Qwen-RobotNav 在 1560 万样本上训练,并与视觉语言数据联合训练以保持接地感知,从而在单组权重下统一了五个任务族。参数化接口还使 Qwen-RobotNav 成为智能体系统的自然构建块。上层规划器(Qwen3.7-Plus)将长期目标分解为子任务,并在剧情中期动态切换 Qwen-RobotNav 的任务模式和上下文策略,通过重复调用同一模型来组合复杂行为。这扩展了系统在持久记忆下的长期推理能力,使其能够解决需要多步骤导航、证据收集和接地响应生成的复杂用户意图。
亮点:
5 个领域
8 项 SOTA
单一模型统一了 VLN、ObjNav、
跟踪、驾驶和 EQA
上下文
= 接口
4 轴观测协议
零架构更改
智能体
导航作为工具调用
- 两级记忆
在 EQA 上树立新标杆
泛化
野外单摄像头
在未见过的环境中部署
- 统一多域导航:单一模型使用一套权重在5个导航域中达到业界最优水平——VLN-CE RxR上76.5%成功率、HM3Dv2物体目标上75.6%成功率(仅RGB,超越基于深度的方法)、EVT-Bench上90.0%跟踪率、NAVSIM上91.4 PDMS,以及3个EQA基准上的新最佳成绩,参数规模从2B到8B均呈现一致扩展趋势。
- 可控观察协议:四个轴(视觉token预算、时间衰减、每相机权重、帧采样模式)作为推理时参数暴露,并在训练时按样本随机化,从而在不重新训练或修改架构的情况下支持任意推理时配置。
- 智能体导航系统:设计为两层系统内可重配置的导航原语,上层规划器(Qwen3.7-Plus)分解长时目标并分发可配置的导航调用,同时维护两层记忆,在EXPRESS-Bench上实现了+15.4%的提升,且导航步骤比此前最佳方法减少77%。
- 野外泛化:零样本部署在Unitree Go2四足机器人上,仅使用其内置低分辨率摄像头,展现出对野外环境和不受约束的自然语言指令的强大泛化能力,无需任何针对特定环境的微调。
基准测试 Qwen-RobotNav
部署
零样本部署在Unitree Go2四足机器人(NVIDIA Jetson Thor,196ms延迟)上,仅使用内置低分辨率摄像头。机器人在未见过的新公寓中跨多个房间执行逐步的口头指令。
指令遵循
我们在一个未见过的展厅中评估来回导航任务:机器人首先按照语言指令从客厅导航21.78米到医院房间,随后收到反向指令,必须精确回溯整个路线。这尤其具有挑战性,因为它要求模型在长距离中保持空间意识,在正向和反向两个方向上对多样的视觉地标进行定位,并仅凭语言执行精确的双向位置控制。
跨本体
一套权重同时服务于腿足机器人导航和自动驾驶。在NAVSIM闭环驾驶基准上,Qwen-RobotNav-4B达到了91.4 PDMS。
阅读Qwen-RobotNav博客 →
Qwen-RobotManip:物理交互的基础#
操纵
物理智能体需要与现实世界交互——例如,用机械臂完成操纵任务。然而,生产线上的工业臂和厨房里的服务臂可能执行视觉上相似的抓取动作,但它们的关节配置和动作空间完全不同。核心挑战是让异构具身形态在表示上兼容,从而使跨机器人和数据源的规模化产生协同而非冲突。
Qwen-RobotManip基于Qwen3.5-4B VL构建,采用flow-matching DiT动作头,引入了三种机制来解决这一问题。统一的80维状态-动作表示在单臂、双臂、灵巧手和移动式具身形态之间共享。相机帧末端执行器增量位姿动作使视觉上相似的动作在不同机器人之间数值接近,从而抽象掉形态差异。上下文策略适应将执行历史作为隐式具身签名进行读取,以实现即时适应。
一旦表示框架统一,数据障碍就消失了。我们在11,320小时的开源机器人数据、1,933小时的开源第一人称人类视频以及通过我们的Human-to-Robot合成管线从人类视频合成的涵盖15种具身形态的24,808小时机器人演示数据上训练VLA模型——总计超过38,100小时。仅使用开源数据,该模型就已展现出涌现的泛化能力,包括对扰动的鲁棒性、零样本指令跟随、反应式错误恢复以及跨具身形态迁移。
亮点:
对齐
表示 · 运动 · 行为
三维对齐
仅开源数据
38K小时操纵数据
跨15种具身形态
主导
OOD泛化
跨所有基准
#1
RoboChallenge Table30 v1 Generalist Track
横扫前两名,领先第三名20%
- 统一跨具身对齐框架——一种统一的80维状态-动作表征能够兼容多种具身形态,相机坐标系下的末端执行器增量位姿使视觉相似的动作在数值上接近,上下文内策略调整通过读取执行历史作为隐式具身标识符——共同实现了跨具身形态的一致信号提取
- 大规模人类到机器人合成——一个将1933小时的第一人称人类视频转化为24808小时机器人演示数据(覆盖15种具身形态)的流水线,通过动作重定向、手部去除与修补、模拟渲染以及深度引导合成,配合多阶段筛选流程确保数据质量
- 分布外泛化:LIBERO-Plus 91.4%(比π0.5高7.0),RoboTwin-C2R Hard 69.4%(比π0.5高21.5),RoboCasa365 Composite-Unseen 14.9%(是最佳竞品的3倍),EBench 45.6%(比最佳竞品高18.5);RoboTwin-IF 72.0%(比π0.5高22.4)证实了真正的语言条件控制;RoboTwin-XE上达到最佳竞品的3倍,展示了零样本跨具身迁移
- 强真实世界性能:在RoboChallenge Table30 v1通用型赛道中排名第一,成功率45%,包揽前两名并领先第三名20%;在真实机器人平台上验证,域内和分布外任务均达到先前最优的2倍性能,支持少样本适应和跨具身技能迁移

关键发现——对齐是规模的先决条件。只有具备统一跨具身表征(UnifiedSpace + UnifiedEEF)的模型才表现出清晰的线性数据规模扩展规律。没有对齐时,增加数据会产生波动或平坦曲线——规模无法弥补有缺陷的建模方式。
多样化的真实世界任务
单个通用策略就能处理跨越多种任务类别、场景和物体的复杂操作。
指令跟随
在真实环境(上行)和模拟环境(下行)中跟随多种未见过的指令。
跨具身迁移
在其他具身上训练的任务能零样本迁移到新的具身(上行);少样本演示则能快速适应全新的任务(下行)。
阅读 Qwen-RobotManip 博客 →
Qwen-RobotWorld:无限机器人世界#
IMAGINE 真实世界经验是机器人领域最稀缺的资源。Qwen-RobotWorld 通过直接学习世界的状态转移函数来解决这一问题:给定当前观测和自然语言描述的动作,它预测世界接下来会变成什么样。关键设计选择是将所有动作用自然语言表达——这能把末端执行器位姿、转向指令和导航路径点统一为单一接口,使得 20 多种具身形态和 500 多种动作类别能够在具身世界知识语料库(860 万个视频-文本对,超过 2 亿帧)下共同训练。一个 60 层双流 MMDiT 将 Qwen2.5-VL 的语义表征与视频潜在变量耦合。使用完整的多模态大语言模型作为动作编码器(而非轻量文本编码器)至关重要:它带来了关于“手臂是刚体、液体会扩散、物体下落”的内化世界知识,隐式地将生成约束到物理上可行的未来。每个领域相互增强:操作任务教会接触物理,驾驶任务教会 3D 几何,导航任务教会房间级空间推理。
亮点:
顶尖
覆盖
4 项基准
20 多种
机器人具身形态
统一
860 万
跨场景
训练对
1300 多种
操作
技能
- 语言驱动的统一动作接口——自然语言将 20 多种机器人具身形态和 500 多种动作类别标准化为统一的训练接口,使得操作、驾驶、导航以及人机迁移能够联合训练;每个领域相互增强
- 双流 MMDiT + Qwen2.5-VL 动作编码器——完整的多模态大语言模型作为动作编码器(而非轻量文本编码器),解析复杂的组合指令为精确的生成信号,并具备内化的物理世界知识;充当合成数据引擎、闭环策略评估器和动作规划器
- 排名:在 EWMBench(运动保真度比第二名高 33%)和 DreamGen Bench 上总体第一;在 WorldModelBench(对牛顿定律、质量守恒、流体力学的物理遵守完美)和 PBBench 上为开源第一
- 能力:细粒度语言接地(更改一个关键词 → 产生不同的未来结果);跨8种以上本体实现人类到机器人迁移,并支持多视角一致性生成;在 RoboTwin-IF 上具备零样本鲁棒性
任意指令跟随
更改单个关键词——物体、目标地点或动作动词——都会产生相应不同的未来结果。世界模型真正理解语言,而不仅仅是模式匹配。
不同物体
拿起红色草莓
⇄
拿起黄色土豆
不同本体
组装相机零件
⇄
组装相机零件
不同目标地点
将笔放在木质托盘上
⇄
将笔放在白纸上
不同动作
向前伸出胶水
⇄
将胶水放入笔架
多视角一致性生成
给定单一指令,Qwen-RobotWorld 能在多个摄像头视角下生成时空一致的视频——这对仿真到现实迁移和多摄像头策略训练至关重要。
查看更多多视角示例(另有16个)
人类 → 机器人迁移
给定人类演示,Qwen-RobotWorld 能在不同本体上生成逼真的机器人执行——无需遥操作。
ARX-L5
人类演示
→
机器人执行
xArm7
人类演示
→
机器人执行
Franka Panda
人类演示
→
机器人执行
Sawyer
人类演示
→
机器人执行
查看更多本体(Kinova Gen3, Piper, KUKA iiwa, Kinova Jaco)
Kinova Gen3
人类演示
→
机器人执行
Piper
人类演示
→
机器人执行
KUKA iiwa
人类演示
→
机器人执行
Kinova Jaco
人类演示
→
机器人执行
自动驾驶与室内导航
驾驶教会大规模3D几何与多智能体动力学;导航教会房间级空间推理。每个领域相互增强。
驾驶
室内导航
阅读 Qwen-RobotWorld 博客 →
从模型到智能体:闭环
每个模型均可独立使用——但由于三者都提供以语言为先的接口,通用型Qwen模型能够将它们作为物理世界工具来组合调用,从而将通用智能与物理行动连接起来。我们内部有一个名为Qwen-RobotClaw的项目,它是一个机器人智能体工具包,允许Qwen VLM智能体将Qwen-Robot Suite模型作为物理世界工具来调用,同时妥善管理长时任务所需的上下文和记忆,推动物理智能走向更通用、更复杂的真实世界应用。以下是这一能力实现的一些早期示例。
开放式任务执行
Qwen-Omni观察场景,通过语音随机提出操作任务,并实时判断执行情况。每个视频展示的是Qwen-RobotManip在没有预定义任务列表的情况下即时完成任务——这表明通用多模态模型可以作为任务提出者和评估者,而套件模型则负责物理执行。
长时操作
我们开发了一套由VLM驱动的智能体VLA系统,其中Qwen-3.5基础模型作为高层规划器,Qwen-RobotManip负责底层执行。凭借其在场景理解、空间推理和任务进度评估方面的能力,Qwen-3.5将复杂的高级指令分解为一系列原子性子任务,然后由VLA执行。这种分工显著提高了对越界场景和指令的鲁棒性。
我们通过一个需要在堆满杂物的桌面上用篮子完成桌面清理的任务来说明这一点。面对这种完全越界的场景和抽象指令,直接使用VLA模型会表现出明显异常的行为(右图)。而将Qwen-3.5作为规划器后,系统会实时将任务分解为细粒度的原子性子任务(左图),使得VLA可以一次专注于一个简单步骤,展现出组合泛化能力。
我们还观察到,子任务分解有助于系统从失败-重试循环中恢复。当高层VLM检测到执行卡顿时,它会通过下发新的子任务重新规划,使系统能够恢复进度,最终成功完成任务。
智能体 + VLA(成功)
仅 VLA(失败)
智能体导航与具身问答
通过将智能体系统与 Qwen-RobotNav 结合,我们在长期三维物理世界探索任务上取得了相较于先前最先进水平的显著提升,涵盖 HM-EQA、MT-HM3D 和 EXPRESS-Bench 等具身问答基准。我们还可以将相同的开放世界探索能力部署到真实环境中,如下方演示所示。更多技术细节将在后续更新中发布。

在第一个演示中,用户要求智能体在真实建筑物中寻找一处可用的洗手间。智能体扫描环境,沿走廊层级线索搜索洗手间标识,发现第一个洗手间因可见的“Cleaning in Progress / 暂停使用”标识而不可用,随即重新规划,在建筑物另一侧寻找替代方案。通过视觉证据确认第二个洗手间已开放且可进入后,它返回了一个基于证据的答案。
在第二个演示中(此前已与 Qwen3.7-Max 一同发布),智能体调用 Qwen-RobotNav 自主探索开放校园环境,沿途修正偏差,最终找回一把丢失的雨伞。
Chat2Robot
我们提供了一个实验性功能——Chat2Robot,您可以直接在浏览器中与机器人对话。只需输入自然语言指令,便可实时观察机器人响应。快来尝试,体验 Qwen-Robot Suite 的实际运行效果!
注意:Chat2Robot 目前仅支持 Qwen-RobotManip。部署的策略仅在 RoboTwin-Clean 数据集上训练,该数据集仅包含 50 个任务——并非完美策略。我们的目标是展示一定程度的零样本指令跟随能力。该功能仍在积极开发中,可能尚未完全完善——欢迎您提供反馈与建议!
我们感谢 D-Robotics(Digua)对该功能的支持。
下一步计划
物理世界智能仍处于起步阶段。涉及大量接触的长周期任务、终身学习、通用规划器与物理世界执行器之间更紧密的整合,以及更丰富的人机环境交互,这些都仍是未解决的问题。但路径正变得清晰:从强大的多模态理解出发,将视觉语言表征空间桥接到每种物理动作类型,扩展训练规模,并追求泛化能力。
一个能够去往任何地方、执行任何任务、并预判下一步的物理智能体。
这就是终点——而 Qwen-Robot Suite 是我们迈向这个目标的第一步完整行动。
引用
bibtex
@article{qwenrobotnav, title={Qwen-RobotNav: A Scalable Navigation Model Designed for an Agentic Navigation System}, author={Qwen Team}, year={2026}}@article{qwenrobotmanip, title={Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models}, author={Qwen Team}, year={2026}}@article{qwenrobotworld, title={Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation}, author={Qwen Team}, year={2026}}
尝试 Qwen Studio
Web
iOS
Android
macOS
Windows
Qwen Studio
Qwen Studio 概览
下载
API 平台
我们的旗舰模型
平台概览
API 平台
Qwen Cloud
研究
最新进展
研究索引
GitHub
条款与政策
服务条款
隐私政策
使用政策
Cookies 声明
训练数据摘要







Qwen © 2026
由阿里云提供技术支持