Qwen-RobotNav：面向智能体导航系统的可扩展导航模型

2026-06-16 08:00·8天前·QwenTeam

精选理由

把导航任务看作上下文配置问题，单一模型覆盖从跟随指令到自动驾驶五种任务，在四足机器人上零样本部署，具身智能的工程化样本。

AI 摘要

Qwen 发布 Qwen-RobotNav，基于 Qwen3-VL 在 15.6M 样本上训练，统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域，无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA：VLN-CE RxR 成功率 76.5%，HM3Dv2 目标导航 75.6%（仅 RGB），EVT-Bench 跟踪率 90.0%，NAVSIM PDMS 91.4，以及三项 EQA 新标杆。模型暴露四个可调轴（视觉 token 预算、时间衰减、相机权重、帧采样模式）。作为智能体系统的一部分，上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%，导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上，无需环境微调。

AI 翻译 · 中文

Qwen-RobotNav：为智能体导航系统设计的可扩展导航模型 | Qwen

Qwen-RobotNav：为智能体导航系统设计的可扩展导航模型

2026/06/16 · 6分钟 · 1185字 · QwenTeam丨翻译：简体中文

GitHubPaper

视频1

智能体导航系统需要一个基础导航模型，该模型需具备可配置的导航上下文协议：指令跟随、物体搜索、目标跟踪和自主驾驶共享相同的感知-规划主干架构，但在处理视觉流时需要截然不同的上下文策略。就像用于大语言模型工具使用的模型上下文协议一样，导航模型需要一个标准化的接口，以便在推理时管理这些多样化的上下文需求。

我们提出了Qwen-RobotNav，这是一个基于Qwen3-VL构建的可扩展导航模型，通过一个参数化接口来解决这一问题，该接口包含两个互补维度：选择导航行为的任务模式，以及控制视觉历史编码方式的可控观测参数（模型 token预算、时间衰减、每摄像头权重）。该模型在1560万个样本上进行了训练，并在训练时对所有参数进行了随机化处理，使得Qwen-RobotNav能够泛化到任何推理时的配置，而无需修改架构，从而将五个任务族统一到一组权重之下，并成为智能体系统的自然构建模块。

视频2

亮点：

5个领域

8项SOTA

单一模型统一了VLN、ObjNav、 Tracking、Driving和EQA

上下文 = 接口

4轴观测协议零架构更改

智能体导航作为工具调用 + 两级记忆

在EQA上树立了新标杆

泛化能力在未见过环境中进行单摄像头野外部署

统一多域导航：单个模型、一套权重在5个导航域上实现了最先进水平：VLN-CE RxR上76.5% SR，HM3Dv2物体目标上75.6% SR（仅RGB，超越了基于深度的方法），EVT-Bench上90.0%跟踪率，NAVSIM上91.4 PDMS，以及3个EQA基准上的新最佳成绩，参数规模从2B到8B一致扩展。

可控观测协议：四个轴（视觉token预算、时间衰减、每摄像头权重、帧采样模式）作为推理时参数暴露，并在训练时对每个样本随机化，使得无需重新训练或修改架构即可实现任意推理时配置。

智能体导航系统：设计为两层系统中的一个可重新配置的导航原语，其中上层规划器（Qwen3.7-Plus）分解长程目标并分派可配置的导航调用，同时维护两级记忆，在EXPRESS-Bench上实现+15.4%的提升，且导航步骤比先前最佳减少77%。

野外泛化：在宇树Go2四足机器人上零样本部署，仅使用其单个低分辨率内置摄像头，展示了在野外环境和不受约束的自然语言指令下的强泛化能力，无需任何环境特定微调。

一个带可控上下文的导航模型#

移动导航涵盖需求迥异的多种任务。指令跟随需要长时间记住过去观测以重新参照远处地标。目标跟踪几乎完全关注最近的几帧。物体搜索在任务过程中会切换：探索阶段需要广泛历史，接近阶段需要紧贴最近。

现有的统一导航模型内嵌了关于记住什么的单一假设。Qwen-RobotNav通过将上下文视为一种头等、外部可控的自由度来解决此问题。该模型提供了四个控制轴，智能体可以在每次调用时调整：

视觉token预算：所有摄像头和时间步的总token数时间衰减：最近帧相比于较旧帧被偏好的强度摄像头权重：每个摄像头的重要性（前向摄像头比后向更重要）帧采样模式：随机以覆盖全局历史，或最新以获得紧贴最近的时间窗口

在训练时，所有这些参数对每个样本随机化。模型从未见过固定配置，因此它能在推理时泛化到任何设置。

架构。Qwen-RobotNav 继承了 Qwen3-VL 的主干网络，并增加了一个轻量级的 4 层 MLP 动作头，该动作头输出 8 个路径点，每个路径点包含位置和朝向。相机身份标识和时间顺序完全通过与视觉 token 交错插入的自然语言标签来传达：

时间步 0 前视图前右视图 ... 时间步 1 前视图 ...

专为智能体导航设计#

Qwen-RobotNav 被设计为一个双层系统内可重配置的导航原语。上层规划器（Qwen3.7-Plus）将长程目标分解为子目标，而 Qwen-RobotNav 则作为反应式路径点预测器执行每个导航片段。

规划器可以在一个回合中动态切换 Qwen-RobotNav 的任务模式和上下文策略。两个层级完全通过自然语言进行通信，保持了系统的模块化和可扩展性。

每次导航调用指定三件事：一个子目标指令、一个任务模式（VLN / PointNav / ObjNav / Tracking），以及一个观测配置。相同的模型权重服务于所有任务阶段，变化的仅是调用参数。

为了支持长程推理，系统维护了一个双层记忆。每个导航片段都会生成一个紧凑的轨迹摘要。一个持久化的证据笔记本会跨回合累积稳定的结论（已搜索区域、候选对象位置、已排除假设），这样规划器始终处理的是简洁且相关的上下文。

大规模训练#

Qwen-RobotNav 在五个任务族的 1560 万个样本上进行训练，外加用于保持主干网络感知能力的视觉-语言推理数据。性能从 2B 到 8B 参数持续扩展，在长程推理任务上提升最为显著。

我们还引入了一条自动化流水线，通过提示词生成、视频合成、VLM 质量过滤、单目深度估计和运动学滤波，将文本到视频的生成结果转换为导航轨迹，无需任何 3D 场景重建即可获得 4 万个额外的逼真样本。

性能表现#

指令遵循（VLN-CE）

R2R 和 RxR 验证集-未见拆分上 VLN 成功率的发展趋势。传统方法显示出早期稳定的进展，而近期基于 LLM/VLM 的方法推动了最新的性能提升，其中 Qwen-RobotNav 在两个基准测试上都取得了最高的成功率。

Qwen-RobotNav-8B 在 R2R 基准上实现了 72.1% 的 SR，在更长视野的 RxR 基准上实现了 76.5% 的 SR，超越了之前的最佳方法。

| Method | R2R SR↑ | R2R SPL↑ | RxR SR↑ | RxR SPL↑ | | --- | --- | --- | --- | --- | | NaVILA | 54.0 | 49.0 | 49.3 | 44.0 | | NavFoM | 61.7 | 55.3 | 64.4 | 56.2 | | ABot-N0 | 66.4 | 63.9 | 69.3 | 60.0 | | OmniNav | 69.5 | 66.1 | 73.6 | 62.0 | | Qwen-RobotNav-4B | 69.5 | 63.6 | 75.2 | 65.0 | | Qwen-RobotNav-8B | 72.1 | 66.6 | 76.5 | 65.7 |

物体搜索

在 HM3Dv2 物体目标导航上，Qwen-RobotNav-4B 仅使用 RGB 观测就达到了 75.6% 的 SR，超越了所有基于深度的方法，并且平均离目标仅 1.72 米。

| Method | SR↑ | SPL↑ | | --- | --- | --- | | VLFM | 52.5 | 30.4 | | CogNav | 72.5 | 26.2 | | Uni-NaVid | 73.7 | 37.1 | | Qwen-RobotNav-4B | 75.6 | 30.6 | | Qwen-RobotNav-8B | 71.2 | 33.0 |

主动视觉跟踪

在 EVT-Bench 上，Qwen-RobotNav 达到了 90.0% 的最高跟踪率，超过了专用跟踪器和通用模型。

| Method | TR↑ | CR↓ | SR↑ | | --- | --- | --- | --- | | TrackVLA++ | 81.0 | 2.10 | 86.0 | | NavFoM | 80.5 | — | 85.0 | | ABot-N0 | 87.6 | 8.54 | 86.9 | | Qwen-RobotNav-4B | 90.0 | 6.40 | 77.4 | | Qwen-RobotNav-8B | 89.7 | 5.70 | 78.6 |

具身问答

配备了智能体系统，Qwen-RobotNav 在三个 EQA 基准上取得了新的最先进结果，大幅超越了之前的方法。

| Method | HM-EQA Acc.↑ | MT-EQA Acc.↑ | EXPRESS LLM Score↑ | | --- | --- | --- | --- | | Explore-EQA | 58.4 | 36.2 | — | | Memory-EQA | 61.4 | 43.1 | — | | FAST-EQA | 69.2 | 50.5 | 68.7 | | Qwen3.5-Plus + QwenNav-8B | 74.1 | 52.1 | 77.66 | | Qwen3.6-Plus + QwenNav-8B | 76.7 | 54.4 | 79.27 |

自动驾驶 (NAVSIM)

在闭环驾驶评估中，Qwen-RobotNav-4B 达到了 91.4 PDMS，超越了专业驾驶模型。

| Method | NC↑ | DAC↑ | TTC↑ | Comf.↑ | EP↑ | PDMS↑ | | --- | --- | --- | --- | --- | --- | --- | | NavFoM | 97.7 | 93.5 | 92.3 | 100 | 79.6 | 84.3 | | AutoVLA | 98.4 | 95.6 | 98.0 | 99.9 | 81.9 | 89.1 | | ReCogDrive | 97.9 | 97.3 | 94.9 | 100 | 87.3 | 90.8 | | ReflectDrive | 97.7 | 99.3 | 93.5 | 100 | 86.9 | 91.1 | | Qwen-RobotNav-4B | 99.8 | 97.5 | 98.5 | 99.9 | 84.4 | 91.4 | | Qwen-RobotNav-8B | 99.8 | 96.9 | 98.2 | 99.9 | 84.2 | 90.9 |

Qwen-RobotNav 在 NAVSIM 和 AlpaSim 闭环模拟器（零样本）上都生成了时间上一致的弯曲轨迹。

视频 3

视频 4

真实世界部署

我们在一台宇树 Go2 四足机器人上部署了 Qwen-RobotNav，通过 NVIDIA Jetson Thor 进行设备端推理，实现了 196ms 延迟（5.1 Hz）。唯一的视觉输入是 Go2 内置的低分辨率摄像头。所有实验均在从未见过的环境中以零样本方式执行，无需针对特定环境进行微调。

部署

机器人在公寓环境中使用逐步口头指令执行导航任务，在卧室、客厅和卫生间之间穿行，同时响应精细的空间指令。

视频 5

视频 6

视频 7

视频 8

指令跟随

我们在一个未见过的展览厅中评估了一项往返导航任务：机器人首先按照语言指令从客厅导航 21.78 米到达一个病房，然后接收反向指令，必须精确地原路返回整个路线。这尤其具有挑战性，因为模型需要保持长距离的空间感知，在正向和反向两个方向上为不同的视觉地标建立关联，并仅凭语言执行精确的双向位置控制。

视频 9

视频 10

智能体导航

在智能体模式下，系统支持超出简单路线跟随的开放式请求。给定指令“检查 Cotti Coffee 是否遗留了一把绿色雨伞”，智能体将任务分解为子目标，利用走廊地标进行定位，检查目标场景，并在无人干预的情况下生成基于证据的答案。

视频 11

智能体导航：在 Cotti Coffee 自主检查绿色雨伞。

下一步计划#

Qwen-RobotNav 将多任务导航重新定义为上下文建模问题：不同任务共享相同的感知和规划骨干，但需要不同策略来消费观测数据。将上下文视为外部可控接口，使得单一模型能够作为智能体系统中一个实用、可部署的导航原语。

← 返回 Qwen-Robot Suite

引用#

bibtex

@article{qwenrobotnav2026, title={Qwen-RobotNav: A Scalable Navigation Model Designed for an Agentic Navigation System}, author={Qwen Team}, year={2026}}

尝试 Qwen Studio

网页

iOS

Android

macOS

Windows

Qwen Studio

Qwen Studio 概述

下载

API 平台

我们的旗舰模型

平台概述

API 平台

Qwen Cloud

研究

Qwen-RobotNav：面向智能体导航系统的可扩展导航模型

2026-06-16 08:00·8天前·QwenTeam

精选理由

把导航任务看作上下文配置问题，单一模型覆盖从跟随指令到自动驾驶五种任务，在四足机器人上零样本部署，具身智能的工程化样本。

AI 摘要

AI 翻译 · 中文

Qwen-RobotNav：为智能体导航系统设计的可扩展导航模型 | Qwen

Qwen-RobotNav：为智能体导航系统设计的可扩展导航模型

2026/06/16 · 6分钟 · 1185字 · QwenTeam丨翻译：简体中文

GitHubPaper

视频1

视频2

亮点：

5个领域

8项SOTA

单一模型统一了VLN、ObjNav、 Tracking、Driving和EQA

上下文 = 接口

4轴观测协议零架构更改

智能体导航作为工具调用 + 两级记忆

在EQA上树立了新标杆

泛化能力在未见过环境中进行单摄像头野外部署

一个带可控上下文的导航模型#

在训练时，所有这些参数对每个样本随机化。模型从未见过固定配置，因此它能在推理时泛化到任何设置。

时间步 0 前视图前右视图 ... 时间步 1 前视图 ...

专为智能体导航设计#

规划器可以在一个回合中动态切换 Qwen-RobotNav 的任务模式和上下文策略。两个层级完全通过自然语言进行通信，保持了系统的模块化和可扩展性。

大规模训练#

性能表现#

指令遵循（VLN-CE）

Qwen-RobotNav-8B 在 R2R 基准上实现了 72.1% 的 SR，在更长视野的 RxR 基准上实现了 76.5% 的 SR，超越了之前的最佳方法。

物体搜索

在 HM3Dv2 物体目标导航上，Qwen-RobotNav-4B 仅使用 RGB 观测就达到了 75.6% 的 SR，超越了所有基于深度的方法，并且平均离目标仅 1.72 米。

| Method | SR↑ | SPL↑ | | --- | --- | --- | | VLFM | 52.5 | 30.4 | | CogNav | 72.5 | 26.2 | | Uni-NaVid | 73.7 | 37.1 | | Qwen-RobotNav-4B | 75.6 | 30.6 | | Qwen-RobotNav-8B | 71.2 | 33.0 |

主动视觉跟踪

在 EVT-Bench 上，Qwen-RobotNav 达到了 90.0% 的最高跟踪率，超过了专用跟踪器和通用模型。

具身问答

配备了智能体系统，Qwen-RobotNav 在三个 EQA 基准上取得了新的最先进结果，大幅超越了之前的方法。

自动驾驶 (NAVSIM)

在闭环驾驶评估中，Qwen-RobotNav-4B 达到了 91.4 PDMS，超越了专业驾驶模型。

Qwen-RobotNav 在 NAVSIM 和 AlpaSim 闭环模拟器（零样本）上都生成了时间上一致的弯曲轨迹。

视频 3

视频 4

真实世界部署

部署

机器人在公寓环境中使用逐步口头指令执行导航任务，在卧室、客厅和卫生间之间穿行，同时响应精细的空间指令。

视频 5

视频 6

视频 7

视频 8

指令跟随

视频 9

视频 10

智能体导航

视频 11

智能体导航：在 Cotti Coffee 自主检查绿色雨伞。

下一步计划#

← 返回 Qwen-Robot Suite

引用#

bibtex

@article{qwenrobotnav2026, title={Qwen-RobotNav: A Scalable Navigation Model Designed for an Agentic Navigation System}, author={Qwen Team}, year={2026}}

尝试 Qwen Studio

网页

iOS

Android

macOS

Windows

Qwen Studio

Qwen Studio 概述

下载

API 平台

我们的旗舰模型

平台概述

API 平台

Qwen Cloud

研究