Qwen-RobotNav:面向智能体导航系统的可扩展导航模型
把导航任务看作上下文配置问题,单一模型覆盖从跟随指令到自动驾驶五种任务,在四足机器人上零样本部署,具身智能的工程化样本。
Qwen 发布 Qwen-RobotNav,基于 Qwen3-VL 在 15.6M 样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域,无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA:VLN-CE RxR 成功率 76.5%,HM3Dv2 目标导航 75.6%(仅 RGB),EVT-Bench 跟踪率 90.0%,NAVSIM PDMS 91.4,以及三项 EQA 新标杆。模型暴露四个可调轴(视觉 token 预算、时间衰减、相机权重、帧采样模式)。作为智能体系统的一部分,上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上,无需环境微调。
Qwen-RobotNav:为智能体导航系统设计的可扩展导航模型 | Qwen
Qwen-RobotNav:为智能体导航系统设计的可扩展导航模型
2026/06/16 · 6分钟 · 1185字 · QwenTeam丨翻译:简体中文
GitHubPaper
视频1
智能体导航系统需要一个基础导航模型,该模型需具备可配置的导航上下文协议:指令跟随、物体搜索、目标跟踪和自主驾驶共享相同的感知-规划主干架构,但在处理视觉流时需要截然不同的上下文策略。就像用于大语言模型工具使用的模型上下文协议一样,导航模型需要一个标准化的接口,以便在推理时管理这些多样化的上下文需求。
我们提出了Qwen-RobotNav,这是一个基于Qwen3-VL构建的可扩展导航模型,通过一个参数化接口来解决这一问题,该接口包含两个互补维度:选择导航行为的任务模式,以及控制视觉历史编码方式的可控观测参数(模型 token预算、时间衰减、每摄像头权重)。该模型在1560万个样本上进行了训练,并在训练时对所有参数进行了随机化处理,使得Qwen-RobotNav能够泛化到任何推理时的配置,而无需修改架构,从而将五个任务族统一到一组权重之下,并成为智能体系统的自然构建模块。
视频2
亮点:
5个领域
8项SOTA
单一模型统一了VLN、ObjNav、 Tracking、Driving和EQA
上下文 = 接口
4轴观测协议 零架构更改
智能体导航 作为工具调用 + 两级记忆
在EQA上树立了新标杆
泛化能力 在未见过环境中 进行单摄像头野外部署
统一多域导航:单个模型、一套权重在5个导航域上实现了最先进水平:VLN-CE RxR上76.5% SR,HM3Dv2物体目标上75.6% SR(仅RGB,超越了基于深度的方法),EVT-Bench上90.0%跟踪率,NAVSIM上91.4 PDMS,以及3个EQA基准上的新最佳成绩,参数规模从2B到8B一致扩展。
可控观测协议:四个轴(视觉token预算、时间衰减、每摄像头权重、帧采样模式)作为推理时参数暴露,并在训练时对每个样本随机化,使得无需重新训练或修改架构即可实现任意推理时配置。
智能体导航系统:设计为两层系统中的一个可重新配置的导航原语,其中上层规划器(Qwen3.7-Plus)分解长程目标并分派可配置的导航调用,同时维护两级记忆,在EXPRESS-Bench上实现+15.4%的提升,且导航步骤比先前最佳减少77%。
野外泛化:在宇树Go2四足机器人上零样本部署,仅使用其单个低分辨率内置摄像头,展示了在野外环境和不受约束的自然语言指令下的强泛化能力,无需任何环境特定微调。
一个带可控上下文的导航模型#
移动导航涵盖需求迥异的多种任务。指令跟随需要长时间记住过去观测以重新参照远处地标。目标跟踪几乎完全关注最近的几帧。物体搜索在任务过程中会切换:探索阶段需要广泛历史,接近阶段需要紧贴最近。
现有的统一导航模型内嵌了关于记住什么的单一假设。Qwen-RobotNav通过将上下文视为一种头等、外部可控的自由度来解决此问题。该模型提供了四个控制轴,智能体可以在每次调用时调整:
视觉token预算:所有摄像头和时间步的总token数 时间衰减:最近帧相比于较旧帧被偏好的强度 摄像头权重:每个摄像头的重要性(前向摄像头比后向更重要) 帧采样模式:随机以覆盖全局历史,或最新以获得紧贴最近的时间窗口
在训练时,所有这些参数对每个样本随机化。模型从未见过固定配置,因此它能在推理时泛化到任何设置。
架构。Qwen-RobotNav 继承了 Qwen3-VL 的主干网络,并增加了一个轻量级的 4 层 MLP 动作头,该动作头输出 8 个路径点,每个路径点包含位置和朝向。相机身份标识和时间顺序完全通过与视觉 token 交错插入的自然语言标签来传达:
时间步 0 前视图 前右视图 ... 时间步 1 前视图 ...
专为智能体导航设计#
Qwen-RobotNav 被设计为一个双层系统内可重配置的导航原语。上层规划器(Qwen3.7-Plus)将长程目标分解为子目标,而 Qwen-RobotNav 则作为反应式路径点预测器执行每个导航片段。
规划器可以在一个回合中动态切换 Qwen-RobotNav 的任务模式和上下文策略。两个层级完全通过自然语言进行通信,保持了系统的模块化和可扩展性。
每次导航调用指定三件事:一个子目标指令、一个任务模式(VLN / PointNav / ObjNav / Tracking),以及一个观测配置。相同的模型权重服务于所有任务阶段,变化的仅是调用参数。
为了支持长程推理,系统维护了一个双层记忆。每个导航片段都会生成一个紧凑的轨迹摘要。一个持久化的证据笔记本会跨回合累积稳定的结论(已搜索区域、候选对象位置、已排除假设),这样规划器始终处理的是简洁且相关的上下文。
大规模训练#
Qwen-RobotNav 在五个任务族的 1560 万个样本上进行训练,外加用于保持主干网络感知能力的视觉-语言推理数据。性能从 2B 到 8B 参数持续扩展,在长程推理任务上提升最为显著。
我们还引入了一条自动化流水线,通过提示词生成、视频合成、VLM 质量过滤、单目深度估计和运动学滤波,将文本到视频的生成结果转换为导航轨迹,无需任何 3D 场景重建即可获得 4 万个额外的逼真样本。
性能表现#
指令遵循(VLN-CE)
R2R 和 RxR 验证集-未见拆分上 VLN 成功率的发展趋势。传统方法显示出早期稳定的进展,而近期基于 LLM/VLM 的方法推动了最新的性能提升,其中 Qwen-RobotNav 在两个基准测试上都取得了最高的成功率。
Qwen-RobotNav-8B 在 R2R 基准上实现了 72.1% 的 SR,在更长视野的 RxR 基准上实现了 76.5% 的 SR,超越了之前的最佳方法。
| Method | R2R SR↑ | R2R SPL↑ | RxR SR↑ | RxR SPL↑ | | --- | --- | --- | --- | --- | | NaVILA | 54.0 | 49.0 | 49.3 | 44.0 | | NavFoM | 61.7 | 55.3 | 64.4 | 56.2 | | ABot-N0 | 66.4 | 63.9 | 69.3 | 60.0 | | OmniNav | 69.5 | 66.1 | 73.6 | 62.0 | | Qwen-RobotNav-4B | 69.5 | 63.6 | 75.2 | 65.0 | | Qwen-RobotNav-8B | 72.1 | 66.6 | 76.5 | 65.7 |
物体搜索
在 HM3Dv2 物体目标导航上,Qwen-RobotNav-4B 仅使用 RGB 观测就达到了 75.6% 的 SR,超越了所有基于深度的方法,并且平均离目标仅 1.72 米。
| Method | SR↑ | SPL↑ | | --- | --- | --- | | VLFM | 52.5 | 30.4 | | CogNav | 72.5 | 26.2 | | Uni-NaVid | 73.7 | 37.1 | | Qwen-RobotNav-4B | 75.6 | 30.6 | | Qwen-RobotNav-8B | 71.2 | 33.0 |
主动视觉跟踪
在 EVT-Bench 上,Qwen-RobotNav 达到了 90.0% 的最高跟踪率,超过了专用跟踪器和通用模型。
| Method | TR↑ | CR↓ | SR↑ | | --- | --- | --- | --- | | TrackVLA++ | 81.0 | 2.10 | 86.0 | | NavFoM | 80.5 | — | 85.0 | | ABot-N0 | 87.6 | 8.54 | 86.9 | | Qwen-RobotNav-4B | 90.0 | 6.40 | 77.4 | | Qwen-RobotNav-8B | 89.7 | 5.70 | 78.6 |
具身问答
配备了智能体系统,Qwen-RobotNav 在三个 EQA 基准上取得了新的最先进结果,大幅超越了之前的方法。
| Method | HM-EQA Acc.↑ | MT-EQA Acc.↑ | EXPRESS LLM Score↑ | | --- | --- | --- | --- | | Explore-EQA | 58.4 | 36.2 | — | | Memory-EQA | 61.4 | 43.1 | — | | FAST-EQA | 69.2 | 50.5 | 68.7 | | Qwen3.5-Plus + QwenNav-8B | 74.1 | 52.1 | 77.66 | | Qwen3.6-Plus + QwenNav-8B | 76.7 | 54.4 | 79.27 |
自动驾驶 (NAVSIM)
在闭环驾驶评估中,Qwen-RobotNav-4B 达到了 91.4 PDMS,超越了专业驾驶模型。
| Method | NC↑ | DAC↑ | TTC↑ | Comf.↑ | EP↑ | PDMS↑ | | --- | --- | --- | --- | --- | --- | --- | | NavFoM | 97.7 | 93.5 | 92.3 | 100 | 79.6 | 84.3 | | AutoVLA | 98.4 | 95.6 | 98.0 | 99.9 | 81.9 | 89.1 | | ReCogDrive | 97.9 | 97.3 | 94.9 | 100 | 87.3 | 90.8 | | ReflectDrive | 97.7 | 99.3 | 93.5 | 100 | 86.9 | 91.1 | | Qwen-RobotNav-4B | 99.8 | 97.5 | 98.5 | 99.9 | 84.4 | 91.4 | | Qwen-RobotNav-8B | 99.8 | 96.9 | 98.2 | 99.9 | 84.2 | 90.9 |
Qwen-RobotNav 在 NAVSIM 和 AlpaSim 闭环模拟器(零样本)上都生成了时间上一致的弯曲轨迹。
视频 3
视频 4
真实世界部署
我们在一台宇树 Go2 四足机器人上部署了 Qwen-RobotNav,通过 NVIDIA Jetson Thor 进行设备端推理,实现了 196ms 延迟(5.1 Hz)。唯一的视觉输入是 Go2 内置的低分辨率摄像头。所有实验均在从未见过的环境中以零样本方式执行,无需针对特定环境进行微调。
部署
机器人在公寓环境中使用逐步口头指令执行导航任务,在卧室、客厅和卫生间之间穿行,同时响应精细的空间指令。
视频 5
视频 6
视频 7
视频 8
指令跟随
我们在一个未见过的展览厅中评估了一项往返导航任务:机器人首先按照语言指令从客厅导航 21.78 米到达一个病房,然后接收反向指令,必须精确地原路返回整个路线。这尤其具有挑战性,因为模型需要保持长距离的空间感知,在正向和反向两个方向上为不同的视觉地标建立关联,并仅凭语言执行精确的双向位置控制。
视频 9
视频 10
智能体导航
在智能体模式下,系统支持超出简单路线跟随的开放式请求。给定指令“检查 Cotti Coffee 是否遗留了一把绿色雨伞”,智能体将任务分解为子目标,利用走廊地标进行定位,检查目标场景,并在无人干预的情况下生成基于证据的答案。
视频 11
智能体导航:在 Cotti Coffee 自主检查绿色雨伞。
下一步计划#
Qwen-RobotNav 将多任务导航重新定义为上下文建模问题:不同任务共享相同的感知和规划骨干,但需要不同策略来消费观测数据。将上下文视为外部可控接口,使得单一模型能够作为智能体系统中一个实用、可部署的导航原语。
← 返回 Qwen-Robot Suite
引用#
bibtex
@article{qwenrobotnav2026, title={Qwen-RobotNav: A Scalable Navigation Model Designed for an Agentic Navigation System}, author={Qwen Team}, year={2026}}
")
尝试 Qwen Studio
网页
iOS
Android
macOS
Windows
Qwen Studio
Qwen Studio 概述
下载
API 平台
我们的旗舰模型
平台概述
API 平台
Qwen Cloud
研究
最新进展
研究索引
GitHub
条款与政策
服务条款
隐私政策
使用政策
Cookies 通知
训练数据摘要
Qwen © 2026