# Qwen-VLA：统一跨任务、环境与机器人形态的视觉-语言-动作建模

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-05-28 08:00
- AIHOT 分数：70
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpqd5x5l03y8slno6er85jod
- 原文链接：https://arxiv.org/abs/2605.30280

## 精选理由

Qwen-VLA 让一个模型同时搞定操作、导航和轨迹，在具身智能统一化上迈出了关键一步。虽然还停在实验室阶段，但 97.9% LIBERO 和真实世界泛化结果证明这条路走得通，做机器人的值得认真读。

## AI 摘要

Qwen-VLA是一个统一的具身基础模型，将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现，使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台，引入了感知载体感知的提示条件机制，并将操作、导航与轨迹预测统一到一个框架中。实验显示，Qwen-VLA-Instruct在多个基准上表现优异，例如在LIBERO达到97.9%，在真实世界ALOHA实验中平均分布外成功率为76.9%。

## 正文

具身智能通常通过针对单个任务（如操作或导航）的专业模型进行研究，导致能力碎片化，并且在任务、环境和机器人本体上的泛化能力有限。在这项工作中，我们研究异构的具身决策问题是否能够统一到一个单一的视觉-语言-动作模型中。我们提出 Qwen-VLA，一个统一的具身基础模型，它将 Qwen 的视觉-语言建模栈从感知、理解和推理扩展到连续动作和轨迹生成，通过一个基于 DiT 的动作解码器实现。Qwen-VLA 通过大规模联合预训练方案进行训练，数据来源多样，包括机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督以及辅助视觉-语言数据。为支持多种机器人平台，我们引入了本体感知的提示词条件化，其中特定于机器人的文本描述指明了当前本体和控制约定。我们进一步将操作、导航和轨迹预测统一到一个动作与轨迹预测框架中，从而在机器人形态、任务族和环境之间实现可迁移的视觉定位、空间推理和连续动作生成。在操作、导航和轨迹中心基准上的实验表明，在场景布局、背景、光照、物体配置和机器人本体的变化下，模型表现出一致的多任务性能和分布外泛化能力。Qwen-VLA-Instruct 在 LIBERO 上达到 97.9%，在 Simpler-WidowX 上达到 73.7%，在 RoboTwin-Easy/Hard 上达到 86.1%/87.2%，在 R2R 上达到 69.0% OSR，在 RxR 上达到 59.6% SR，在真实世界 ALOHA 实验中平均 OOD 成功率为 76.9%，在 DOMINO 动态操作任务上零样本成功率为 26.6%。