Qwen-VLA:统一跨任务、环境与机器人形态的视觉-语言-动作建模
阅读原文· arxiv.orgQwen-VLA 让一个模型同时搞定操作、导航和轨迹,在具身智能统一化上迈出了关键一步。虽然还停在实验室阶段,但 97.9% LIBERO 和真实世界泛化结果证明这条路走得通,做机器人的值得认真读。
Qwen-VLA是一个统一的具身基础模型,将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现,使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台,引入了感知载体感知的提示条件机制,并将操作、导航与轨迹预测统一到一个框架中。实验显示,Qwen-VLA-Instruct在多个基准上表现优异,例如在LIBERO达到97.9%,在真实世界ALOHA实验中平均分布外成功率为76.9%。
具身智能通常通过针对单个任务(如操作或导航)的专业模型进行研究,导致能力碎片化,并且在任务、环境和机器人本体上的泛化能力有限。在这项工作中,我们研究异构的具身决策问题是否能够统一到一个单一的视觉-语言-动作模型中。我们提出 Qwen-VLA,一个统一的具身基础模型,它将 Qwen 的视觉-语言建模栈从感知、理解和推理扩展到连续动作和轨迹生成,通过一个基于 DiT 的动作解码器实现。Qwen-VLA 通过大规模联合预训练方案进行训练,数据来源多样,包括机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督以及辅助视觉-语言数据。为支持多种机器人平台,我们引入了本体感知的提示词条件化,其中特定于机器人的文本描述指明了当前本体和控制约定。我们进一步将操作、导航和轨迹预测统一到一个动作与轨迹预测框架中,从而在机器人形态、任务族和环境之间实现可迁移的视觉定位、空间推理和连续动作生成。在操作、导航和轨迹中心基准上的实验表明,在场景布局、背景、光照、物体配置和机器人本体的变化下,模型表现出一致的多任务性能和分布外泛化能力。Qwen-VLA-Instruct 在 LIBERO 上达到 97.9%,在 Simpler-WidowX 上达到 73.7%,在 RoboTwin-Easy/Hard 上达到 86.1%/87.2%,在 R2R 上达到 69.0% OSR,在 RxR 上达到 59.6% SR,在真实世界 ALOHA 实验中平均 OOD 成功率为 76.9%,在 DOMINO 动态操作任务上零样本成功率为 26.6%。