# Qwen-VLA：从理解世界到付诸行动

- 来源：Qwen：Blog Retrieval（API）
- 作者：QwenTeam
- 发布时间：2026-05-29 17:00
- AIHOT 分数：66
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpr2b1l40aa6slnoit9b7p92
- 原文链接：https://qwen.ai/blog?id=qwenvla

## 精选理由

Qwen-VLA 把机器人操作、导航和跨实体控制统一进一个模型，在多个基准上打平甚至超越专用模型，这是通用具身智能的一个重要信号，但离实际可用还有距离。

## AI 摘要

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

## 正文

Qwen

Qwen Studio

更多

EN

下载 试用 Qwen Studio

Qwen-VLA：从理解世界到在其中行动 | Qwen

Qwen-VLA：从理解世界到在其中行动

2026/05/29 · 6分钟 · 1192字 · Qwen团队丨翻译：简体中文

GitHub论文演示

在过去几年中，多模态大语言模型在理解图像、视频和真实世界场景方面变得越来越强大。它们能够识别物体、推理空间关系、回答视觉问题，并解决复杂的多模态推理任务。

但对于具身智能来说，理解世界仅仅是第一步。一个真正的具身智能体还需要理解任务目标、在物理世界中采取行动，并在不同的机器人本体、环境和任务之间泛化。

这正是 Qwen-VLA 背后的动机。

Qwen-VLA 是一个通用的视觉-语言-动作模型。它基于 Qwen 多模态骨干网络构建，将视觉感知、语言理解和空间推理扩展到连续动作生成和轨迹预测。换句话说，它使模型不仅能够看到和思考，而且能够开始行动。

一个模型应对多种具身任务#

传统的具身 AI 系统通常高度专门化：一个模型用于桌面操作，另一个用于导航，再另一个用于特定的机器人平台。这种方法在单个任务上可能表现良好，但很难扩展到更广泛的任务、多样化的环境或不同的机器人本体。

Qwen-VLA 探索了一个更统一的方向：

一个通用的策略模型能否同时支持机器人操作、视觉-语言导航和跨本体控制？

在 Qwen-VLA 中，机器人操作和视觉-语言导航被统一在一个框架下：给定视觉观察、语言指令和本体特定条件，模型预测下一步动作或轨迹。Qwen 多模态骨干网络理解视觉和语言输入，而动作解码器生成连续动作。

训练：从语言先验到闭环控制#

Qwen-VLA 的核心并非简单地将一个动作头附加到多模态模型上。更重要的是，它构建了一个联合训练系统，覆盖了多样化的任务、环境和机器人本体。整个训练流程分为四个阶段，从语言先验逐步过渡到闭环控制。

数据#

预训练数据涵盖五大来源：

机器人操作轨迹构成了基础，涵盖桌面操作、移动操作、双臂操作和灵巧操作。公开数据总量超过10,000小时，另有超过1,000小时的内部真实机器人轨迹和超过800万条合成仿真轨迹作为补充。

人类自我中心数据从开放世界环境中提供了更丰富的物体、场景和手部动作先验知识。我们整合了Ego4D、EPIC-KITCHENS、EgoDex（829小时）、EgoVerse（超过1,300小时、1,965个任务、240个场景）和Xperience。

合成仿真数据填补了长尾场景的空白。视觉条件数据涵盖了20个桌面场景、200种配置、450个任务和359,848条成功轨迹。文本到动作数据横跨6种模板×6种单臂机器人，生成了约720万条轨迹和超过14,000小时的数据。

视觉-语言导航数据提供了长程轨迹规划和指令跟随能力。

通用视觉-语言数据保留了多模态理解、空间定位和指令跟随能力。我们还构建了约48,000条细粒度动作描述，这些描述在13个维度上进行标注，将自然语言与具体的执行细节对齐。

四阶段训练#

核心理念：首先学习从语言生成动作结构，然后学习让这些动作适应视觉环境。

第一阶段：T2A（文本到动作预训练）。像“拿起红色杯子”这样的指令只有几个词，但相应的机器人动作是一条高维连续轨迹。Qwen-VLA将其视为从语言到动作的一种解压缩过程。在T2A阶段，我们冻结视觉语言模型（VLM），仅使用语言和具身提示词（不含任何图像）来训练动作解码器。

第二阶段：CPT（持续预训练）。我们解冻视觉语言模型（VLM）和动作解码器，并在完整的多模态数据混合集上进行联合训练。此阶段将T2A阶段学到的语言-动作先验知识锚定到具体的视觉场景中，同时使主干网络适应具身感知，从而生成Qwen-VLA-Base。

第三阶段：SFT（监督微调）。从CPT检查点开始，我们分支出两条路径：多任务SFT在操作、导航、视觉问答（VQA）和空间定位任务上进行联合微调；真实机器人SFT则在内部遥操作数据上进行微调，以用于实体部署。

**第四阶段：RL（强化学习，Reinforcement Learning）。** 从 SFT 检查点出发，我们使用 PPO 在仿真环境中直接优化闭环任务成功率，从而得到最终模型 Qwen-VLA-Instruct。RL 仅在 SimplerEnv 中进行，但实验表明其收益可迁移至未见环境和机器人本体。

**性能表现#**

**单一通用模型可媲美甚至超越专用模型#**

实验结果表明了 Qwen-VLA 作为通用策略模型的潜力。单个模型即可覆盖多个操作基准测试，包括 LIBERO、Simpler、RoboCasa 和 RoboTwin，并在多项任务上接近或超越专用策略模型。

| 基准测试 | 最佳专用模型 | Qwen-VLA | | --- | --- | --- | | LIBERO | ABot-M0 98.6% | 97.9% | | RoboCasa-GR1 | ABot-M0 58.3% | 56.7% | | Simpler-WidowX | StarVLA-OFT 64.6% | 73.7% | | RoboTwin-简单 / 困难 | ABot-M0 86.0% / 85.0% | 86.1% / 87.2% |

在机器人操作基准测试上，Qwen-VLA-Instruct 在 LIBERO 上达到 97.9%，在 Simpler-WidowX 上达到 73.7%，在 RoboTwin-简单 / 困难上达到 86.1% / 87.2%。对比的许多方法是为单个基准测试微调的专用模型，而 Qwen-VLA 是在单一框架下训练的统一通用模型。

在视觉语言导航（VLN-CE）上，Qwen-VLA-Instruct 在 R2R Val-Unseen 上实现了 69.0% 的 Oracle 成功率和 57.5% 的成功率，在更具挑战性的 RxR Val-Unseen 上实现了 59.6% 的成功率和 47.8% 的 SPL，超越了所有开源基线模型。

在真实世界的 ALOHA 双臂实验中，Qwen-VLA 预训练模型实现了 83.6% 的平均域内成功率和 76.9% 的平均域外成功率，大幅超越了从头开始训练的模型（48.5% / 36.2%）和 $\pi{0.5}$π 0.5​（71.6% / 41.5%）。

**真实世界的域外泛化能力#**

我们同样关注 Qwen-VLA 在实际机器人上的泛化表现。

在真实世界的 ALOHA 双臂机器人实验中，Qwen-VLA 展示了向未见颜色、物体、背景、位置以及语言指令的泛化能力。与从头开始训练的策略相比，使用 Qwen-VLA 预训练的模型在真实世界域外设置下表现出明显的提升。

**视频 1**

这一部分最好通过视频来展示。以下演示均使用 Qwen-VLA-Base 模型进行测试。当被要求“拿起绿色球”或“拿起蓝色球”时，模型能够根据颜色指令正确执行动作。当遇到未见过的物体（如玩具、蔬菜或太阳镜）时，它仍然可以遵循语言指令抓取或移动它们。当背景、光照和桌面布局发生变化时，模型仍然保持相对稳定。对于诸如“整理桌面”之类的组合任务，它可以识别多个目标并执行多步操作。

与表格相比，这些视频更能说明 Qwen-VLA 的核心价值：

模型不仅仅是在固定环境中记忆动作模板。它正在学习理解目标并在真实世界的变化中采取行动。

动态场景中的零样本泛化#

视频 2

除了静态桌面操作之外，Qwen-VLA 还在动态操作任务中展示了零样本泛化能力。

在 DOMINO 动态操作基准上，Qwen-VLA-Instruct 并未针对该基准进行专门微调，但依然实现了 26.6% 的成功率和 39.5 的操作得分，优于一系列标准 VLA 基线模型，甚至优于一些专用于动态操作的专业模型。

这表明，模型不仅学习了静态场景中的抓取模板，还从空间理解到运动控制获取了更具迁移能力的动作先验。在视觉观察、语言目标及其动作生成能力的支持下，模型可以直接产生连贯的动作序列，并在动态交互窗口中完成任务。

从多模态理解到具身智能#

视频 3

Qwen-VLA 是 Qwen 多模态能力向具身智能的自然延伸。

过去，多模态模型主要关注对世界的理解。借助 Qwen-VLA，我们进一步探索模型如何基于视觉和语言在物理世界中生成动作。

Qwen-VLA 统一了机器人操控、视觉语言导航以及跨本体的控制能力。它将 Qwen 的视觉理解与空间推理能力连接至连续动作生成。通过对真实机器人数据、人类第一人称数据、合成仿真数据以及通用视觉语言数据进行联合预训练，它学习了更通用的具身经验。它还在操控基准测试、真实世界分布外泛化以及零样本动态操控中展示了通用策略模型的潜力。

具身智能仍处于早期阶段。长时域的真实世界任务、故障恢复、持续学习以及更复杂的人机环境交互仍然具有挑战性。但 Qwen-VLA 指明了清晰的下一步：

模型不仅应理解世界——还应学会在其中行动。

引用#

bibtex

@article{qwenvla, title={Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments}, author={Qwen Team}, year={2026}, eprint={2605.30280}, archivePrefix={arXiv}, primaryClass={cs.RO}, url={https://arxiv.org/abs/2605.30280},}

")

尝试 Qwen Studio

网页

iOS

Android

macOS

Windows

Qwen Studio

Qwen Studio 概览

下载

API 平台

我们的旗舰模型

平台概览

API 平台

Qwen Cloud

研究

最新进展

研究索引

GitHub

条款与政策

服务条款

隐私政策

使用政策

Cookies 声明

训练数据摘要

Qwen © 2026

管理 Cookies

由阿里云提供技术支持