# Qwen-VLA：迈向通用具身智能的统一动作框架

- 来源：公众号：通义实验室（千问）
- 作者：通义实验室
- 发布时间：2026-05-29 22:53
- AIHOT 分数：61
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq2o71l001irsl6nww43cve6
- 原文链接：https://mp.weixin.qq.com/s/5r6O_sBkcCnqaYIMiowbFw

## 精选理由

通义把操作、导航和轨迹预测塞进一个脑子，在11种机器人上通用，这是具身智能从'专家'走向'通才'的关键一步，做机器人的值得翻翻论文。

## AI 摘要

通义实验室提出Qwen-VLA，以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示，将操作、导航与轨迹预测统一在同一框架下，支持11种机器人平台。在5个仿真基准中，单一通用模型在3个上超越最佳专用模型；ALOHA真机in-domain成功率83.6%，OOD泛化76.9%，分别超越π₀.₅超35和40个百分点；DOMINO动态操作零样本达26.6%；VLN-CE导航R2R和RxR分别达57.5%和59.6%，均超越专用模型。

## 正文

公众号正文需在微信内阅读，站内仅提供摘要。
