Qwen-RobotManip 是基于 Qwen-VL 构建的视觉-语言-操作基础模型,通过跨表示、运动和行为维度的统一对齐框架,实现大规模多源训练的一致性。仅利用开源数据集和人类视频(无需专有数据),构建约 38,100 小时预训练语料,展现出零样本指令跟随、扰动鲁棒、错误恢复及跨本体迁移等涌现能力。在 RoboCasa365、LIBERO-Plus、EBench、RoboTwin 系列等 OOD 评测上全面超越先前 SOTA(包括 π0.5),在 RoboChallenge 排名第一且相对提升 20%,并在 AgileX ALOHA、Franka、UR、ARX 等真实机器人平台上得到验证。