Qwen-RobotWorld 是一个语言条件视频世界模型,以自然语言为统一动作接口,从当前观测预测物理可行的未来视觉轨迹,覆盖机器人操作、自动驾驶、室内导航和人到机器人迁移。其核心设计包括:60 层双流 Diffusion Transformer(Double-Stream MMDiT)耦合冻结的 Qwen2.5-VL 语义与视频-VAE 隐特征;具身世界知识语料库(860 万视频-文本对,超 2 亿帧,含 20 余种具身形态和 500 余种动作);通用+专家渐进式课程训练,先学习通用视觉先验再注入具身专用知识。在 EWMBench 和 DreamGen Bench 上总分第一,在 WorldModelBench 和 PBench 上超越所有开源模型,RoboTwin-IF 零样本分析验证了泛化性与多视角一致性。