小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

2026-05-26 11:31·37天前

AI 摘要

小米汽车发布 Xiaomi Auto World Model 框架，首次将三维重建与视频生成深度耦合，打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA，并已在合成数据生成（已交付超10万 clips 数据）、仿真测试、辅助驾驶学堂三大场景落地。

原文

IT之家 5 月 26 日消息，小米技术官方宣布，小米汽车今日发布 Xiaomi Auto World Model 全新框架，为业界辅助驾驶世界模型提供了新的框架路径，推动行业从“场景感知”向“认知推演、场景进化”的高阶形态跃迁。

据介绍，这是小米首次将三维重建与视频生成深度耦合的一体化架构，以「重建锚定几何、生成填补想象」的新范式，打破行业长期采用的重建、生成独立拆分路线。在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA，并已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成业务落地。

▲ Xiaomi Auto World Model 效果展示

目前，世界模型有两条主要技术路线 —— 重建（WorldRec）与生成（WorldGen），各有明确的优势与短板：

重建从多视角观测恢复几何精确的 3D 场景，优势是高保真、强一致性，但只能还原已见内容，缺乏想象能力；

生成通过扩散模型直接预测未来画面，能 " 想象 " 未观测视角和未发生场景，但缺乏显式 3D 结构，且长时序下容易漂移失真。

Xiaomi Auto World Model 则是提出一个全新的整合框架，将重建模块与生成模块深度耦合，让两者在结构上互相约束。重建提供 3D 几何作为结构化锚点，约束生成过程的稳定性；生成则把预测能力延伸到观测之外，弥补重建的边界。两者形成闭环、互相增益，从三个关键维度实现了“1+1>2”的协同增益：

高稳定性：WorldRec 的确定性几何约束，有效抑制长时序自回归中的误差累积与内容漂移。

高一致性：4D 场景表征作为跨帧共享记忆，确保不同时刻、不同视角下场景内容全局一致。

高真实性：WorldGen 以 WorldRec 渲染的 RGB 图像为几何骨架，使合成内容既符合物理布局，又贴近真实传感器观测，显著缩小了“仿真-现实”的领域鸿沟。

▲ WorldGen 的极端场景效果

Xiaomi Auto World Model 已经在小米汽车三大实际场景中落地：

合成数据生成：已交付超过 10 万 clips 高质量合成数据，直接用于感知模型训练，提升车辆在危险场景下的识别能力。

仿真测试：构建闭环仿真环境，优化测试效率，完备测试规范，可在仿真中复现真实事故进行定向优化。

辅助驾驶学堂：利用世界模型动态生成第一人称驾驶教学视频，用户面对复杂路况时，系统以生成式视频展示正确操作。目前已经上线小米全车型的辅助驾驶学堂 - 实景模拟场景。

IT之家附相关技术主页与论文链接如下：

技术主页：https://JointWM.github.io/

论文链接：https://arxiv.org/pdf/2605.18137

IT之家（RSS）

62导出 Markdown