# 小米开源 Xiaomi OneVL 自动驾驶模型，业内率先实现 VLA、世界模型等多技术路线统一

- 来源：IT之家（RSS）
- 发布时间：2026-05-13 17:10
- AIHOT 分数：69
- AIHOT 链接：https://aihot.virxact.com/items/cmp3vb3ap00sfsljxke4233xe
- 原文链接：https://www.ithome.com/0/949/956.htm

## AI 摘要

小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA（视觉语言动作模型）与世界模型这两条技术路线统一于同一框架，通过潜空间推理同时提升推理速度与精度，在多项基准测试中达到先进水平。此外，它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。

## 正文

IT之家 5 月 13 日消息，小米技术今日正式发布并开源 Xiaomi OneVL 一步式潜空间语言视觉推理框架。

官方表示，该模型在业内率先实现 VLA、世界模型、潜空间推理等多个技术路线的统一，在具备 XLA 模型强悍推理能力的基础上，大幅提升了推理的速度和精度，是行业内具备开创性的方案，在精度上超越显式 CoT、在速度上对齐“仅答案”预测的潜空间 CoT 方案。

过去，VLA 和世界模型是自动驾驶领域两条相对独立的技术路线：VLA 专注于理解场景并输出驾驶动作，世界模型专注于预测未来场景的演变。Xiaomi OneVL 通过潜空间推理，首次将两者统一到同一套框架中。

在涵盖感知、推理与规划的多个主流基准上，Xiaomi OneVL 全面刷新了潜在推理方法的性能上限。

▲ 在 ROADWork、Impromptu、Alpamayo-R1 三项基准上均达到 SOTA，在 NAVSIM 上取得优越性能

同时，Xiaomi OneVL 能为模型决策提供语言和视觉双维度的可解释性 —— 既能用文字说明“为什么这样开”，也能用预测画面展示“接下来会发生什么”。

▲ 为模型决策提供语言以及视觉的可解释性

小米已将 Xiaomi OneVL 的模型权重和训练、推理代码全面开源，IT之家汇总链接如下：

技术报告：https://arxiv.org/abs/2604.18486

项目主页：https://Xiaomi-Embodied-Intelligence.github.io/OneVL

开源代码：https://github.com/xiaomi-research/onevl
