机器人连续收纳耳机，小米开源 VLA 大模型 Xiaomi-Robotics-0 后训练全流程

2026-04-27 08:35·67天前

AI 摘要

小米正式发布了其开源视觉语言动作大模型Xiaomi-Robotics-0的真机后训练全流程。通过仅20小时的任务数据训练，该模型成功掌握了将耳机精准收纳进耳机盒的高难度动作，并能连续丝滑完成多个耳机的收纳。此任务要求模型具备亚毫米级的空间感知精度，以应对耳机与槽位间极小的公差，同时能快速修正动作偏差，克服耳机盒表面最低Ra0.03μm粗糙度带来的位移挑战。该模型此前已在HuggingFace全球VLA模型下载榜位列第六。

原文

IT之家 4 月 27 日消息，小米于今年 2 月对外发布并开源 VLA 模型 Xiaomi-Robotics-0，模型发布首月在 HuggingFace 全球 VLA 模型下载榜获第六名。

小米今日宣布，为了让其真正成为“开箱即用”的生产力利器，带来新的能力演示并正式发布 Xiaomi-Robotics-0 真机后训练（Post-training）全流程。

基于预训练基座，小米称仅利用 20 小时的任务数据进行真机后训练，便让 Xiaomi-Robotics-0 掌握了“将耳机收纳进耳机盒”这一高难度动作，并能够连续丝滑地完成多个耳机的收纳。

官方表示，该任务涉及两大核心挑战：

耳机与槽位间公差极小，模型必须达到亚毫米级的空间感知精度，才能完成精准对位。

耳机与盒体表面粗糙度最低至 Ra0.03μm，极易在触碰过程发生位移，模型必须能快速修正动作偏差，避免装配失败。

IT之家附相关链接如下：

技术官网：https://robotics.xiaomi.com

技术报告：https://arxiv.org/abs/2602.12684

项目网站：https://robotics.xiaomi.com/xiaomi-robotics-0.html

模型权重：https://huggingface.co/XiaomiRobotics

开源代码：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

IT之家（RSS）

66导出 Markdown