机器人连续收纳耳机,小米开源 VLA 大模型 Xiaomi-Robotics-0 后训练全流程
阅读原文· ithome.com小米正式发布了其开源视觉语言动作大模型Xiaomi-Robotics-0的真机后训练全流程。通过仅20小时的任务数据训练,该模型成功掌握了将耳机精准收纳进耳机盒的高难度动作,并能连续丝滑完成多个耳机的收纳。此任务要求模型具备亚毫米级的空间感知精度,以应对耳机与槽位间极小的公差,同时能快速修正动作偏差,克服耳机盒表面最低Ra0.03μm粗糙度带来的位移挑战。该模型此前已在HuggingFace全球VLA模型下载榜位列第六。
IT之家 4 月 27 日消息,小米于今年 2 月对外发布并开源 VLA 模型 Xiaomi-Robotics-0,模型发布首月在 HuggingFace 全球 VLA 模型下载榜获第六名。
小米今日宣布,为了让其真正成为“开箱即用”的生产力利器,带来新的能力演示并正式发布 Xiaomi-Robotics-0 真机后训练(Post-training)全流程。
基于预训练基座,小米称仅利用 20 小时的任务数据进行真机后训练,便让 Xiaomi-Robotics-0 掌握了“将耳机收纳进耳机盒”这一高难度动作,并能够连续丝滑地完成多个耳机的收纳。
官方表示,该任务涉及两大核心挑战:
耳机与槽位间公差极小,模型必须达到亚毫米级的空间感知精度,才能完成精准对位。
耳机与盒体表面粗糙度最低至 Ra0.03μm,极易在触碰过程发生位移,模型必须能快速修正动作偏差,避免装配失败。
IT之家附相关链接如下:
技术官网:https://robotics.xiaomi.com
技术报告:https://arxiv.org/abs/2602.12684
项目网站:https://robotics.xiaomi.com/xiaomi-robotics-0.html
模型权重:https://huggingface.co/XiaomiRobotics