42M小模型实现人形机器人全身控制,零样本迁移真实硬件且完全开源,开发者可复现
SONIC是一个4200万参数的Transformer模型(规模仅半个GPT-1),通过1亿+动作捕捉帧和50万+并行机器人在NVIDIA Isaac Lab中训练,以密集帧级监督替代手工奖励函数。训练3天后零样本迁移至真实G1机器人,在50种动作序列上达100%成功率。单一策略支持VR遥操作、视频动捕、文本指令、音乐响应及VLA模型控制。项目已完全开源。
GPT-1 的一半能做到什么?我们训练了一个 42M 参数的 Transformer 架构模型,命名为 SONIC,用来控制人形机器人的身体。对于我们人类来说,下蹲、转身、爬行、冲刺需要极其大量的潜意识处理。SONIC 用一个单一模型捕捉了这种“系统 1”——即快速、反应式的全身智能——能够将任何运动指令转化为稳定、自然的运动信号。而且这一切都是开源的!!
关键洞察:运动跟踪是全身控制唯一真正可扩展的任务。我们不是为每一个新技能手工设计奖励函数,而是使用来自人类动捕数据的密集、逐帧监督。数据本身编码了奖励函数:“在保持平衡的同时,将你的肢体配置成任何像人的姿势”。
我们将人形机器人的运动强化学习扩展到前所未有的规模:超过 1 亿帧动捕数据和 50 万以上的并行机器人,运行在 128 块 GPU 上。NVIDIA Isaac Lab 使我们能够将物理模拟加速 10000 倍,让机器人在仅几小时的墙上时钟时间内获得多年的虚拟经验。经过 3 天的训练,神经网络零样本迁移到真实的 G1 机器人上,无需微调。在 50 种不同的真实世界运动序列中实现了 100% 的成功率。
一个 SONIC 策略支持以下所有功能:
- VR 全身遥操作 - 人体视频。只需用网络摄像头实时直播运动。 - 文本提示词。“侧向走路”“像猴子一样跳舞”“踢你的左脚”等。 - 音乐音频。机器人跟随节拍起舞,适应速度和节奏。 - VLA 基础模型。我们接入了 GR00T N1.5,在移动任务上实现了 95% 的成功率。
我们开源了代码和模型检查点!!详情见主题帖内。