Jim Fan@DrJimFan

精选

2026-02-25 01:34·128天前

精选理由

42M小模型实现人形机器人全身控制，零样本迁移真实硬件且完全开源，开发者可复现

AI 摘要

SONIC是一个4200万参数的Transformer模型（规模仅半个GPT-1），通过1亿+动作捕捉帧和50万+并行机器人在NVIDIA Isaac Lab中训练，以密集帧级监督替代手工奖励函数。训练3天后零样本迁移至真实G1机器人，在50种动作序列上达100%成功率。单一策略支持VR遥操作、视频动捕、文本指令、音乐响应及VLA模型控制。项目已完全开源。

AI 翻译 · 中文

GPT-1 的一半能做到什么？我们训练了一个 42M 参数的 Transformer 架构模型，命名为 SONIC，用来控制人形机器人的身体。对于我们人类来说，下蹲、转身、爬行、冲刺需要极其大量的潜意识处理。SONIC 用一个单一模型捕捉了这种“系统 1”——即快速、反应式的全身智能——能够将任何运动指令转化为稳定、自然的运动信号。而且这一切都是开源的！！

关键洞察：运动跟踪是全身控制唯一真正可扩展的任务。我们不是为每一个新技能手工设计奖励函数，而是使用来自人类动捕数据的密集、逐帧监督。数据本身编码了奖励函数：“在保持平衡的同时，将你的肢体配置成任何像人的姿势”。

我们将人形机器人的运动强化学习扩展到前所未有的规模：超过 1 亿帧动捕数据和 50 万以上的并行机器人，运行在 128 块 GPU 上。NVIDIA Isaac Lab 使我们能够将物理模拟加速 10000 倍，让机器人在仅几小时的墙上时钟时间内获得多年的虚拟经验。经过 3 天的训练，神经网络零样本迁移到真实的 G1 机器人上，无需微调。在 50 种不同的真实世界运动序列中实现了 100% 的成功率。

一个 SONIC 策略支持以下所有功能：