# SONIC：半个GPT-1规模的机器人全身控制模型

- 来源：Jim Fan (@DrJimFan)
- 发布时间：2026-02-25 01:34
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmo22oj0y0109slba6wj0c0mk
- 原文链接：https://x.com/DrJimFan/status/2026350142652383587

## 精选理由

42M小模型实现人形机器人全身控制，零样本迁移真实硬件且完全开源，开发者可复现

## AI 摘要

SONIC是一个4200万参数的Transformer模型（规模仅半个GPT-1），通过1亿+动作捕捉帧和50万+并行机器人在NVIDIA Isaac Lab中训练，以密集帧级监督替代手工奖励函数。训练3天后零样本迁移至真实G1机器人，在50种动作序列上达100%成功率。单一策略支持VR遥操作、视频动捕、文本指令、音乐响应及VLA模型控制。项目已完全开源。

## 正文

GPT-1 的一半能做到什么？我们训练了一个 42M 参数的 Transformer 架构模型，命名为 SONIC，用来控制人形机器人的身体。对于我们人类来说，下蹲、转身、爬行、冲刺需要极其大量的潜意识处理。SONIC 用一个单一模型捕捉了这种“系统 1”——即快速、反应式的全身智能——能够将任何运动指令转化为稳定、自然的运动信号。而且这一切都是开源的！！

关键洞察：运动跟踪是全身控制唯一真正可扩展的任务。我们不是为每一个新技能手工设计奖励函数，而是使用来自人类动捕数据的密集、逐帧监督。数据本身编码了奖励函数：“在保持平衡的同时，将你的肢体配置成任何像人的姿势”。

我们将人形机器人的运动强化学习扩展到前所未有的规模：超过 1 亿帧动捕数据和 50 万以上的并行机器人，运行在 128 块 GPU 上。NVIDIA Isaac Lab 使我们能够将物理模拟加速 10000 倍，让机器人在仅几小时的墙上时钟时间内获得多年的虚拟经验。经过 3 天的训练，神经网络零样本迁移到真实的 G1 机器人上，无需微调。在 50 种不同的真实世界运动序列中实现了 100% 的成功率。

一个 SONIC 策略支持以下所有功能：

- VR 全身遥操作 - 人体视频。只需用网络摄像头实时直播运动。 - 文本提示词。“侧向走路”“像猴子一样跳舞”“踢你的左脚”等。 - 音乐音频。机器人跟随节拍起舞，适应速度和节奏。 - VLA 基础模型。我们接入了 GR00T N1.5，在移动任务上实现了 95% 的成功率。

我们开源了代码和模型检查点！！详情见主题帖内。
