人类视频学习呈现完美缩放定律,机器人仅需单演示即可掌握新技能,具身智能迎来数据革命
研究团队提出EgoScale方法,基于20,000小时第一人称人类视频预训练GR00T N1.5,仅用4小时机器人数据即可掌握组装模型车、操作注射器等高灵巧度任务,性能较从头训练提升54%。研究发现人类视频量与动作预测损失呈对数线性缩放关系(R²=0.998)。该方法利用22-DoF手部与人类的运动学相似性,无需复杂迁移算法即可重定向动作。策略可跨硬件迁移至Unitree G1(7-DoF),性能提升30%以上,且仅需单个示教即可学习新任务。
我们训练了一款拥有22自由度灵巧手的人形机器人,使其能够组装模型车、操作注射器、整理扑克牌、折叠/卷起衬衫——所有这些技能主要通过累计超过2万小时的第一人称人类视频学习,过程中没有任何机器人介入。
人类是地球上最具可扩展性的具身形态。我们发现人类视频数据量与动作预测损失之间存在着近乎完美的对数线性缩放规律(R² = 0.998),并且该损失能直接预测真实机器人的成功率。
人形机器人将是最终形态,因为它是与人类具身差距最小的实用外形。不妨称之为机器人硬件的“苦涩教训”:运动学上的相似性让我们能够简单地将人类手指运动重新映射到灵巧机器人手关节上——无需学习嵌入向量,无需花哨的迁移算法。相对腕部运动加上重新映射后的22自由度手指动作,构成了一个从预训练到机器人执行整个流程中统一的动作空间。
我们的方案名为“EgoScale”:
- 在2万小时人类视频上预训练GR00T N1.5,中间只利用4小时(!)配备Sharpa手的机器人操作数据进行训练。在5项高灵巧度任务上,相比从零训练取得了54%的提升。 - 最令人惊讶的结果是:仅需*一次*遥操作演示就能学会一项从未见过的任务。我们的方案实现了极致的数据效率。 - 尽管我们在22自由度手关节空间进行预训练,该策略仍能迁移至配备7自由度三指手的Unitree G1机器人。相比仅用G1数据训练,性能提升了30%以上。
通往机器人灵巧性的可扩展路径从来不是更多机器人。它始终是我们自己。
详细内容见推文线程。