HumanScale:自我中心人类视频在具身预训练中可超越真实机器人数据
让机器人看人类干活视频,预训练效果居然比直接用真实机器人数据更好,这个反直觉发现可能彻底改变具身智能的数据策略,做机器人的值得认真读一读。
HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后,基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%,分布内任务成功率高52.5%,分布外任务成功率高90%。研究验证了一种可扩展范式:先以人类视频预训练学习多样世界表征,再以少量标注机器人数据微调对齐动作空间。
具身基础模型有望像大语言模型一样从数据规模扩展中受益,但面临更严重的数据瓶颈。远程操作的真实机器人轨迹由于其精确的动作监督和具身对齐,仍然是主要的预训练数据来源,但其可扩展性受到高采集成本、获取难度大以及行为和环境多样性低的限制。这些局限性引发了人们对以自我为中心的人类视频的兴趣,将其视为一种可扩展、成本显著更低且更多样化的具身模型预训练替代方案。然而,与远程操作的真实机器人数据相比,其有效性尚未得到充分探索。为了解决这个问题,我们进行了一项系统性研究,在固定的后训练和验证协议下,比较以自我为中心的人类视频和远程操作的真实机器人轨迹作为具身基础模型预训练数据源的效果。令人惊讶的是,我们发现,通过精心设计的过滤和标注流程处理后,自我中心数据不仅是模型预训练的可行替代品,而且还能带来更优的性能。在相同预训练数据量的情况下,使用自我中心数据预训练的模型在真实机器人动作预测上验证损失降低了 24%,在分布内和分布外真实机器人任务执行上的成功率分别提高了 52.5% 和 90%。这一发现验证了具身基础模型的一种可扩展范式:先使用以自我为中心的人类视频进行预训练以学习多样的世界表征,再通过少量标注的真实机器人数据进行动作空间对齐的适应。我们希望这项研究能够鼓励对自我中心数据的更广泛探索,并在昂贵的机器人数据采集之前为数据质量评估提供指导。