Jim Fan团队让8个机器人在真实世界自主研究,从安装GPU到发现物理扩展定律,这是具身智能第一次真正脱离人类监督探索物理任务,比任何虚拟环境的Agent实验都更接近AGI的物理锚点,做机器人的必须关注。
NVIDIA GEAR实验室推出ENPIRE系统,首次实现物理世界自主研究。系统让8个Codex智能体控制8台机器人,配备GPU和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障,支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结,防止智能体作弊。实时监测机器人利用率(MRU)、token利用率(MTU)和GPU利用率,以Tokens-to-Success和Time-to-Success评估效率。ENPIRE自主完成扎带、整理细针、安装GPU等高精度任务,发现8机器人并行探索显著更快。系统将开源。
我把 Physical AutoResearch 描述得听起来很简单(概念上),但它的实现需要一群人的努力,以及在机器人和 /loopcraft 上大量的设计思考。最困难的部分是在按下 Enter 之前我们需要准备的一切。下面是一个幕后之旅:
- 安全防护装置
让8台机器人整夜无人值守运行意味着安全不能仅仅停留在系统提示词中的一句提醒。ENPIRE 将其通过两层硬编码实现:(1) 硬运动学限制,一旦机器人离开其安全包络,立即触发任务失败并自动复位; (2) 扭矩受限的柔性夹爪,使得不良接触或未对准的插入以安全停顿结束,而不会压坏机器人或手中的物体。
我们让安全措施比平时更保守,这样人类可以安心睡觉。实际上,我们仍然需要几名人类操作员来照看这些“充满爱与优雅的机器人”。
- /done 的定义
一个能够编辑自身奖励的智能体肯定会钻空子。ENPIRE 在机器人群移动之前就固定了目标。具体做法如下:
收集几分钟的成功与失败演示 -> 要求智能体使用计算机视觉工具编写代码来分类成功与否,并与真实数据进行比较 -> 智能体在分类器上进行爬山优化,直到达到可靠的良好性能 -> 该分类器成为实时奖励函数,直接对传感器数据流进行计算 -> 在 AutoResearch 之前*冻结*奖励函数。它是神圣的,供奉在一个任何人都无法触碰的 Gym 环境中。
- 系统遥测设计
机器人秒数是迄今为止最稀缺的资源,其次是 GPU 秒数,最后是模型 token。我们对三者进行测量,并将它们呈现给 ENPIRE 以实现实时资源感知,而不是让它在真空中进行爬山优化。
我们定义: - 平均机器人利用率("MRU"):机器人实际执行实验的时间占总挂钟时间的比例。否则硬件处于空闲状态,等待下一次代码提交。 - 平均 Token 利用率("MTU"):每分钟消耗的模型 token,是我们衡量智能体实际思考努力程度的代理指标。低 MTU 意味着智能体停滞不前,正在等待机器人执行完成而不是在进行研究。 - GPU 利用率:GPU 活跃时间占总挂钟时间的比例。
我们还评估两个预算到结果的度量:
- Token 到成功:机器人群完成 /goal 所消耗的 token 预算。 2. 时间到成功:达到 /goal 所花费的挂钟时间。
今天,我们在物理世界中首次实现了 AutoResearch!介绍 ENPIRE:我们给 8 个 Codex 智能体配备了一支机器人舰队、一批 GPU 分配和慷慨的模型 token 预算。我们让它们自由行动,目标很简单:尽可能快地完成任务,让机器人保持忙碌但安全,不浪费宝贵的算力。没有误解。
然后人类退后,我们的监控开始。机器人舰队开始活起来:它们学会寻找视觉线索、重置场景、练习新技能、调整控制栈、在线阅读论文、辩论、反思、卡住、然后在硬件上直接再试。我们所做的只是给 Codex 一个通往原子世界的 API,剩下的一切都是涌现。
ENPIRE 能够自行完成高精度任务,例如扎线带、整理细针和安装 GPU。我们还发现了一种新型的“物理规模缩放”:8 个机器人并行探索比更少的机器人显著更快。
我们 NVIDIA GEAR 实验室的一部分现在可以彻夜不知疲倦地自我改进。我们早上只需阅读报告。
/目标:我们都去度假,Jensen 甚至不会注意到 ;)
我们将开源一切,这样你也可以在自己的家里托管一个自行运行的机器人实验室!详情见帖子: