NVIDIA Jim Fan 开源 CaP-X,让 Vibe Agent 真正进入物理世界操作机器人
CaP-X开源具身智能系统,让大模型智能体通过机械臂与人形机器人进入物理世界。系统整合SAM3、Molmo等感知API与IK求解器、抓取规划等控制接口,可自动合成技能库。研究发布CaP-Gym基准(187项操作任务)与CaP-Bench(评测12个前沿模型),提出零样本框架CaP-Agent0及强化学习方案CaP-RL,后者仅用50次迭代即将7B模型成功率从20%提升至72%。该技术由曾开发Minecraft智能体Voyager的团队推出。
爪子的力量,尽在机器手掌心。智能体机器人时代来了!今天,我们开源 CaP-X:拥有“氛围感”的智能体,在物理世界中活了过来。它们化身机器臂和人形机器人,配备丰富的感知 API、执行 API,并能随着运行自动合成技能库。CaP-X 是我们老技术栈的严格超集,因为像 VLA 这样的策略也只是“调用 API”而已。它在零样本下就能解决许多学习型策略难以应对的任务。
而我们做的远不止“氛围感”。CaP-X 是我们迄今为止在智能体机器人学方面最系统、最科学的研究:
- 我们构建了一套全面的智能体工具包:感知(SAM3 分割、Molmo 指物、深度、点云)、控制(逆运动学求解器、抓取规划器、导航)以及可视化(末端执行器、遮罩覆盖),这些工具可在不同机器人上通用。 - CaP-Gym:大语言模型的首次“物理考试”!涵盖 RoboSuite、LIBERO-PRO 和 BEHAVIOR 中的 187 项操作任务。包括桌面操作、双臂操作、移动操作。模拟环境与真实世界皆可。期待看到从 CaP-Gym 流向下一代前沿大语言模型发布的梯度。 - CaP-Bench:我们横跨 8 个评估层级,对 12 个前沿大语言模型 / 视觉语言模型(Gemini、GPT、Opus、Qwen、DeepSeek、Kimi 等)进行了基准测试。我们系统性地变化了 API 抽象层级、智能体框架和视觉定位方法。论文中有大量洞见。 - CaP-Agent0:一个免训练的智能体框架,在 7 项任务中有 4 项达到或超越人类专家代码的水平,且无需针对任务进行专门调优。 - CaP-RL:有了 gym,自然就有 RL;)一个 70 亿参数的开源模型仅经过 50 次训练迭代,成功率就从 20% 跃升至 72%。合成的程序可以直接迁移到真实机器人上,模拟到现实的差距极小。
三年前,我们的团队创造了 Voyager,这是最早一批能在《我的世界》中持续游玩和学习的智能体 AI 之一。其关键思想——技能库、自我反思循环和上下文内规划——此后影响了许多现代智能体设计。
今天,这个智能体从《我的世界》毕业,找到了真正的工作。今天是愚人节,但这只爪子真的开始干脏活了!
链接在帖子中: