Jim Fan@DrJimFan

精选

2026-04-01 23:03·92天前

精选理由

NVIDIA Jim Fan 开源 CaP-X，让 Vibe Agent 真正进入物理世界操作机器人

AI 摘要

CaP-X开源具身智能系统，让大模型智能体通过机械臂与人形机器人进入物理世界。系统整合SAM3、Molmo等感知API与IK求解器、抓取规划等控制接口，可自动合成技能库。研究发布CaP-Gym基准（187项操作任务）与CaP-Bench（评测12个前沿模型），提出零样本框架CaP-Agent0及强化学习方案CaP-RL，后者仅用50次迭代即将7B模型成功率从20%提升至72%。该技术由曾开发Minecraft智能体Voyager的团队推出。

AI 翻译 · 中文

爪子的力量，尽在机器手掌心。智能体机器人时代来了！今天，我们开源 CaP-X：拥有“氛围感”的智能体，在物理世界中活了过来。它们化身机器臂和人形机器人，配备丰富的感知 API、执行 API，并能随着运行自动合成技能库。CaP-X 是我们老技术栈的严格超集，因为像 VLA 这样的策略也只是“调用 API”而已。它在零样本下就能解决许多学习型策略难以应对的任务。

而我们做的远不止“氛围感”。CaP-X 是我们迄今为止在智能体机器人学方面最系统、最科学的研究：

我们构建了一套全面的智能体工具包：感知（SAM3 分割、Molmo 指物、深度、点云）、控制（逆运动学求解器、抓取规划器、导航）以及可视化（末端执行器、遮罩覆盖），这些工具可在不同机器人上通用。 - CaP-Gym：大语言模型的首次“物理考试”！涵盖 RoboSuite、LIBERO-PRO 和 BEHAVIOR 中的 187 项操作任务。包括桌面操作、双臂操作、移动操作。模拟环境与真实世界皆可。期待看到从 CaP-Gym 流向下一代前沿大语言模型发布的梯度。 - CaP-Bench：我们横跨 8 个评估层级，对 12 个前沿大语言模型 / 视觉语言模型（Gemini、GPT、Opus、Qwen、DeepSeek、Kimi 等）进行了基准测试。我们系统性地变化了 API 抽象层级、智能体框架和视觉定位方法。论文中有大量洞见。 - CaP-Agent0：一个免训练的智能体框架，在 7 项任务中有 4 项达到或超越人类专家代码的水平，且无需针对任务进行专门调优。 - CaP-RL：有了 gym，自然就有 RL；）一个 70 亿参数的开源模型仅经过 50 次训练迭代，成功率就从 20% 跃升至 72%。合成的程序可以直接迁移到真实机器人上，模拟到现实的差距极小。

三年前，我们的团队创造了 Voyager，这是最早一批能在《我的世界》中持续游玩和学习的智能体 AI 之一。其关键思想——技能库、自我反思循环和上下文内规划——此后影响了许多现代智能体设计。

今天，这个智能体从《我的世界》毕业，找到了真正的工作。今天是愚人节，但这只爪子真的开始干脏活了！

链接在帖子中：

Jim Fan@DrJimFan · X

精选导出 Markdown