RHO:利用过往轨迹优化LLM智能体工具链的自监督方法
阅读原文· arxiv.org不靠人工标注就能让 Agent 自我提升,单轮直接把 SWE-Bench Pro 通过率从 59% 拉到 78%,做自主 Agent 优化的同学应该仔细读一下。
Retrospective Harness Optimization (RHO) 是一种自监督方法,仅利用过往轨迹优化LLM智能体的工具链(技能、工具和工作流程集合)。RHO从历史任务中选取多样化的困难任务核心集,并行重新执行;智能体通过自我验证和自我一致性分析回放,生成候选工具链更新,并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中,单轮优化将SWE-Bench Pro通过率从59%提升至78%,无需外部评分。分析表明RHO有效针对先前失败模式,优化后的工具链改变智能体行为模式,在长周期会话中维持更高准确率。
AI 智能体依赖技能、工具和工作流所构成的"装备组"来解决复杂问题。持续改进这一装备组对于适应新任务至关重要。
然而,现有的优化方法通常需要真实标注的验证集,但在实际部署场景中很难获取这类带标签的数据。
为了解决这一问题,我们引入了回顾式装备组优化(Retrospective Harness Optimization, RHO),这是一种自监督方法,仅利用过去的轨迹来优化智能体的装备组。
具体来说,RHO 从过去的轨迹中选取一个多样化的、具有挑战性的核心任务集,并并行地重新求解它们。
智能体通过自验证和自一致性来分析这些 rollout,然后生成候选的装备组更新,并通过自身的成对自偏好机制选出最有效的更新。
我们在三个不同领域(涵盖软件工程、技术工作和知识工作)上评估了 RHO。
值得注意的是,仅经过一轮优化,在 SWE-Bench Pro 上的通过率就从 59% 提升到了 78%,且无需任何外部评分。
此外,我们的分析表明,RHO 能够有效针对之前的失败模式。
因此,优化后的装备组改变了智能体的行为模式,并在长周期会话中保持了更高的准确率。