RHO：利用过往轨迹优化LLM智能体工具链的自监督方法

2026-06-04 17:26·28天前

精选理由

不靠人工标注就能让 Agent 自我提升，单轮直接把 SWE-Bench Pro 通过率从 59% 拉到 78%，做自主 Agent 优化的同学应该仔细读一下。

AI 摘要

Retrospective Harness Optimization (RHO) 是一种自监督方法，仅利用过往轨迹优化LLM智能体的工具链（技能、工具和工作流程集合）。RHO从历史任务中选取多样化的困难任务核心集，并行重新执行；智能体通过自我验证和自我一致性分析回放，生成候选工具链更新，并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中，单轮优化将SWE-Bench Pro通过率从59%提升至78%，无需外部评分。分析表明RHO有效针对先前失败模式，优化后的工具链改变智能体行为模式，在长周期会话中维持更高准确率。

AI 翻译 · 中文

AI 智能体依赖技能、工具和工作流所构成的"装备组"来解决复杂问题。持续改进这一装备组对于适应新任务至关重要。

然而，现有的优化方法通常需要真实标注的验证集，但在实际部署场景中很难获取这类带标签的数据。

为了解决这一问题，我们引入了回顾式装备组优化（Retrospective Harness Optimization, RHO），这是一种自监督方法，仅利用过去的轨迹来优化智能体的装备组。

具体来说，RHO 从过去的轨迹中选取一个多样化的、具有挑战性的核心任务集，并并行地重新求解它们。

智能体通过自验证和自一致性来分析这些 rollout，然后生成候选的装备组更新，并通过自身的成对自偏好机制选出最有效的更新。

我们在三个不同领域（涵盖软件工程、技术工作和知识工作）上评估了 RHO。

值得注意的是，仅经过一轮优化，在 SWE-Bench Pro 上的通过率就从 59% 提升到了 78%，且无需任何外部评分。

此外，我们的分析表明，RHO 能够有效针对之前的失败模式。

因此，优化后的装备组改变了智能体的行为模式，并在长周期会话中保持了更高的准确率。

HuggingFace Daily Papers（社区热门论文）

精选70导出 Markdown