SkillHone:基于持久决策历史的持续智能体技能演进工具
阅读原文· arxiv.orgSkillHone 把 agent 技能进化从一次性优化变成了持续记录的迭代过程,在 GAIA 上超越商业 agent 15.8 个点,做 agent 产品的团队该认真读一下。
SkillHone 通过持久决策历史将技能修订与评估证据配对,记录诊断、修订、证据和结果。角色分离的子智能体在实践探测上运行候选技能,并基于先前决策提出修订,实现跨会话改进。在深度研究基准上,SkillHone 无需预集成搜索栈,在 GAIA 上超越商业深度研究智能体 15.8 分,在 WebWalkerQA-EN 上超越 3.2 分,同时优于先前技能进化方法。内部工具中介分析场景中,平均准确率提升 18.8 分。
智能体技能为大语言模型智能体扩展了任务特定的程序、脚本和参考,但它们所针对的任务和环境不断变化。现有方法在有限的运行中改进技能,仅保留最终产物,丢弃了后续智能体在解释先前修订、评估和被否决方案时所需的决策历史。我们提出 SkillHone,一个基于持久化决策历史的持续智能体技能演化框架。SkillHone 将技能修订与提供实践反馈的评估侧证据配对,记录诊断、修订、证据和结果的结构化历史。角色分离的子智能体在实践探测器上运行候选技能,并进行脱敏报告,依据先前的决策提出修订建议,从而无需重新发现过往原理即可实现跨会话的优化。在深度研究基准测试中,SkillHone 无需预先集成的搜索堆栈即可运行,在 GAIA 上比商业支持的深度研究智能体高出 15.8 个百分点,在 WebWalkerQA-EN 上高出 3.2 个百分点,同时超越了先前的技能演化方法。我们进一步在内部工具中介的分析场景中部署 SkillHone,其在七个设置中平均提升了 18.8 个百分点的准确率。