# SkillHone：基于持久决策历史的持续智能体技能演进工具

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-06-23 08:00
- AIHOT 分数：71
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmr1xmqp502z3sl8zwvwyot53
- 原文链接：https://arxiv.org/abs/2606.08671

## 精选理由

SkillHone 把 agent 技能进化从一次性优化变成了持续记录的迭代过程，在 GAIA 上超越商业 agent 15.8 个点，做 agent 产品的团队该认真读一下。

## AI 摘要

SkillHone 通过持久决策历史将技能修订与评估证据配对，记录诊断、修订、证据和结果。角色分离的子智能体在实践探测上运行候选技能，并基于先前决策提出修订，实现跨会话改进。在深度研究基准上，SkillHone 无需预集成搜索栈，在 GAIA 上超越商业深度研究智能体 15.8 分，在 WebWalkerQA-EN 上超越 3.2 分，同时优于先前技能进化方法。内部工具中介分析场景中，平均准确率提升 18.8 分。

## 正文

智能体技能为大语言模型智能体扩展了任务特定的程序、脚本和参考，但它们所针对的任务和环境不断变化。现有方法在有限的运行中改进技能，仅保留最终产物，丢弃了后续智能体在解释先前修订、评估和被否决方案时所需的决策历史。我们提出 SkillHone，一个基于持久化决策历史的持续智能体技能演化框架。SkillHone 将技能修订与提供实践反馈的评估侧证据配对，记录诊断、修订、证据和结果的结构化历史。角色分离的子智能体在实践探测器上运行候选技能，并进行脱敏报告，依据先前的决策提出修订建议，从而无需重新发现过往原理即可实现跨会话的优化。在深度研究基准测试中，SkillHone 无需预先集成的搜索堆栈即可运行，在 GAIA 上比商业支持的深度研究智能体高出 15.8 个百分点，在 WebWalkerQA-EN 上高出 3.2 个百分点，同时超越了先前的技能演化方法。我们进一步在内部工具中介的分析场景中部署 SkillHone，其在七个设置中平均提升了 18.8 个百分点的准确率。