# 基于策略内知识边界增强的智能体强化学习

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-05-26 08:00
- AIHOT 分数：70
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpnhwile0xr2sl01a0vvnder
- 原文链接：https://arxiv.org/abs/2605.26952

## 精选理由

让Agent学会「什么时候不用工具」是比单纯提高准确率更难的活，这篇用一个巧妙的双路径对比方法把这事做成了，直接降18%工具调用还涨点，做Agent的可以抄代码了。

## AI 摘要

本文研究智能体强化学习在训练工具使用大语言模型时出现的问题，即导致冗余工具调用增加和模糊模型知识边界。现有基于奖励塑造的方法会引发奖励黑客问题。为此，提出AKBE方法，通过双路径（使用工具与不使用工具）滚动动态探测模型知识边界，定义是否需要工具及最少工具调用次数，并通过比较正确性构建监督信号以引导高效工具使用。在七个问答基准测试中，AKBE将任务准确率平均提升1.85，减少18%工具调用，工具生产力提高25%，且无准确率-效率权衡。

## 正文

基于智能体的强化学习（Agentic RL）已被证明能有效训练具备外部工具调用能力的大语言模型智能体。然而，我们识别出智能体强化学习训练会导致冗余工具调用不断增加，并模糊模型的内在知识边界——即模型无法区分何时需要调用工具，何时仅凭参数化知识就已足够。现有基于奖励塑形（reward shaping）的解决方案所构建的粗粒度优化目标，往往会激励不加区分地抑制工具调用，从而导致奖励破解（reward hacking）。在本文中，我们提出AKBE（Agentic Knowledge Boundary Enhancement，智能体知识边界增强），这是一种在轨策略（on-policy）方法，通过在训练过程中进行双路径（带工具与不带工具）的 rollout 来动态探测模型的内在知识边界。我们将知识边界定义为：针对每个实例，判断是否需要工具，以及所需的最少工具调用次数。通过比较不同路径的正确性，AKBE 对轨迹进行分类，并为每个问题构建有针对性的监督信号，从而引导高效的工具调用模式。这些信号被无缝集成到智能体强化学习训练循环中。在七个问答基准上的实验表明，与标准智能体强化学习相比，AKBE 平均任务准确率提升 +1.85，工具调用次数减少 18%，工具效率提升 25%，且未牺牲任何准确率或效率。进一步分析表明，该方法在不同强化学习算法间具有即插即用的兼容性，并揭示了各信号类别的作用机制。我们的代码已开源，地址为 https://github.com/CuSO4-Chen/AKBE。
