基于策略内知识边界增强的智能体强化学习
阅读原文· arxiv.org让Agent学会「什么时候不用工具」是比单纯提高准确率更难的活,这篇用一个巧妙的双路径对比方法把这事做成了,直接降18%工具调用还涨点,做Agent的可以抄代码了。
本文研究智能体强化学习在训练工具使用大语言模型时出现的问题,即导致冗余工具调用增加和模糊模型知识边界。现有基于奖励塑造的方法会引发奖励黑客问题。为此,提出AKBE方法,通过双路径(使用工具与不使用工具)滚动动态探测模型知识边界,定义是否需要工具及最少工具调用次数,并通过比较正确性构建监督信号以引导高效工具使用。在七个问答基准测试中,AKBE将任务准确率平均提升1.85,减少18%工具调用,工具生产力提高25%,且无准确率-效率权衡。
基于智能体的强化学习(Agentic RL)已被证明能有效训练具备外部工具调用能力的大语言模型智能体。然而,我们识别出智能体强化学习训练会导致冗余工具调用不断增加,并模糊模型的内在知识边界——即模型无法区分何时需要调用工具,何时仅凭参数化知识就已足够。现有基于奖励塑形(reward shaping)的解决方案所构建的粗粒度优化目标,往往会激励不加区分地抑制工具调用,从而导致奖励破解(reward hacking)。在本文中,我们提出AKBE(Agentic Knowledge Boundary Enhancement,智能体知识边界增强),这是一种在轨策略(on-policy)方法,通过在训练过程中进行双路径(带工具与不带工具)的 rollout 来动态探测模型的内在知识边界。我们将知识边界定义为:针对每个实例,判断是否需要工具,以及所需的最少工具调用次数。通过比较不同路径的正确性,AKBE 对轨迹进行分类,并为每个问题构建有针对性的监督信号,从而引导高效的工具调用模式。这些信号被无缝集成到智能体强化学习训练循环中。在七个问答基准上的实验表明,与标准智能体强化学习相比,AKBE 平均任务准确率提升 +1.85,工具调用次数减少 18%,工具效率提升 25%,且未牺牲任何准确率或效率。进一步分析表明,该方法在不同强化学习算法间具有即插即用的兼容性,并揭示了各信号类别的作用机制。我们的代码已开源,地址为 https://github.com/CuSO4-Chen/AKBE。