ACTS:面向高效可控LLM推理的智能体链式思维引导
阅读原文· arxiv.orgACTS 把 LLM 推理过程变成可控制的 MDP,用预算感知的策略节省 token 同时保持精度,做推理加速的研究者应该试试他们开源的代码。
ACTS将推理引导建模为马尔可夫决策过程,控制器智能体在推理中自适应引导冻结的推理器。控制器每步观察推理轨迹与剩余预算,发出含推理策略和引导短语的动作,实现预算感知的推理控制。控制器通过合成轨迹初始化,并经强化学习优化。在多个基准上,ACTS以显著token节省匹配全思考性能,实现可控的精度-效率权衡。代码已开源。
大语言模型通过扩展的思维链推理提高了最终答案的准确性,但往往低效地消耗模型 token,并且几乎不提供推理时的控制能力。现有的高效推理方法通过缩短、提前停止或压缩推理轨迹来控制思考长度,从而使模型的思考方式保持隐式。在本文中,我们提出了智能体思维链引导(ACTS),它将推理引导形式化为一个马尔可夫决策过程,其中控制器智能体在推理过程中自适应地引导一个冻结的推理器。在每一步,控制器观察推理轨迹和剩余的思考预算,然后发出一个由推理策略和引导短语组成的引导动作,以启动推理器的下一步。这使得在保持推理器生成连续性的同时,能够实现预算感知的策略控制以实现高效推理。我们从构建的带有多种预算增强的合成引导轨迹中初始化控制器智能体,并通过带有预算条件奖励塑形的强化学习进一步优化它。跨多个基准的实验表明,ACTS在显著节省 token 的同时达到了与完整思考相当的性能,并且在不同推理器和任务上实现了可控的准确率-效率权衡。代码可在 https://github.com/Andree-9/ACTS 获取。