CopT:基于连续空间对比验证的在策略推理
阅读原文· arxiv.orgCopT把推理流程反了过来,先草稿答案再自我反思,用连续嵌入对比验证可靠性,在数学/编码/Agent任务上提点23%省token57%,思路可能改写推理范式。
CopT提出了一种反转传统链式思考(CoT)顺序的推理框架:先生成草稿答案,再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器,通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度,构建序列级反向KL估计器,以此评估答案的可靠性。当答案不可靠时,CopT会执行进一步思考,并利用第二个KL估计器动态控制草稿答案的可见性,在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下,该方法在数学、编程等任务上显著提升了准确率(最高达23%)并大幅减少了令牌消耗(高达57%)。
思维链(Chain-of-thought,CoT)是激发大语言模型(LLMs)推理能力的一种标准方法。然而,常见的 CoT 范式将思考视为回答的前提,这会延迟对合理答案的获取,并在模型能够在扩展思考之前就识别出答案时产生不必要的 token 开销——这种行为被称为表演式推理(performative reasoning)。
在本文中,我们提出 CopT,这是一种重新设计的推理流程,它颠覆了思考与回答的常规顺序。CopT 不再先思考后回答,而是先引出一个初步答案,然后以该初步答案为条件,调用后续的在线策略思考(on-policy thinking)进行反思和修正。
为了评估初步答案是否值得信赖,CopT 将连续的嵌入向量重新用作推理时的对比验证器。具体来说,它将模型对同一生成 token 在离散 token 输入和连续嵌入输入下的支持程度进行对比,从而得到一个序列级别的反向 KL 估计值,用于衡量答案的可靠性。
我们的分析表明,在特定假设下,该估计值的期望等于未解析的隐状态与所发射答案 token 之间的互信息,这解释了为什么它捕捉的是与答案相关的不确定性,而非隐状态中的任意不确定性。
当答案被认为可靠性不足时,CopT 会执行进一步的在线策略思考,此时第二个 KL 估计器会动态控制初步答案的可见性,在保留有用部分信息的同时,降低被不可靠内容误导的风险。
在数学、编码和智能体推理任务中,CopT 将峰值准确率提升了高达 23%,并在相似或更高准确率下将 token 使用量降低了高达 57%,且无需任何额外训练。代码可在 https://github.com/sdc17/CopT 获取。