RL微调VLM的鲁棒性与思维链一致性研究
阅读原文· machinelearning.apple.comRL微调让VLM基准分变好看,却可能让它的推理链变得靠不住,这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。
强化学习(RL)微调被扩展至视觉语言模型(VLM)。研究发现,简单的文本扰动——误导性标题或错误思维链(CoT)——会显著降低模型鲁棒性和置信度,且开源模型衰退更明显。闭源模型呈现类似失败模式,但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡:微调提升基准准确率,但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性;对抗性增强可改善鲁棒性,却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐,但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。
关于RL微调视觉语言模型的鲁棒性与思维链一致性
作者:Rosie Zhao†**、Anshul Shah、Xiaoyu Zhu、Xinke Deng、Zhongyu Jiang、Yang Yang‡**、Joerg Liebelt、Arnab Mondal
查看论文
强化学习(RL)微调已成为在推理密集型任务中增强大语言模型(LLM)的关键技术,并因此被推广至视觉语言模型(VLM)。虽然经过RL调优的VLM在视觉推理基准上有所提升,但它们仍然容易受到弱视觉锚定、模型幻觉以及对文本线索过度依赖的影响。我们证明,简单且受控的文本扰动——即误导性的字幕或不正确的思维链(CoT)轨迹——会导致鲁棒性和置信度大幅下降,而且当考虑CoT一致性时,这些影响在开源多模态推理模型中更为显著。相比之下,闭源模型虽然表现出类似的失败模式,但其鲁棒性和推理一致性明显更强,这表明当前开源的RL微调存在缺陷,而非任务本身的固有局限。为了更深入地理解这些脆弱性,我们进一步分析了RL微调动态,并发现了准确性-忠实性之间的权衡:微调提高了基准准确率,但同时可能侵蚀伴随CoT的可靠性及其对上下文变化的鲁棒性。尽管对抗性增强提高了鲁棒性,但它本身无法防止忠实性漂移。引入忠实性感知的奖励可以恢复答案与推理之间的对齐,但当与增强结合时,训练可能会陷入捷径策略,鲁棒性仍然难以实现。这些发现共同凸显了仅以准确率评估的局限性,并推动建立同时强调正确性、鲁棒性以及视觉锚定推理忠实性的训练与评估协议。
- † 哈佛大学
- ‡ OpenAI
- ** 工作期间在苹果公司完成
相关阅读与更新
CoT推理的潜力:对轨迹动态的深入探究
2026年2月24日 研究领域:方法与算法,研究领域:语音与自然语言处理 会议:ICLR
思维链(CoT)提示是一种事实上的标准技术,用于激发大语言模型(LLM)产生类似推理的响应,让它们在给出最终答案之前逐步列出各个步骤。虽然这与人类推理的相似性不可否认,但支撑CoT推理成功的驱动力在很大程度上仍不清楚。在这项工作中,我们对源自…
改进视觉语言模型的思维链推理
2025年6月5日 研究领域:计算机视觉,研究领域:语音与自然语言处理 会议:ACL
视觉语言模型(VLM)中的思维链(CoT)推理对于提高可解释性和可信度至关重要。然而,当前的训练方案通常依赖于以简短注释为主、缺乏详细推理过程的数据集。在这项工作中,我们展示了在简短答案上训练VLM会导致在需要更详细解释的推理任务上泛化能力差。为了解决这一局限性,我们提出了一种两阶段…

发现机器学习领域的机遇。
我们在机器学习领域的研究每天都在取得新突破。
加入我们。