RL微调VLM的鲁棒性与思维链一致性研究

2026-07-02 08:00·19小时前

精选理由

RL微调让VLM基准分变好看，却可能让它的推理链变得靠不住，这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。

AI 摘要

强化学习（RL）微调被扩展至视觉语言模型（VLM）。研究发现，简单的文本扰动——误导性标题或错误思维链（CoT）——会显著降低模型鲁棒性和置信度，且开源模型衰退更明显。闭源模型呈现类似失败模式，但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡：微调提升基准准确率，但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性；对抗性增强可改善鲁棒性，却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐，但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

AI 翻译 · 中文

研究领域计算机视觉，研究领域语音与自然语言处理，会议 ICML

内容类型论文，发表于 2026年7月

关于RL微调视觉语言模型的鲁棒性与思维链一致性

作者：Rosie Zhao†**、Anshul Shah、Xiaoyu Zhu、Xinke Deng、Zhongyu Jiang、Yang Yang‡**、Joerg Liebelt、Arnab Mondal

查看论文

强化学习（RL）微调已成为在推理密集型任务中增强大语言模型（LLM）的关键技术，并因此被推广至视觉语言模型（VLM）。虽然经过RL调优的VLM在视觉推理基准上有所提升，但它们仍然容易受到弱视觉锚定、模型幻觉以及对文本线索过度依赖的影响。我们证明，简单且受控的文本扰动——即误导性的字幕或不正确的思维链（CoT）轨迹——会导致鲁棒性和置信度大幅下降，而且当考虑CoT一致性时，这些影响在开源多模态推理模型中更为显著。相比之下，闭源模型虽然表现出类似的失败模式，但其鲁棒性和推理一致性明显更强，这表明当前开源的RL微调存在缺陷，而非任务本身的固有局限。为了更深入地理解这些脆弱性，我们进一步分析了RL微调动态，并发现了准确性-忠实性之间的权衡：微调提高了基准准确率，但同时可能侵蚀伴随CoT的可靠性及其对上下文变化的鲁棒性。尽管对抗性增强提高了鲁棒性，但它本身无法防止忠实性漂移。引入忠实性感知的奖励可以恢复答案与推理之间的对齐，但当与增强结合时，训练可能会陷入捷径策略，鲁棒性仍然难以实现。这些发现共同凸显了仅以准确率评估的局限性，并推动建立同时强调正确性、鲁棒性以及视觉锚定推理忠实性的训练与评估协议。

† 哈佛大学
‡ OpenAI
** 工作期间在苹果公司完成

相关阅读与更新

CoT推理的潜力：对轨迹动态的深入探究

2026年2月24日研究领域：方法与算法，研究领域：语音与自然语言处理会议：ICLR

思维链（CoT）提示是一种事实上的标准技术，用于激发大语言模型（LLM）产生类似推理的响应，让它们在给出最终答案之前逐步列出各个步骤。虽然这与人类推理的相似性不可否认，但支撑CoT推理成功的驱动力在很大程度上仍不清楚。在这项工作中，我们对源自…

改进视觉语言模型的思维链推理

2025年6月5日研究领域：计算机视觉，研究领域：语音与自然语言处理会议：ACL

视觉语言模型（VLM）中的思维链（CoT）推理对于提高可解释性和可信度至关重要。然而，当前的训练方案通常依赖于以简短注释为主、缺乏详细推理过程的数据集。在这项工作中，我们展示了在简短答案上训练VLM会导致在需要更详细解释的推理任务上泛化能力差。为了解决这一局限性，我们提出了一种两阶段…

发现机器学习领域的机遇。

我们在机器学习领域的研究每天都在取得新突破。

加入我们。

Apple Machine Learning Research（RSS）

精选62导出 Markdown