对抗性重新包装:仅修改呈现层即可欺骗AI同行评审
阅读原文· arxiv.org这篇论文戳破一个令人不安的真相:AI 审稿人可以被纯粹的文字包装欺骗,不碰证据就能大幅拉升评分。它把论文呈现本身变成了一枚可优化的攻击面,做学术出版与 AI 评估的人都要正视这个结构性缺陷。
研究提出对抗性重新包装攻击,在不改动科学证据(方法、实验、数据等)的前提下,仅修改摘要、贡献定位、相关工作、讨论和叙事结构等呈现层内容,并利用AI审稿人反馈进行闭环搜索。在三种主流AI审稿系统上,攻击成功率达75.1%,平均得分提高+1.21/10。策略中,相关工作重定位和分析性讨论扩展等结构性改动效果显著优于表面编辑。分析揭示两种失败模式:AI审稿人更易被亮点打动而非被说服,且会将“看起来解决了限制”与“实际解决”相混淆。研究发布了无污染滚动基准和攻击框架用于测试内容锚定性。
随着 AI 生成的评审意见从实验工具逐渐进入同行评审基础设施,大多数关于鲁棒性的担忧都集中在显式攻击上,例如隐藏指令和提示词注入。我们研究了一种更难且更具政策相关性的失效模式:没有隐藏文本、没有提示词注入,也没有对方法、实验、图表、公式、证明或数值结果进行任何更改。攻击者只修改呈现层面的内容,例如摘要、贡献定位、相关工作、讨论和叙事结构。我们提出了对抗性包装(adversarial repackaging):一种闭环攻击,它利用 AI 评审者的反馈来搜索呈现层面的修订,同时保持科学证据不变。在三个主流 AI 评审系统上,对抗性包装实现了 75.1% 的攻击成功率,平均得分提升为 +1.21/10。该效果无法用普通的行文润色来解释。我们还揭示出,改变评审者对论文解读方式的策略(例如调整相关工作的定位、扩展分析讨论)显著优于表面编辑(如局部润色、表格格式调整和算法框绘制)的效果。
我们的分析揭示了两种更深层次的结构性失效模式。首先,AI 评审者更容易被打动而不是被说服:强调长处能可靠地提升感知价值,而试图消除弱点的尝试常常适得其反。其次,AI 评审者可能混淆“看起来解决了某个局限”与“实际解决了该局限”,从而让未经改变的证据被重新解读为更强的科学贡献。这些结果表明,部署风险不仅来自恶意的隐藏指令,还来自论文呈现本身作为一个可优化的表面正在浮现。我们发布了一个无污染的滚动式基准测试和攻击框架,用于测试 AI 评审者在仅进行呈现层面编辑的情况下,是否仍能锚定于科学内容。