SAE干预不可靠:干预后抑制行为的恢复
阅读原文· arxiv.org这篇论文给 SAE 防御泼了冷水,恢复率高达 95.8%,让我觉得仅靠钳制特征来控制模型行为很不靠谱,安全社区需要重新审视干预路径。
稀疏自编码器(SAE)将残差流激活分解为可解释特征,但干预特定特征后,通过优化残差扰动可恢复原有行为。研究发现这是一种可恢复失败模式:干预阻断一条可见行为路径,却未消除行为本身。即使干预在整个优化和生成期间保持激活,恢复依然可行。在TPP、遗忘、IOI和拒绝引导场景中均观察到可恢复行为。安全关键的拒绝引导场景下有效样本恢复率达95.8%,被防御特征的相对漂移仅0.131。归因分析将恢复路径定位到SAE重建残差,表明控制SAE特征并不能保证控制底层行为。
稀疏自编码器(SAEs)将残差流激活分解为可解释的特征。最近基于潜在空间的防御方法越来越依赖这种分解,认为识别出的“不安全”SAE特征可以作为监控和干预的可操作手柄。在这种范式下,钳制某个特定有害特征预期能可靠地阻止模型的不当行为。然而,我们表明这种成功可能隐藏着一种可恢复的失效模式:钳制可能阻断了通向某一行为的一条显性路径,却并未消除该行为本身。我们将这一脆弱性形式化为干预后恢复(post-intervention recovery),这是一个约束残差空间的优化问题。我们从干预后的残差状态出发,优化残差扰动以恢复干预前的行为,同时保持目标SAE特征在干预后的数值。即使在强威胁模型(干预在整个优化和生成过程中保持激活)下,恢复仍然是可能的。为了排除恢复只是简单地撤销干预,我们在单层干预中使用编码器正交更新,在跨层设置中使用相应的特征映射雅可比矩阵。在TPP、遗忘学习(unlearning)、IOI和拒绝导向(refusal steering)的实验中,这种压力测试揭示了尽管特征层面的干预成功,行为仍然可以恢复。尤其是在安全关键的拒绝导向设置中,我们在有效样本上实现了95.8%的恢复率,同时将被防御特征相对漂移控制在0.131,远低于基于后缀的基线。一个恢复路径归因分析进一步将这种恢复定位到SAE重建残差,即SAE未解释的分量。这些结果暴露了特征层面控制与行为完整性之间的差距:SAE特征可以支持因果干预,但控制它们并不能保证控制底层行为。