SAE干预不可靠：干预后抑制行为的恢复

2026-06-16 08:00·16天前

精选理由

这篇论文给 SAE 防御泼了冷水，恢复率高达 95.8%，让我觉得仅靠钳制特征来控制模型行为很不靠谱，安全社区需要重新审视干预路径。

AI 摘要

稀疏自编码器（SAE）将残差流激活分解为可解释特征，但干预特定特征后，通过优化残差扰动可恢复原有行为。研究发现这是一种可恢复失败模式：干预阻断一条可见行为路径，却未消除行为本身。即使干预在整个优化和生成期间保持激活，恢复依然可行。在TPP、遗忘、IOI和拒绝引导场景中均观察到可恢复行为。安全关键的拒绝引导场景下有效样本恢复率达95.8%，被防御特征的相对漂移仅0.131。归因分析将恢复路径定位到SAE重建残差，表明控制SAE特征并不能保证控制底层行为。

AI 翻译 · 中文

稀疏自编码器（SAEs）将残差流激活分解为可解释的特征。最近基于潜在空间的防御方法越来越依赖这种分解，认为识别出的“不安全”SAE特征可以作为监控和干预的可操作手柄。在这种范式下，钳制某个特定有害特征预期能可靠地阻止模型的不当行为。然而，我们表明这种成功可能隐藏着一种可恢复的失效模式：钳制可能阻断了通向某一行为的一条显性路径，却并未消除该行为本身。我们将这一脆弱性形式化为干预后恢复（post-intervention recovery），这是一个约束残差空间的优化问题。我们从干预后的残差状态出发，优化残差扰动以恢复干预前的行为，同时保持目标SAE特征在干预后的数值。即使在强威胁模型（干预在整个优化和生成过程中保持激活）下，恢复仍然是可能的。为了排除恢复只是简单地撤销干预，我们在单层干预中使用编码器正交更新，在跨层设置中使用相应的特征映射雅可比矩阵。在TPP、遗忘学习（unlearning）、IOI和拒绝导向（refusal steering）的实验中，这种压力测试揭示了尽管特征层面的干预成功，行为仍然可以恢复。尤其是在安全关键的拒绝导向设置中，我们在有效样本上实现了95.8%的恢复率，同时将被防御特征相对漂移控制在0.131，远低于基于后缀的基线。一个恢复路径归因分析进一步将这种恢复定位到SAE重建残差，即SAE未解释的分量。这些结果暴露了特征层面控制与行为完整性之间的差距：SAE特征可以支持因果干预，但控制它们并不能保证控制底层行为。

HuggingFace Daily Papers（社区热门论文）

精选70导出 Markdown

SAE干预不可靠：干预后抑制行为的恢复

2026-06-16 08:00·16天前

阅读原文· arxiv.org

精选理由

这篇论文给 SAE 防御泼了冷水，恢复率高达 95.8%，让我觉得仅靠钳制特征来控制模型行为很不靠谱，安全社区需要重新审视干预路径。

AI 摘要

AI 翻译 · 中文

安全/对齐推理

阅读原文