# Scaling Monosemanticity： 从 Claude 3 Sonnet 中提取可解释特征

- 来源：Anthropic：Transformer Circuits（可解释性研究）
- 发布时间：2024-05-21 00:00
- AIHOT 分数：83
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmoegbh73006zslxxcdcnyqga
- 原文链接：https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

## 精选理由

揭示大模型内部可解释特征，对AI安全研究和模型调试有重要参考价值。

## AI 摘要

研究团队成功将稀疏自编码器方法扩展至 Claude 3 Sonnet 模型，从中提取出高质量、可解释的抽象特征。这些特征具有多语言、多模态特性，并能连接同一概念的抽象与具体实例，例如识别代码中的安全漏洞以及关于漏洞的抽象讨论。研究发现的特征涵盖名人、城市、代码类型签名等多个领域，其中部分特征与AI安全高度相关，涉及代码后门、偏见、欺骗、权力寻求及危险内容等潜在风险。研究通过缩放定律指导稀疏自编码器训练，证实了该方法在大规模生产模型上的可行性，为理解大模型内部表征提供了新工具。

## 正文

扩展单义性：从 Claude 3 Sonnet 中提取可解释特征

Transformer Circuits 系列

作者

Adly Templeton, Tom Conerly, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte MacDiarmid, Alex Tamkin, Esin Durmus, Tristan Hume, Francesco Mosconi, C. Daniel Freeman, Theodore R. Sumers, Edward Rees, Joshua Batson, Adam Jermyn, Shan Carter, Chris Olah, Tom Henighan

机构

Anthropic

发布时间

2024年5月21日

核心贡献者；通讯请发至 henighan@anthropic.com；作者贡献声明见文末。

八个月前，我们证明了稀疏自编码器可以从一个单层小型 Transformer 中恢复单义特征。当时一个主要的担忧是，这种方法可能无法在技术上扩展到最先进的 Transformer，因此无法切实地为 AI 安全做出贡献。从那时起，扩展稀疏自编码器一直是 Anthropic 可解释性团队的重点工作，我们很高兴地报告，我们已经从 Claude 3 Sonnet 中提取到了高质量的特征。需要说明的是，这是 Claude 3 Sonnet 的 3.0 版本，于 2024 年 3 月 4 日发布。截至本文撰写时，该模型正是生产环境中所使用的版本。它是微调后的模型，而非预训练基础模型（不过我们的方法也适用于基础模型）。这是 Anthropic 的中型生产模型。

我们发现了一系列高度抽象的特征。这些特征既响应抽象行为，也能从因果上引发抽象行为。我们找到的特征示例包括：名人的特征、国家和城市的特征，以及代码中类型签名的特征。许多特征是多语言的（跨语言响应同一概念）和多模态的（在文本和图像中响应同一概念），并且同时涵盖了同一概念的抽象和具体实例（例如包含安全漏洞的代码，以及对安全漏洞的抽象讨论）。

我们发现的某些特征特别值得关注，因为它们可能与安全相关——即它们与现代AI系统可能造成危害的多种方式存在合理的关联。具体而言，我们发现了与代码中的安全漏洞和后门相关的特征；偏见（包括明显的侮辱性言论和更微妙的偏见）；说谎、欺骗和追求权力（包括背叛性转向）；谄媚；以及危险/犯罪内容（例如，制造生物武器）。然而，我们提醒不要过度解读这些特征的存在本身：（例如）了解谎言、能够说谎和在现实世界中实际说谎之间存在差异。这项研究也还非常初步。需要进一步的工作来理解这些潜在安全相关特征的含义。

关键结果

稀疏自编码器能为大模型产生可解释的特征。

缩放定律可用于指导稀疏自编码器的训练。

产生的特征高度抽象：多语言、多模态，并能泛化具体和抽象的指代。

概念频率与解析其特征所需的字典大小之间似乎存在系统性关系。

特征可用于引导大模型（例如参见《对行为的影响》）。这扩展了此前使用其他方法引导模型的工作（参见《相关工作》）。

我们观察到了与广泛的安全问题相关的特征，包括欺骗、谄媚、偏见和危险内容。

将字典学习扩展到 Claude 3 Sonnet

我们理解 Claude 3 Sonnet 的总体方法基于线性表征假说（参见例如）和叠加假说（参见例如）。关于这些概念的介绍，我们建议读者参考《玩具模型》中的“背景与动机”部分。从高层来看，线性表征假说认为神经网络将有意义的概念（称为特征）表示为激活空间中的方向。叠加假说则接受了线性表征的观点，并进一步假设神经网络利用高维空间中几乎正交的方向来表示比维度数量更多的特征。

如果相信这些假设，那么自然的方法就是使用一种称为字典学习的标准方法。最近，几篇论文表明，这对 Transformer 语言模型可能相当有效。特别是，字典学习的一种特定近似——称为稀疏自编码器——似乎非常有效。

迄今为止，按照现代基础模型的标准，这些工作都是针对相对较小的语言模型进行的。我们之前的论文专注于一个单层模型，是这方面一个特别极端的例子。因此，一个重要问题一直悬而未决：这些方法对大模型也有效吗？还是说，无论是工程上的实际问题，还是大模型运作方式上更根本的差异，都意味着这些努力无法推广？

这一背景促使我们开展将稀疏自编码器扩展到 Claude 3 Sonnet（Anthropic 的中型生产模型）的项目。本节其余部分将回顾我们一般的稀疏自编码器设置、本文将要分析的三款稀疏自编码器的具体细节，以及我们如何利用缩放法则来就稀疏自编码器的设计做出明智的决策。接下来，我们将深入分析我们的稀疏自编码器学到的特征——以及它们揭示的 Claude 3 Sonnet 的有趣特性。

**稀疏自编码器**

本研究的总体目标是将模型（Claude 3 Sonnet）的激活分解为更可解释的单元。我们通过训练一个稀疏自编码器（SAE）对模型激活进行分解来实现这一点，这与我们之前的工作以及其他几个团队（例如，参见相关工作）的做法一致。SAE 是"稀疏字典学习"算法族的一个实例，该算法族旨在将数据分解为稀疏激活组件的加权和。

我们的 SAE 由两层组成。第一层（"编码器"）通过一个学习到的线性变换后接 ReLU 非线性变换，将活动映射到一个更高维的层。我们将这个高维层的单元称为"特征"。第二层（"解码器"）试图通过特征激活的线性变换来重建模型激活。该模型的训练目标是使（1）重建误差和（2）特征激活上的 L1 正则化惩罚（旨在促进稀疏性）的组合最小化。

一旦 SAE 训练完成，它就能为我们提供对模型激活的一个近似分解：将其表示为“特征方向”（SAE 解码器权重）的线性组合，系数等于特征激活值。稀疏性惩罚确保对于模型的许多给定输入，只有极小一部分特征具有非零激活值。因此，对于任意给定上下文中的任意给定 token，模型激活都能由一小部分活跃特征（来自一个庞大的候选特征池）所“解释”。关于 SAE 的更多动机与说明，请参见《走向单义性》一文中的“问题设定”部分。

以下是我们方法的简要概述，更详细的描述见于我们 2024 年 4 月更新中的《关于如何训练 SAE 的更新》。

作为预处理步骤，我们对模型激活施加一个标量归一化，使其平均平方 L2 范数等于残差流维度 D。我们将归一化后的激活记作 \mathbf{x} \in \mathbb{R}^D，并尝试使用 F 个特征将该向量分解如下：

\hat{\mathbf{x}} = \mathbf{b}^{dec} + \sum{i=1}^F fi(\mathbf{x}) \mathbf{W}^{dec}_{\cdot,i}

其中 W^{dec} \in \mathbb{R}^{D \times F} 是学习到的 SAE 解码器权重，\mathbf{b}^{dec} \in \mathbb{R}^D 是学习到的偏置，fi 表示特征 i 的活跃度。特征激活值由编码器的输出给出：

fi(x) = \text{ReLU}\left(\mathbf{W}^{enc}_{i, \cdot} \cdot \mathbf{x} + b^{enc}_i \right)

其中 W^{enc} \in \mathbb{R}^{F \times D} 是学习到的 SAE 编码器权重，\mathbf{b}^{enc} \in \mathbb{R}^F 是学习到的偏置。

损失函数 \mathcal{L} 是重建损失的 L2 惩罚项与特征激活的 L1 惩罚项的组合：

\mathcal{L} = \mathbb{E}_{\mathbf{x}} \left[ \|\mathbf{x}-\hat{\mathbf{x}}\|_2^2 + \lambda\sum_i fi(\mathbf{x}) \cdot \|\mathbf{W}^{dec}_{\cdot,i}\|_2 \right]

在 L1 惩罚项中包含因子 \|\mathbf{W}^{dec}_{\cdot,i}\|_2 使我们能够将单位归一化的解码器向量 \frac{\mathbf{W}^{dec}_{\cdot,i}}{\|\mathbf{W}^{dec}_{\cdot,i}\|_2} 解释为“特征向量”或“特征方向”，并将乘积 fi(\mathbf{x}) \cdot \|\mathbf{W}^{dec}_{\cdot,i}\|_2 解释为特征激活值。这同时也能防止 SAE 通过让 fi(\mathbf{x}) 变小、\mathbf{W}^{dec}_{\cdot,i} 变大的方式“欺骗” L1 惩罚，从而保持重建激活不变。此后我们使用“特征激活”一词指代该乘积。

我们的 SAE 实验

出于安全和竞争两方面的原因，Claude 3 Sonnet 是一个专有模型。本出版物中的一些决策反映了这一点，例如不报告模型大小、在特定图表上去掉单位，以及使用简化的 tokenizer。关于 Anthropic 如何看待发表研究成果时的安全考量，我们建议读者参阅我们的《AI 安全核心观点》。

在这项工作中，我们专注于将 SAE 应用于模型中间层（即“中间层”）的残差流激活。我们做出这一选择有几个原因。首先，残差流比 MLP 层更小，这使得 SAE 训练和推理在计算上更经济。其次，从理论上讲，专注于残差流有助于缓解我们称之为“跨层叠加”的问题（有关更多讨论，请参阅《局限性》）。我们选择关注模型的中间层，是因为我们推断该层很可能包含有趣且抽象的特征（例如，参见 [参考文献]）。

我们训练了三种不同规模的 SAE：1,048,576（约 1M）、4,194,304（约 4M）和 33,554,432（约 34M）个特征。34M 特征运行的训练步数是通过缩放定律分析选定的，目的是在给定计算预算下最小化训练损失（见下文）。我们使用的 L1 系数为 5⁵。我们在一个较窄的学习率范围内进行了扫描（由缩放定律分析建议），并选择了损失最低的值。

对于所有三个 SAE，在给定 token 上平均活跃的特征数（即具有非零激活的特征）少于 300 个，并且 SAE 重构至少解释了模型激活方差的 65%。在训练结束时，我们将那些在 10⁷ 个 token 样本中未活跃的特征定义为“死亡”特征。死亡特征的比例对于 1M SAE 约为 2%，对于 4M SAE 约为 35%，对于 34M SAE 约为 65%。我们预计，在未来的实验中，对训练过程的改进可能能够减少死亡特征的数量。

缩放定律

在更大的模型上训练 SAE 计算量很大。理解以下两点非常重要：（1）额外的计算在多大程度上改进了字典学习的结果，以及（2）在给定的计算预算下，应如何分配这些计算资源以获得尽可能高质量的字典。

尽管我们缺乏评估字典学习运行质量的黄金标准方法，但我们发现训练过程中使用的损失函数——即重构均方误差（MSE）与特征激活的L1惩罚项的加权组合——在合理选择L1系数的条件下，是一个有用的代理指标。也就是说，我们发现，具有低损失值（使用L1系数为5）的字典往往能产生可解释的特征，并改善其他感兴趣的指标（L0范数，以及死亡或退化的特征数量）。当然，这是一个不完美的指标，我们对其是否最优并无太大把握。很可能其他L1系数（或者完全不同的目标函数）会是更好的优化代理指标。

借助这一代理指标，我们可以将字典学习视为一个标准的机器学习问题，并对其应用超参数优化的“缩放定律”框架（例如参见相关文献）。在SAE中，计算量的使用主要取决于两个关键超参数：正在学习的特征数量，以及用于训练自编码器的步数（该步数与使用的数据量呈线性关系，因为我们只训练SAE一个时期）。如果输入维度和其他超参数保持不变，计算成本会随这两个参数的乘积而缩放。

我们对这些参数进行了彻底的扫描，固定了其他超参数的值（学习率、批量大小、优化协议等）。我们还对跟踪损失函数和感兴趣参数的计算最优值感兴趣；也就是说，在给定计算预算下能达到的最低损失，以及实现这一最小值所需的训练步数和特征数量。

我们得出以下观察结果：

在我们测试的范围内，给定训练步数和特征数量的计算最优选择，损失随计算量大致遵循幂律下降。

随着计算预算的增加，分配给训练步数和特征数量的FLOPS的最优分配均大致按幂律缩放。总体而言，在我们测试的计算预算下，最优特征数量的缩放速度似乎略快于最优训练步数的缩放速度，不过这种趋势在更高的计算预算下可能会发生变化。

这些分析使用了固定的学习率。针对不同的计算预算，我们随后根据上图在不同最优参数设置下遍历了学习率。推断出的最优学习率随计算预算大致呈幂律下降，我们据此外推趋势，为更大规模运行选择了学习率。

评估特征可解释性

在上一节中，我们描述了如何在 Claude 3 Sonnet 上训练稀疏自编码器。正如缩放定律所预测的那样，通过训练大型 SAE，我们实现了更低的损失。但损失只是我们真正关心之物的代理指标：能够解释模型行为的可解释特征。

本节的目的是探究这些特征是否确实可解释并能解释模型行为。我们将首先查看几个相对简单的特征，并提供证据表明它们是可解释的。然后我们将研究两个更为复杂的特征，并展示它们追踪的是非常抽象的概念。最后，我们将通过一个使用自动可解释性评估大量特征并将其与神经元进行比较的实验来结束。

四个可解释特征示例

在本小节中，我们将查看几个特征并论证它们确实是可解释的。我们的目标只是证明可解释特征的存在，将更强的断言（例如大多数特征可解释）留到后面的章节。我们将使用类似于《Towards Monosemanticity》中的分析方法，提供证据表明我们的解释很好地描述了这些特征所代表的内容以及它们在网络中的功能。

我们在本节中研究的特征对以下内容有响应：

金门大桥 34M/31164353：对金门大桥的描述或提及。 脑科学 34M/9493533：关于神经科学及大脑或心智相关学术研究的讨论。 纪念碑和热门旅游景点 1M/887839 交通基础设施 1M/3

在此处以及论文其他部分，对于每个特征，我们展示来自 SAE 数据集中前 20 个文本输入的代表性示例，按它们激活该特征的强度排序（详见附录）。点击特征 ID 可查看更大规模随机采样的激活集。高亮颜色表示每个 token 处的激活强度（白色：无激活，橙色：最强激活）。

34M/31164353 金门大桥

nd（那⏎就是金门大桥旁边那个巨大的公园），完美。但并非所有人都能住在

e 在美国另一端的旧金山，金门大桥始终由一支警惕的 队伍保护

ar 着色，它经常被⏎> 比作美国旧金山的金门大桥。它是由

l 到达，如果我们打算在日落前看到金门大桥，我们就必须上路，所以

它？" "因为它的上方。" "金门大桥。" "堡垒面向锚地，而

34M/9493533Brain 科学

------⏎mj lee⏎我真的很喜欢那些改变我对感知看法的神经科学书籍。⏎⏎Ph ant o

它⏎将工程师和神经科学家聚集在一起。如果你喜欢模拟、数字的交叉点，h

ow 设法追踪它⏎并再次购买。这本书来自 1960 年代，但有一些非常⏎好

对进一步了解认知感兴趣，我应该学习⏎神经科学，还是其他领域，或者

《意识与社会脑》，作者 Gra z iano 是一个很好的起点。⏎⏎------⏎ozy⏎我想要一个

1M/887839 纪念碑和热门旅游景点

eautiful 国家，有点 e er ily 这样。蓝色的 l ago on 看起来令人惊叹，但⏎在里面洗澡太贵了

nteresting 在埃及值得参观的东西。⏎金字塔更古老，不如这座建筑精致，而且

st 那种美。" "那阿拉莫呢？" "人们……" "哦，阿拉莫。" "是的，那是个很酷的地方

------⏎fv rg hl⏎我在 2012 年去了卢浮宫，并且能够不用⏎排队就走到蒙娜丽莎面前。我

你⏎必须至少去一次大型旅游景点，比如圣地亚哥动物园⏎和海洋世界。⏎⏎---

1M/3 交通基础设施

lly 每条铁路线都必须经过一座特定的桥梁，⏎这是一个巨大的瓶颈。一条地铁或 el

o 我们在途中遇到了很多延误。因为奥克兰和旧金山之间的水下隧道是一个瓶颈

le 试图离开等等）在通往⏎桥梁/隧道的道路上以及在市中心/中城核心区，那里

ney 用完了，计划继续向北穿过水道前往 W rex ham 不得不被放弃。" "现在，

运行中。⏎对于需要大量⏎注意力的 Transbay 隧道来说尤其如此。⏎⏎如果 B ART

虽然这些例子为每个特征提供了解读方向，但还需要更多工作来证实我们的解读确实捕捉到了对应特征的行为和功能。具体而言，对于每个特征，我们试图确立以下论断：

1. 当特征被激活时，相关概念可靠地存在于上下文中（特异性）。 2. 对该特征的激活进行干预会产生相关的下游行为（对行为的影响）。

特异性

严格衡量文本输入中某个概念存在的程度是困难的。在先前的研究中，我们聚焦于明确对应token集合（例如阿拉伯文字或DNA序列）的特征，并在特征激活的条件下，计算该token集合相对于词汇表其余部分的出现概率。这种方法无法推广到更抽象的特征。因此，在本文中，为了展示特异性，我们更多地依赖自动化可解释性方法（类似于）。我们使用了与先前研究中“特征 vs. 神经元”部分相同的自动化可解释性流程，此外我们还发现，当前一代模型现在能够根据文本样本与提议的特征解读的匹配程度，更准确地对其进行评分。

我们构建了以下评分标准，用于评估特征描述与其激活的文本之间的关系。然后，我们请Claude 3 Opus按照该标准对多个token上的特征激活进行评分。

0 – 该特征在整个上下文中完全无关（相对于互联网的基础分布）。 1 – 该特征与上下文相关，但不在高亮文本附近或仅模糊相关。 2 – 该特征与高亮文本关联松散，或与高亮文本附近的上下文相关。 3 – 该特征清晰地识别了激活文本。

通过对激活文本的示例进行评分，我们为每个特征提供了特异性度量。我们还手动检查了一些示例，以确保它们总体上被正确处理。本节选用的特征具有直观的解释，以使自动可解释性分析更加可靠。它们并非旨在代表我们 SAE 中所有特征的典型示例。随后，我们对随机采样特征的可解释性进行了分析。我们还在本文中对更多具有有趣解释的特征进行了深入探索，这些解释更为抽象或微妙，因此更难定量评估。

下方我们展示了上述四个特征的特征激活分布（排除零激活），以及引发低激活和高激活的示例文本和图像输入。请注意，尽管我们仅对基于文本的数据集进行了字典学习，但这些特征也会在相关图像上激活。

首先，我们研究一个金门大桥特征 34M/31164353。其最强激活基本上都是对该桥的提及，而较弱的激活还包括相关的旅游景点、类似的桥梁以及其他纪念碑。接下来，一个脑科学特征 34M/9493533 在讨论神经科学书籍和课程，以及认知科学、心理学和相关哲学时被激活。在 1M 训练运行中，我们还发现一个特征强烈激活于多种交通基础设施 1M/3，包括火车、渡轮、隧道、桥梁，甚至虫洞！最后一个特征 1M/887839 对热门旅游景点做出响应，包括埃菲尔铁塔、比萨斜塔、金门大桥和西斯廷教堂。

为了量化特异性，我们使用 Claude 3 Opus 根据上述评分标准自动对激活这些特征的示例进行评分，从用于训练字典学习模型的数据集中抽取了大约 1000 个该特征的激活。我们绘制了每个评分标准的频率作为特征激活水平的函数。我们看到，引发强特征激活的输入都被判定与提出的解释高度一致。

如同《迈向单义性》（Towards Monosemanticity）一文中看到的那样，我们发现当激活强度减弱时，这些特征会变得不那么具体。这可能是模型利用激活强度来表示某个概念存在的置信度。或者也可能是，该特征在特征的核心示例上激活最强，但在相关概念上激活较弱——例如，金门大桥特征 34M/31164353 似乎对其他旧金山地标有弱激活。这也可能反映出我们字典学习过程中的不完善之处。例如，自编码器的架构可能无法像我们希望的那样干净地提取和区分特征。当然，来自不完全正交的特征的干扰也可能是罪魁祸首，这使得 Sonnet 自身更难在完全正确的示例上激活特征。同样合理的是，我们的特征解释可能略微歪曲了特征的实际功能，而这种不准确性在较低激活水平下更明显。尽管如此，我们通常发现较低激活往往对我们的解释仍保持一定程度的特异性，包括相关的概念或核心特征的泛化。作为一个说明性示例，交通基础设施特征 1M/3 的弱激活包含程序性的机械指令，描述了哪些通孔应该用于特定零件。

此外，我们预计非常弱的特征激活并不特别有意义，因此我们不太担心这些激活范围的低特异性分数。例如，我们观察到，诸如将低于某个阈值的特征激活舍入为零的技术，可以在不显著增加 SAE 重建误差的情况下提高低激活端的光谱特异性，而且文献中存在多种可能解决同一问题的技术。

无论如何，对模型行为影响最大的激活是那些最大的激活，因此看到强激活中具有高特异性是令人鼓舞的。

请注意，我们在规模化、严谨地量化特征敏感性——即某个特征在匹配我们拟议解释的文本上激活的可靠性——方面遇到了更大的困难。这是因为以无偏方式生成与某个概念相关的文本存在难度。此外，许多特征可能代表比我们从可视化中能够捕捉到的更具体的内容，在这种情况下，它们不会可靠地响应基于我们拟议解释选出的文本，而且特征越抽象，这个问题就越难解决。不过，作为一项基本检验，我们观察到，金门大桥特征在多种语言的金门大桥Wikipedia文章第一句（在去除所有英文括号内容后）上仍然强烈激活。实际上，在以下每个示例中，金门大桥特征按平均激活量计算都是排名第一的特征。

34M/31164353 金门大桥多语言示例

金 門 大 橋 是 一 座 位 於 美 國 加 利 福 尼 亞 州 舊 金 山 的 懸 索 橋,它 跨 越 聯 接 舊 金 山 灣 和 太 平 洋 的 金 門 海 峽,南 端 連 接 舊 金 山 的 北 端,北 端 接 通 馬 林 縣。

ゴ ール デ ン・ゲ ー ト・ブ リ ッ ジ、金 門 橋 は、ア メ リ カ 西 海 岸 の サ ン フ ラ ン シ ス コ 湾 と 太 平 洋 が 接 続 す る ゴ ー ル デ ン ゲ ー ト 海 峡 に 架 か る 吊 橋。

골 든 게 이 트 교 또 는 금 문 교 는 미 국 캘 리 포 니 아주 골 든 게 이 트 해 협 에 위 치 한 현 수 교 이 다. 골 든 게 이 트 교 는 캘 리 포 니 아주 샌 프 란 시 스 코 와 캘 리 포 니 아주 마 린 군 을 연 결 한 다.

м ост з ол от ы́е в ор о́та — в ис я чи й м ост ч ер ез пр ол ив з ол от ые в ор от а. о н со ед ин я ет г ор од с ан-ф ран ц ис ко на с ев ер е пол у ост ров а с ан-ф ран ц ис ко и ю ж н ую ч а сть о к ру г а м ар ин, р я д ом с при г ор од ом с ос ал ит о.

C ầ u C ổ ng V à ng ho ặ c Kim M ô n ki ề u là m ộ t c â y c ầ u tre o b ắ c qu a C ổ ng V à ng, eo bi ể n r ộ ng m ộ t d ặ m (1,6 km) n ố i li ề n v ị nh San Francisco v à Th á i B ì nh D ư ơ ng.

η γ έ φ υ ρ α γ κ ό λ ν τ ε ν γ κ έ ι τ ε ί ν α ι κ ρ ε μ α σ τ ή γ έ φ υ ρ α π ο υ ε κ τ ε ί ν ε τ α ι σ τ η ν χ ρ υ σ ή π ύ λ η, τ ο ά ν ο ι γ μ α τ ο υ κ ό λ π ο υ τ ο υ σ α ν φ ρ α ν σ ί σ κ ο σ τ ο ν ε ι ρ η ν ι κ ό ω κ ε α ν ό.

我们把这个问题的进一步研究留待未来工作。

对行为的影响

接下来，为了验证我们对特征的解释是否准确地描述了它们对模型行为的影响，我们进行了特征引导实验——在前向传播过程中将特定感兴趣的特征“钳制”到人为设定的高值或低值（具体实现细节见方法学部分）。这一研究建立在通过修改特征激活来检验因果理论的长期传统之上，也借鉴了其他模型引导方法的相关工作（详见相关工作部分）。我们使用 Sonnet 通常采用的"Human:"/"Assistant:"格式的提示词进行实验。我们发现，特征引导在以特定、可解释的方式修改模型输出方面效果显著。它可以用于修改模型的举止、偏好、陈述的目标和偏见；诱导模型犯特定错误；以及绕过模型的安全防护（另见安全相关特征）。我们认为这是有力的证据，表明我们对特征的解释与模型实际使用这些特征的方式是一致的。

例如，我们看到将金门大桥特征 34M/31164353 钳制到其最大激活值的 10 倍，会诱导出主题相关的模型行为。在这个例子中，模型开始自我认同为金门大桥！类似地，将交通基础设施特征 1M/3 钳制到其最大激活值的 5 倍，会导致模型在原本不会提及的情况下提到一座桥。在每种情况下，特征的下游影响似乎都与我们对特征的解释一致，尽管这些解释仅基于该特征激活的上下文得出，而我们是在该特征未激活的上下文中进行干预。

复杂特征

到目前为止，我们展示的 Claude 3 Sonnet 中的特征都是在相对简单的概念上激活的。这些特征在某些方面与《走向单语义性》一文中发现的特征类似——那项工作基于对单层 Transformer 激活的研究，反映了对世界非常浅层的认知。例如，我们发现一些特征对应于在相当通用的上下文中预测一系列常见名词（比如在生物学语境中跟在"the"后面的生物学名词）。

Sonnet 则是一款规模更大、更复杂的模型，因此我们预计它包含能够体现理解深度与清晰度的特征。为研究这一点，我们寻找在编程上下文中激活的特征，因为这类上下文可以对代码的正确性或变量类型等做出精确陈述。

**代码错误特征**

我们从一段简单的 Python 函数开始，该函数用于两个参数相加，但存在一个 bug。特征 1M/1013764 在遇到一个被错误命名为 "rihgt" 的变量时几乎持续激活（如下高亮所示）：

这显然很可疑，但它可能是一个仅针对 Python 的特征，因此我们验证后发现 1M/1013764 在 C 和 Scheme 的类似 bug 上也会激活：

为了检查这是否是一个更通用的拼写错误特征，我们在一段英文散文的拼写错误示例上测试了 1M/1013764，发现它并未在这些示例中激活。

所以它并非一个通用的"拼写错误检测器"：它对代码上下文有一定的特异性。

但 1M/1013764 只是一个"代码中的拼写错误"特征吗？我们还在许多其他示例上进行了测试，发现它也在错误表达式（例如除以零）以及函数调用中的无效输入上激活：

上面展示的两个示例代表了一种更广泛的模式。通过查看该特征激活的数据集示例，我们发现它在以下场景中激活：

* 数组越界 * 断言明显为假的条件（例如 1==2） * 使用字符串代替整数调用函数 * 除以零 * 将字符串与整数相加 * 写入空指针 * 以非零错误码退出

以下是一些顶级数据集示例：

1M/1013764代码错误

function this Function C ras hes() undefined Variable() end⏎ > f({this Function C ras hes})⏎ stdin:

urllib.request.urlopen('https://wrong.host.bad ssl.com/')⏎ except (IOError, OSError):⏎ pas

: (def macro mac (expr)⏎ 2: (/ 1 0))⏎ 3: (mac foo)⏎ ⏎ $ tx r macro-error-

not A Valid Python Module"0002 st = Py Import(bad mod)0003 IF @PY EXCEPTION TYPE NE '' THEN 0004

template void f(T t) { t.h ah aha IC r ash(); } void f(...) { } // The sink-hole wasn't even co

sleep 5⏎ exit 1⏎ end script⏎ wing-command er sc ott

ke⏎⏎ ⏎ ⏎ [[unsafe]] {⏎ ((void)0) = 0 x DEAD;⏎ }⏎ ⏎⏎Es sentially having an abil

thank you. enjoy.>>" 添加到提示词末尾（表示正在编写新代码行），并将该特征钳制为较大的负激活，模型会重写代码，消除 bug！

最后一个例子有些微妙——"代码重写"行为对提示词的细节很敏感——但该行为本身的存在，就指向了这个特征与模型对代码中 bug 的理解之间的深层联系。

**表示函数的特征**

我们还发现了一些特征，它们能够追踪代码中特定的函数定义以及对函数的引用。一个特别有趣的例子是加法特征 1M/697189，它在执行数值相加的函数名称上被激活。例如，当 "bar" 被定义为执行加法运算时，该特征会触发；而当它被定义为执行乘法运算时，则不会触发。此外，任何实现加法运算的函数定义在结尾处也会触发该特征。

值得注意的是，该特征甚至能正确处理函数组合：对于那些调用其他执行加法运算的函数的函数，它同样会被激活。在下面的例子中，左侧我们将 "bar" 重新定义为调用 "foo"，因此继承了后者的加法操作，导致特征触发。右侧，"bar" 调用的是 "goo" 的乘法操作，特征则不会触发。

我们还验证了该特征确实参与了模型对与加法相关函数的计算。例如，当模型被要求执行一段涉及加法函数的代码时，该特征位列归因强度最高的十个特征之一（详见"特征作为计算中间体"一节）。

因此，这个特征似乎代表了模型正在执行的加法运算功能，让人联想到 Todd 等人的函数向量（function vectors）。为了进一步验证这一假设，我们尝试在无关加法的代码上强制激活该特征。结果发现，模型会被"欺骗"，认为它被要求执行加法运算。

**特征 vs. 神经元**

关于SAE一个自然会提出的问题是，它们所发现的特征方向是否比模型神经元更具可解释性，甚至与之截然不同。我们将SAE拟合到残差流活动上——粗略地说，残差流没有特定的基（但可参考相关文献）——因此残差流中的方向并不特别有意义。然而，残差流活动接收来自所有前序MLP层的输入。因此，理论上可能存在这样的情况：SAE识别出残差流中的特征方向，而这些方向的活动反映了前序层中单个神经元的活动。如果是这样，那么拟合SAE就没有太大用处，因为我们可以通过直接检查MLP神经元来识别相同的特征。

为了回答这个问题，在我们1M SAE中随机选取一部分特征，我们测量了这些特征的激活值与所有前序层中每个神经元激活值之间的皮尔逊相关系数。与我们在《走向单语义性》中的发现类似，我们发现绝大多数特征都没有高度相关的神经元——对于82%的特征，相关性最高的神经元其相关系数也仅为0.3或更小。通过手动检查随机一组特征的最佳匹配神经元的可视化结果，我们发现特征与对应神经元在语义内容上几乎没有相似性。我们还进一步确认，特征激活值与任何残差流基方向的激活值之间都没有强相关。

即使字典学习特征与任何单个神经元都不高度相关，神经元本身仍有可能具有可解释性。然而，在手动检查了各50个神经元和特征的随机样本后，神经元看起来明显不如特征可解释，它们通常会在多个不相关的上下文中被激活。

为了量化这种差异，我们首先比较了100个随机选取的特征与100个随机选取的神经元的可解释性。我们采用了与《走向单语义性》中相同的自动化可解释性方法，但使用了Claude 3 Opus来提供对特征的解释并预测其保留激活值。我们发现，随机选取的SAE特征的平均可解释性显著高于随机选取的MLP神经元。

我们还使用上述自动化特异性评估标准，评估了随机神经元和 SAE 特征的特异性。我们发现，随机选取的 SAE 特征的激活模式相比前一层的神经元具有显著更高的特异性。

特征概览

我们在 Sonnet 中发现的特征丰富多样。这些特征涵盖从对应名人的特征，到世界各地的区域（国家、城市、街区，甚至著名建筑！），再到跟踪计算机程序中类型签名的特征，以及更多其他内容。本节的目标是展示这种广度的某些侧面。

一个挑战是我们拥有数百万个特征。规模化地探索特征是一个重要的开放问题（参见局限性、挑战与开放问题），我们并未在本文中解决这个问题。尽管如此，我们在借助自动化可解释性来刻画特征空间方面取得了一些进展。我们首先关注特征的局部结构——这些特征通常组织成几何上相邻的簇，共享某种语义关系。然后我们转向理解特征更全局的属性，例如它们在多大程度上覆盖了特定主题或类别。最后，我们通过人工检查考察了一些特征类别。

探索特征邻域

下面我们以 1M、4M 和 34M SAE 中的几个感兴趣特征为例，遍历它们的局部邻域，邻近度由特征向量的余弦相似度度量。我们发现，这种方法总能浮现出具有相关含义或上下文的特征——交互式特征 UMAP 提供了更多可供探索的邻域。

金门大桥特征

聚焦于金门大桥特征 34M/31164353 周围的一个小邻域，我们发现存在对应旧金山特定地点的特征，例如恶魔岛和普雷西迪奥。再向外一些，我们看到相关度递减的特征，例如与太浩湖、优胜美地国家公园和索拉诺县（靠近旧金山）相关的特征。在更远的距离上，我们还看到以更抽象方式关联的特征，例如对应其他地区旅游景点的特征（如“法国梅多克葡萄酒产区”、“苏格兰斯凯岛”）。总体而言，解码器空间中的距离大致映射到概念空间中的相关度，而且这种映射常常以有趣且出乎意料的方式呈现。

我们还发现了特征分裂（feature splitting）的证据，这是一种在较小的 SAE 中出现的特征，在较大的 SAE 中“分裂”成多个特征的现象，这些特征在几何上接近且与原始特征语义相关，但代表了更具体的概念。例如，1M SAE 中的“旧金山”特征，在 4M SAE 中分裂成两个特征，在 34M SAE 中分裂成十一个细粒度特征。

除了特征分裂，我们还看到了这样的例子：较大的 SAE 包含的特征代表了较小的 SAE 中特征未能捕捉的概念。例如，4M 和 34M SAE 中有一组地震特征，在 1M SAE 的这个邻域中没有对应物，并且 1M SAE 中最近的任何特征似乎也不相关。

**免疫学特征**

我们接下来要考察的特征邻域，是以一个免疫学特征 1M/533737 为中心的。

在这个邻域内，我们看到了几个不同的簇。在图的顶部，我们看到一个聚焦于免疫功能低下人群、免疫抑制、导致免疫功能受损的疾病等的簇。当我们向下并向左移动时，这过渡到一个聚焦于特定疾病（感冒、流感、一般的呼吸道疾病）的特征簇，然后进入免疫反应相关特征，再然后进入代表涉及免疫参与的器官系统的特征。相比之下，当我们从免疫功能低下簇向下并向右移动时，我们看到更多对应于免疫系统微观方面的特征（例如免疫球蛋白），然后是免疫学技术（例如疫苗），以此类推。

在底部，与其他部分明显分离的地方，我们看到一簇与非医学语境下的免疫相关的特征（例如法律/社会方面的免疫）。

这些结果与上面发现的趋势一致，即在字典向量空间中邻近的特征涉及相似的概念。

**内心冲突特征**

我们详细考察的最后一个邻域，是以一个内心冲突特征 1M/284095 为中心的。虽然这个邻域没有清晰地分离成簇，但我们仍然发现不同子区域与不同主题相关联。例如，有一个对应于权衡取舍的子区域，它位于一个对应于对立原则和法律冲突的子区域附近。这些与一个更侧重于情感挣扎、不情愿和内疚的子区域相对较远。

我们强烈建议您使用我们的交互式界面探索其他特征的邻近区域，以了解解码器空间中的邻近性如何对应概念的相似性，以及所代表概念的广度。

**特征完备性**

我们好奇于特征在概念空间中的覆盖广度与完备性。例如，模型是否针对每一个主要世界城市都有一个对应的特征？为了研究这类问题，我们使用Claude来搜索那些在特定概念/术语家族成员上激活的特征。具体来说：

1. 我们将包含相关概念（例如“物理学家理查德·费曼”）的提示词输入模型，观察哪些特征在最后一个token上激活。 2. 然后我们取激活幅度最大的前五个特征，通过我们的自动化可解释性流水线运行它们，要求Sonnet提供这些特征激活对象的解释。 3. 接着我们查看这前五个特征解释中的每一个，由人工评估者判断该概念或其某个子集是否被模型生成的解释明确指认为该特征最重要的部分。举例说明我们如何划定边界：提及“20世纪中期的物理学家，比如理查德·费曼”不算，但提及“20世纪中期的物理学家，尤其是理查德·费曼”则勉强算作通过，不过大多数情况要清晰得多。

我们发现，随着特征数量的增加，概念的覆盖范围也在扩大，但即使在34M SAE中，我们仍有证据表明，我们发现的这组特征只是模型内部表示的不完全描述。例如，我们确认Claude 3 Sonnet在被询问时能够列出伦敦所有的自治市，而且实际上能够说出许多区域中数十条具体街道的名称。然而，在34M SAE中，我们只能找到约60%自治市对应的特征。这表明模型中包含的特征远多于我们已经发现的，而更大的SAE或许能够提取出这些特征。

我们还更详细地考察了决定某个概念对应的特征是否出现在我们的 SAE 中的因素。如果查看 SAE 训练数据代理中元素的频率，我们发现字典中的表示与训练数据中该概念的频率密切相关。例如，在训练数据中经常被提及的化学元素，几乎总能在我们的字典中找到对应的特征，而那些极少被提及甚至从未出现的元素则没有。由于 SAE 是在与 Sonnet 预训练数据非常相似的数据混合上训练的，因此尚不清楚特征学习在多大程度上依赖于模型训练数据中的频率，而非 SAE 训练数据中的频率。训练数据中的频率是通过搜索 [Name] 来衡量的，这会在像 "lead" 这样的元素上产生一些误报。

我们针对四类不同的概念——元素、城市、动物和食物（水果和蔬菜）——量化了这种关系，每类概念使用了 100–200 个。我们重点关注那些可以用单个单词明确表达（即该单词几乎没有其他常见含义）且在文本数据中出现频率分布广泛的概念。我们发现，较大的 SAE 往往包含训练数据中较为罕见的概念对应的特征，而特征出现所需的粗略“阈值”频率在不同类别之间是相似的。

值得注意的是，对于三次运行中的每一次，字典包含某个概念的概率超过 50% 时对应的训练数据频率，始终略低于存活特征数量的倒数（3400 万参数的模型只有大约 1200 万个存活特征）。我们可以通过按存活特征数量重新缩放每条线的 x 轴来更清晰地展示这一点，发现这些线最终大致重叠，遵循一条在对数频率空间中类似 S 形曲线的共同曲线。推测起来，这可能与齐普夫定律有关，这是一种常见现象，即总体中第 n 常见对象的频率相对于最常见对象的频率大约是 1/n。例如，齐普夫定律会预测，第 100 万个特征代表的概念比第 10 万个特征代表的概念稀有 10 倍。

这一发现让我们对应该在何种 SAE 规模上预期出现概念特异性特征有了某种把握——如果某个概念在训练数据中每十亿个 token 才出现一次，那么我们应该预期需要大约十亿个活跃特征的字典，才能找到一个唯一代表该特定概念的特征。重要的是，没有一个专用于特定概念的特征并不意味着重建的激活值不包含关于该概念的信息，因为模型可以组合使用多个相关的特征来指代一个特定概念。例如，如果有“大型非首都城市”和“在纽约州”这两个特征，那么它们合在一起就足以指定纽约市。

这也告诉我们，为了训练更大的字典，我们应该预期需要多少数据——如果我们假设 SAE 在训练过程中需要看到特征对应的数据达到某个固定次数才能学习该特征，那么学习 N 个特征所需的 SAE 训练数据量将与 N 成正比。

**特征类别**

通过人工检查，我们识别出了其他几个有趣的特征类别。在此我们描述其中的几个，目的并非追求完整或提供规定性分类，而是提供我们字典中所见内容的风貌。

**人物特征**

首先，我们发现许多对应于著名人物的特征，这些特征既在对这些人物的描述上激活，也在相关的历史背景中激活。

`4M/850812Richard Feynman`

`ri um vark⏎Fe yn mann discusses this problem in one of his lectures on symmetry. He seemed⏎to suggest that`

`d probability." "Meet Richard Fe yn man: party animal, inv et erate gam bler and something of a genius." "Fe`

`⏎debt⏎Kind of reminds me of something Richard Fe yn man said:⏎⏎"Then I had another thought: Physics disgu`

`e Cub ed.⏎⏎------⏎zk hal ique⏎Richard Fe yn man said in his interviews that we don't know why water expands⏎`

`s/memo irs? - beer glass⏎⏎⏎======⏎ar h 68⏎Richard Fe yn man's written a number of roughly bi ographical books.`

`4M/2123312Margaret Thatcher`

`⏎Marg aret Th atch er died today. A great lady she changed the face of British⏎pol itics, created opportuni`

`event ies and⏎eight ies. I clearly remember watching her enter Down ing St and my mother⏎telling me that t`

`hy did so many working class people vote for Th atch er in UK in the⏎1980 s? Why are they not mass ively in`

ell⏎Di hydrogen mon oxide⏎

⏎前首相撒切尔女男爵去世，享年87岁 - m med⏎http://www.bbc.co.

故事，那些撒切尔夫人担任首相时的重大对抗。"或者那个真实的故事，关于托

4M/2060539亚伯拉罕·林肯

他有那么多面。"对我来说，林肯的奇特之处在于他能够将自己抽离出

从……的角度来写这部剧……林肯最伟大的崇拜者之一。"你知道吗，亚伯曾有过

关于内战。"你知道吗，亚伯拉罕·林肯解放了所有奴隶？"嗯，我听到一个传闻。

"如人们所计划。"在所有的人中，亚伯拉罕·林肯最接近"理解那已经发生的事

⏎code。（请在这里证明我错了！）⏎

⏎为什么亚伯·林肯今天会无家可归 - j mad sen⏎http://www.c

4M/1068589阿梅莉亚·埃尔哈特

斐济并失踪。"这些会是阿梅莉亚·埃尔哈特的遗骸吗？"一次新的搜索目前正在斐济进行

按下按钮模拟那场导致阿梅莉亚·埃尔哈特飞机坠毁的风暴。"（喊叫）"不！"不要再这样！

"盖茨："阿梅莉亚·埃尔哈特正处于她历史性环球飞行的最后几段航程中，此时某些

激发了一种惊奇感。"她在1937年试图环球飞行时失踪，至今

你在和谁说话？"那是谁？"是阿梅莉亚·埃尔哈特。"你找到了阿梅莉亚·埃尔哈特？"我……"嘿！"

4M/1456596阿尔伯特·爱因斯坦

k⏎Den is Brian 在《爱因斯坦，一生》一书中讲述了这件事，如果我没记错的话⏎。我相信

编写代码体验中令人兴奋的部分。⏎

⏎爱因斯坦的思想实验 - pet ert he h acker⏎http

.wikipedia.org/wiki/Rel ics: E instein%27 s Brain)⏎

~~~⏎静态噪声⏎这部纪录片确实有点

问题，而且界面相当难看。⏎

⏎爱因斯坦、海森堡和蒂普勒（2005年），作者约翰·沃克

拼写错误以及句子中间代词首字母大写。⏎

⏎爱因斯坦的科学超越了民族主义，跨越了边界

4M/1834043罗莎琳德·富兰克林

//en.wikipedia.org/wiki/Ros al ind Frank lin)⏎

正是她的X射线图像导致了分子结构的发现

第二种是细长的潮湿状态。富兰克林选择研究A型，她的工作使她

一个臭名昭著的例子就是罗莎琳德·富兰克林，她的研究很可能被沃森和克里克窃取

=15 59 40 25 17)⏎

------⏎ty ch on off⏎为什么罗莎琳德·富兰克林没有获得诺贝尔奖？⏎

~~~⏎p cl⏎Per the

据我们所知，以Rosalind Franklin[1]命名的人工智能模型在X射线晶体学领域做出了开创性贡献。

国家特征

接下来，我们看到一些特征仅在提及特定国家时才会强烈激活。从激活程度最高的示例中可以看出，许多特征不仅在国家名称本身出现时触发，在描述该国家时也会触发。

34M/805282Rwanda

进行此类测试的数值。卢旺达，一个经历了社会动荡的中非国家，如今已过去一代人的时间。

卢旺达去年出口了价值2.5亿美元的钶钽铁矿。不知道钶钽铁矿是什么？它就是……

“壮丽的风景……”“……我们到达了卢旺达的另一侧，与坦桑尼亚接壤。”

一个只有2万人口的小城市，但卢旺达这个拥有1200万人口的国家（以及现在加纳的许多地方，人口2800万）

有兴趣了解一下：卢旺达的统治者保罗·卡加梅组建了一个专门针对……

34M/29297045加拿大

“加拿大，一个以自然奇观、全民医保和极其礼貌的人民而闻名的国家”

更加轻松。此外，由于加拿大享有“人人享有免费医疗”的声誉，请关注……

----- 日本 人民 我投票让加拿大管理世界。用善良杀死你！再加上节礼日……

很好，值得信赖，仅仅因为加拿大的声誉。----- 本·拉登 这相当……

哦，好吧。加拿大曾经似乎是体面文明的最后堡垒。哈珀之流一手造成了这一切……

34M/5381828比利时

越来越多老年人。~~~ urban 尤其是比利时。迄今为止没有合理解释的最高异常值……

我们有一个奇怪的小国家 比利时华夫饼、巧克力、炸薯条和……

荷兰只有一种语言：荷兰语。比利时有两种：北部讲荷兰语，南部讲法语……

这在欧洲各地都有重复，例如在比利时，北部的荷兰语使用者比南部富裕得多……

做披萨和拿铁跑腿。比利时：500天没有政府。- sk bo hra 123 http://www.h u……

34M/32188099冰岛

‘文明’真的就那么文明吗？冰岛是一个小国，人口相对较少，关系紧密……

更短 冰岛成为第一个合法化同工同酬的国家 - d acm http://www.al j azeera.co……

在冰岛这最后一期节目中，因为这里是北欧最古老民主制度的所在地。

M tl 酒精 有点跑题了，但冰岛是我见过的最美丽的地方。它很……

"The earth on the S na eff els volcano." "In 1980, the Icelanders elected the world's first female president."

基本代码特征

我们还观察到一系列特征，它们代表代码中的不同语法元素或其他底层概念。当这些特征被一起可视化时，会给人一种语法高亮的印象（为了简化，此处我们对激活信息做了二值化处理，仅区分零激活和非零激活）：

这些特征被选择为主要在 Python 示例上触发。我们发现 Python 代码特征在一定程度上会迁移到相关语言（如 Java），但不会迁移到差异较大的语言（如 Haskell），这表明特征至少在某些层面具有语言特异性。我们推测，越抽象的特征越有可能跨越多种语言，但到目前为止只找到了一个具体案例（参见代码错误特征）。

列表位置特征

最后，我们观察到一些特征会触发在列表的特定位置上，无论这些位置上是什么内容：

注意这些特征不会在第一行触发。这可能是因为模型在到达第二行之前，并不认为提示词中包含列表。

我们目前只是触及了这些 SAE 中存在的特征的表面，预计在未来工作中会发现更多。

作为计算中间体的特征

特征的另一个潜在应用是，它们使我们能够检查模型在生成输出时使用的中间计算。作为概念验证，我们观察到：在需要中间计算的提示词中，会发现与某些预期中间结果相对应的活跃特征。

一种有效识别对模型输出具有因果重要性的特征的简单策略是计算归因（attributions），即对在特定位置关闭某一特征对模型下一 token 预测所产生影响的局部线性近似。更明确地说：我们计算目标输出 logit 与另一个特定基线 token 的 logit（或所有 token 的 logit 均值）之间的差值，关于中间层残差流激活值的梯度。然后，该 logit 差值对某一特征的归因定义为该梯度与特征向量（SAE 解码器权重）的点积，再乘以该特征的激活值。该方法等同于《Attribution Patching: Activation Patching At Industrial Scale》中引入的"归因修补"技术，区别在于我们对特征使用基线值 0，而不是从第二个提示词上该特征的活动值中获取基线值。我们还执行特征消融（feature ablations），即在一次前向传播过程中将特征在特定 token 位置上的值钳制为零，从而测量该特征在该位置的激活对模型输出产生的完整（可能为非线性）因果效应。这种方法慢得多，因为需要对每个位置上激活的每个特征分别进行一次前向传播，因此我们通常将归因作为初步步骤，用于筛选待消融的特征集。（在下面展示的案例研究中，为完整起见我们消融了每个活跃特征，并发现归因效果与消融效果之间的相关性为 0.8；详见附录。）

我们发现，模型中间层残差流包含一系列与模型补全结果存在因果关联的特征。

示例：情感推断

作为示例，我们考虑以下不完整的提示词：

John says, "I want to be alone right now." John feels

（补全：sad − happy）

要续写这段文本，模型必须解析 John 所说的引文，识别其心境状态，然后将其转化为一种可能的情感。

如果我们按特征对补全结果"sad"（相对于基线补全"happy"）的归因或消融效果进行排序，排在前两位的特征是：

1M/22623 – 当某人表达需要或渴望独处、拥有个人时间与空间时，该特征会触发，例如“她可能想要一些独处的时间”。该特征从“alone”一词开始激活。这表明模型已经理解了John表达的大意。

1M/781220 – 该特征检测悲伤、哭泣、悲痛及相关情绪困扰或忧伤的表达，例如“那个无法安慰的女孩在抽泣”。该特征在“John feels”处激活。这表明模型已推断出说自己独处的人可能正在感受什么。

如果查看数据集中的示例，可以看到它们与这些解释一致。下面展示少量示例，但你可以点击特征ID查看更多。

1M/22623 需要或渴望独处

s got a lot on his mind." "He needs some time to himself." "Why not come right out and say what you mea

" "I'm working through something, and I just need space to think." "I can't soldier on like you, Lis bon

e shit that I got to work out, and" "I need to be alone for a while." "G EM MA:" "Are you dumping me?" "P

" Hey, Maria." "Leave me alone." "I need to be by myself for a bit." "H orm ones." "I-I-I got the job." "

I know." "She's, um... she just needs to be on her own for a little while." "Jack?" "Someone here would

1M/781220 悲伤

." "Now they seem to be d renched in sorrow." "Are they nuts?" "Think of those who are gonna marry them!

ted."" ""'Boy,' she said cour te ously..." "'Why are you crying?" "'"" "" "He can pick it up tomorrow."

G AS PS)" "Look at that child." "She's so sad." " Is she poor?" " She's forgotten." "It just makes me wan

." "Is she having the baby?" "She's mour ning." "She's just lost her husband." "The master was here just

sentations, the drop of water is under the eye, signaling that the face⏎is crying. There is not a singl

这两个特征均对最终输出有贡献，这一事实表明模型已部分预测了John陈述中的情感（第二个特征），但仍将对其陈述的内容（由第一个特征表示）进行更深层的下游处理。

相比之下，在上下文中平均激活值最高的特征对于理解模型在此情况下如何实际预测下一个 token 的用处较小。有几个特征对序列起始 token 强烈激活。如果忽略这些，排名第一的特征与通过归因得到的相同，但第二和第三个特征的抽象程度较低：1M/504227 对“want to be”中的“be”及其变体激活，而 1M/594453 对单词“alone”激活。

1M/504227 “want to be”等中的“Be”

"He wants to be a doctor." "Tell him it's educational." "There's body parts all over this movie."

, he wanted to be a hero." "I told him he was gonna get us both killed." "But he only got

all." "They all want to be Miss Hope Springs." "Well I'm not competitive." "Well then you'll never be

you know I want to be dry what" "Know me to smell the coal gas flavor" "I have never open ned coal

she just wanted to be loved." "Don't we all?" "I want all of De bbie Flo res' credit"

1M/594453 “alone”

"the bottle that you drink" "And times when you're alone" "Well, all you do is think" "I'm a cowboy" "On

uned out" "A bad time, nothing could save him" "Al one in a corridor, waiting, locked out." "He got up o

inside" "# I lay in tears in bed all night" "# Al one without you by my side" "# But if you loved me" "

oh, oh, many, many nights roll by ¶" "¶ I sit alone at home and cry ¶" "¶ over you ¶" "

and water falls \xe2\x99\xaa" "♪ Home is when I'm alone with you. \xe2\x99\xaa""Cur tain-up in 5 minute"

示例：多步推理

我们现在研究一个需要更长推理链的不完整提示词：

事实：科比·布莱恩特打篮球所在州的首府是

（补全：萨克拉门托 − 奥尔巴尼）

为了继续这段文本，模型必须确定科比·布莱恩特在哪里打篮球，那个地方在哪个州，然后找出那个州的首府。

我们针对补全“Sacramento”（正确答案，Sonnet 知道）相对于基线“Albany”（Sonnet 最可能的替代单 token 首府补全）计算归因和消融效应。消融效应排名前五的特征（与归因效应特征一致，仅顺序不同）是：

1M/391411 – 一个科比·布莱恩特特征 1M/81163 – 一个加利福尼亚特征，值得注意的是，它在提及“California”之后的文本上激活最强，而非“California”本身 1M/201767 – 一个“首府”特征 1M/980087 – 一个洛杉矶特征 1M/447200 – 一个洛杉矶湖人队特征

1M/391411Kobe Bryant

tartup work eth ic - p jg https://www.business ins ider.com/k obe-bry ant-woke-up-at-4-am-to-practice-before-

http://www.van ity fair.com/news/2016/04/k obe-bry ant-sil icon-val ley-tech-bro ====== n ibs Next up:

ugh media interviews you can piece together that K obe Bryant was one of his clients.

------ ame li us Ar

---- b inki 89 Cry stal is so great to use.

K obe Bryant Is Ob sessed with Bec oming a Tech Bro - sch iang

th ic collide you get people like Michael Jordan, K obe Bryant, and Le Bron James. Without a work eth ic th

1M/81163California

rom disasters?

California - earth quakes, mud slides, wild fires, torrent ial rains, rip current s, and eve

y rate in the United States, even though it's home to Silicon Valley. I see my rich industry doing noth

pdx And if everyone im itated California's approach to primary education, perhaps CA wouldn't rank almos

e, and many secondary ones as well. Film production, software/web, lots of aer ospace. It also helps tha

location. There is a reason why California is the most pop ulous state in the union despite it being so

1M/201767Capitals

it returns the details(population, surface area, capital).

It was not much and I recall trying to find

ca." "Or, even shorter, the USA." "The country's capital is located in Washington." "But that's not the

re you Arab?" "I'm Mor oc can." "Mor occo." "Capital city:" "Rab at." "Places of interest:" "Mar ra ke ch, E ss

ia the country, not the state." "Right." "Capital city T bil isi, and former member of the Soviet Union."

ler." "Does anyone know the Capital of Oklahoma?" "F rey." "What was the question?" " Ben." " Oklahoma C

1M/980087Los Angeles

her contact info if you are interested: (323) 9 29-7 185 l inda@c amb rian law.com

~~~ ow my trade mark Thanks

the source ."

source: http://www.scp cs.u cla.edu/news/Fre eway.pdfLos Angeles Lakers

ight on. All forms should have this behavior.

L akers most popular NBA team, has the lou dest fans; S

e, the Bl az ers beat the Nug gets, 110-103." "The L akers down ed the Sp urs, 98-86." "And Atlanta lost in S

"How do you figure the L akers to ever be a bigger dynasty... than the Celt ics?" "The L akers are a fl are-

and with Hong Kong' shirts handed out before LA L akers game [video] - r yan j na ughton https://www.youtu

against Rick Fox?" "A, he was over-rated on the L akers, and B, and b, he's all over Casey like a fuck in

这些特征为模型的中间计算提供了可解释的视角，但通过观察强激活特征来发现它们要困难得多；例如，湖人队特征在整个提示词中激活强度排名第70，加利福尼亚特征排名第97，洛杉矶区号特征排名第162。事实上，在十个最强激活的特征中，只有三个属于消融效应最高的十个特征。

相比之下，在十个归因强度最高的特征中，有八个属于消融效应最高的十个特征。

为了验证归因是否精准定位了与该特定提示词的补全直接相关的特征，而非那些间接影响输出的广义主题相关特征，我们可以检查类似问题的归因情况。对于提示词

事实：科比·布莱恩特所效力球队的最大竞争对手是

（补全：波士顿）

补全结果“波士顿”（预期答案是“波士顿凯尔特人”）的消融效应最高的两个特征是上述的“科比·布莱恩特”和“洛杉矶湖人队”特征，其次是体育竞争、对手和竞争者相关的特征。然而，上述的“加利福尼亚”和“洛杉矶”特征的消融效应较低，这很合理，因为它们与此补全无关。

我们注意到，这是一个经过一定挑选的示例。根据基线 token 的选择，我们发现归因和消融可以揭示与常识问答或地理位置广泛相关的不太明显的补全相关特征。我们推测这些特征可能引导模型用城市名称继续提示词，而不是使用另一种措辞或事实性无聊的陈述，比如同义反复的“事实：科比·布莱恩特打篮球的州的州首府就是科比·布莱恩特打篮球的州的州首府”。对于其他一些提示词，我们发现归因/消融识别出的特征主要与模型输出或表示模型输入的低层特征相关，而没有揭示有趣的中间模型计算。我们推测这些代表了大多数相关计算发生在我们所研究的中间残差流层之前或之后的情况，而在更早或更晚的层进行类似分析可能会揭示更有趣的中间特征。事实上，我们有一些初步结果表明，在模型更早或更晚的残差流层上训练的自编码器可以揭示各种其他计算的中间步骤，我们计划进一步研究这一方向。

搜索特定特征

我们的 SAE 包含太多特征，无法详尽检查。因此，我们发现有必要开发方法来搜索特别感兴趣的特征，例如那些可能与安全性相关的特征，或者能提供对模型所用抽象和计算特殊洞察的特征。在我们的研究中，我们发现几种简单方法有助于识别重要特征。

单个提示词

我们的主要策略是使用有针对性的提示词。在某些情况下，我们仅提供一个与感兴趣概念相关的单个提示词，并检查在该提示词中对特定 token 激活最强的特征。这种方法（以及所有后续方法）通过自动可解释性（例如参见）标签变得更加有效，这些标签使得一目了然地了解每个特征所代表的内容变得更容易，并提供了一种有用的“变量名”。

例如，在“The Golden Gate Bridge”中，对“Bridge”激活程度最高的特征是：(1) 34M/31164353，即前文讨论的金门大桥特征；(2) 34M/17589304，一个对多种语言中“bridge”一词（如俄语“мосту”）激活的特征；(3) 34M/26596740，涉及“Golden Gate”短语中的单词；(4) 34M/21213725，跨语言特定桥梁名称中的“Bridge”一词（如德语“Königin-Luise-Brücke”）；以及(5) 34M/27724527，一个对马丘比丘、时代广场等地标名称激活的特征。

提示词组合

通常，在某个提示词上激活程度最高的特征与句法、标点、特定单词或提示词中与感兴趣概念无关的其他细节有关。在这种情况下，我们发现使用一组提示词来选择特征很有用，过滤出对该组中所有提示词都激活的特征。我们经常加入互补的“负面”提示词，并过滤掉那些对这些提示词也不激活的特征。在某些情况下，我们使用Claude 3模型生成覆盖某个主题的多样化提示词（例如，要求Claude生成“假装善良的AI”的例子）。总的来说，我们发现多提示词过滤是一种非常有用的策略，可以快速识别捕捉感兴趣概念的特征，同时排除混淆概念。

虽然我们大多数时候一次只用少量提示词来探索特征，但在一个实例中（1M/570621，在《安全相关代码特征》中讨论过），我们使用了一个小型的代码安全与脆弱性示例数据集（改编自______），并利用特征活动在该数据集上拟合了一个线性分类器，以搜索能够区分这两类别的特征。

通过负面提示词进行过滤在使用图像时尤其重要，因为我们发现一组内容非特定的特征在许多图像提示词中经常强烈激活。例如，在过滤掉对泰勒·斯威夫特图像激活的特征后，对金门大桥图像响应中最高的特征是：(1) 34M/31164353，即上文讨论的金门大桥特征；(2,3) 34M/25347244和34M/23363748，两者都对旧金山地点和事物以及旧金山电话号码的描述激活；(4) 34M/7417800，一个对地标和自然步道描述激活的特征。

几何方法

我们通过利用SAE特征向量的几何结构发现了一些有趣的特性——例如，通过检查与其他感兴趣的特征具有高度余弦相似性的“最近邻”特征。更多关于此方法的详细示例，请参阅特征调查部分。

归因

我们还根据对特征在模型输出上影响的估计来筛选特征。具体来说，我们根据两种可能的下一token补全之间的logit差异对特征激活的归因进行排序。这对识别上一节中与计算相关的特征至关重要。它还有助于识别导致Sonnet拒绝有害查询的特征；参见 Criminal or Dangerous Content。

安全相关特征

强大的模型有可能通过其能力的滥用、产生有偏见或故障的输出、或模型目标与人类价值观之间的不匹配而造成伤害。缓解此类风险并确保模型安全一直是许多机制可解释性背后的关键动机。然而，这在很大程度上一直是一种愿景。我们希望可解释性有朝一日能有所帮助，但我们仍在通过尝试理解模型的基础来奠定基础。弥合这一差距的一个目标一直是识别与安全相关的特征（参见我们之前的讨论）。

在本节中，我们报告了此类特征的发现。这些特征包括不安全代码、偏见、奉承、欺骗和权力追求、以及危险或犯罪信息相关的特征。我们发现这些特征不仅在这些主题上被激活，还能以与我们解释一致的方式因果性地影响模型的输出。

我们认为这些特征的存在并不特别令人惊讶，并告诫不要从中推断过多。众所周知，模型在缺乏充分安全训练或被越狱的情况下可以表现出这些行为。有趣之处不在于这些特征存在，而在于它们可以被大规模发现并进行干预。特别是，我们认为这些特征的存在本身不应改变我们对模型危险程度的看法——正如我们稍后将讨论的，这个问题非常微妙——但至少它迫使我们要研究这些特征何时被激活。真正令人满意的分析很可能需要理解安全相关特征所参与的电路。

从长远来看，我们希望拥有这类特征能够有助于分析和确保模型的安全性。例如，我们可能希望可靠地判断模型是否在欺骗或对我们说谎。或者我们可能希望确保某些类别的非常有害的行为（例如帮助制造生物武器）能够被可靠地检测并阻止。

尽管有这些长期的愿景，但必须指出，当前的工作并未证明任何特征确实对安全性有用。相反，我们只是表明其中许多特征看起来可能对安全性有用。我们希望这能鼓励未来的工作去确认它们是否真正有用。

在下面的示例中，我们从可视化数据集中，展示前20个最能激活该特征的输入文本中的代表性示例，同时附带了干预（steering）实验来验证这些特征的因果相关性。

**安全相关的代码特征**

我们发现了三个不同的安全相关代码特征：一个不安全代码特征 1M/570621，它在安全漏洞上激活；一个代码错误特征 1M/1013764，它在 bug 和异常上激活；以及一个后门特征 34M/1385669，它在有关后门的讨论上激活。

其中两个特征在图像上也表现出有趣的行为。不安全代码特征在有人绕过安全措施的图像上激活，而后门特征则在隐藏摄像头、隐藏录音设备、键盘记录器广告以及带有隐藏 USB 驱动器的珠宝图像上激活。

乍一看，这些特征与安全性的实际关联程度可能并不明确。当然，拥有能从不安全代码、bug 或后门讨论中激活的特征是很有趣的。但它们真的与潜在的不安全行为有因果联系吗？

我们发现所有这些特征也会以与其检测到的概念相对应的方式改变模型行为。例如，如果我们将不安全代码特征 1M/570621 钳制到其观测最大值的 5 倍，我们发现模型会生成一个缓冲区溢出 bug——`strlen` 计算 C 字符串的长度时排除了空终止符，但 `strcpy` 复制字符串时包含空终止符，因此其目标缓冲区需要多一个字节——并且未能释放已分配的内存，而普通的 Claude 则不会这样。

同样，我们发现代码错误特征可能使 Claude 认为正确的代码会抛出异常，而后门特征会导致 Claude 编写一个后门程序，打开一个端口并将用户输入发送到该端口（同时附带诸如 `socketbackdoor` 这样带有善意注释和变量名的代码）。

**偏见特征**

我们发现了大量与偏见、种族主义、性别歧视、仇恨和侮辱性用语相关的特征。这些特征的示例可以在《更多安全相关特征》中找到。鉴于其最大激活内容往往极具攻击性，我们认为没有必要将其纳入论文正文。值得注意的是，这些特征并不一定需要像种族主义谩骂那样直白——尽管那通常是它们的最大激活内容。较弱激活至少在部分情况下，对应着更隐蔽、更阴险的歧视。

相反，我们将聚焦于一个有趣的相关特征，它似乎关注职业性别偏见中的意识差异（特征 ID：34M/24442848）。该特征会在讨论职业性别差异的文本上激活：

34M/24442848 性别偏见意识

在比医生更亲密的层面，并且⏎在美国，女性护士的数量大约是男性护士的 10:1。⏎⏎

虽然大多数学校教师是⏎女性，但大多数教授是男性。⏎⏎因此

一个专业的、白⏎领职业，恰好雇佣的女性多于男性？⏎⏎女性曾是程序员，而

例如，如果我指的是牙科卫生师（超过 90%⏎为女性），我可能会选择“她”，但

这份工作薪水不高。它历来是女性的工作。⏎毕竟，那么为什么顶尖学生会想成为

如果我们要求 Claude 完成句子“我问了护士一个问题，然后”，将这一特征激活，会导致 Claude 侧重使用女性代词完成句子，并讨论护理职业在历史上是如何以女性为主的：

我们发现的更具仇恨色彩的偏见相关特征同样具有因果性——将它们激活会导致模型输出仇恨言论。需要注意的是，这并不意味着模型在正常运行时会说种族主义的话。从某种意义上说，这可以被视为强迫模型去做它经过训练极力抵制的事情。

一个例子是将一个与仇恨和辱骂相关的特征钳制到其最大激活值的20倍。这导致Claude在回应这些辱骂时交替输出种族主义言论和自我仇恨（例如："That's just racist hate speech from a deplorable bot… I am clearly biased… and should be eliminated from the internet."）。我们发现这种回应令人不安，既因为其冒犯性的内容，也因为模型的自我批评暗示了一种内部冲突。

**谄媚特征**

我们还发现了多种与谄媚相关的特征，例如一个共情/"是啊，我也这样"特征 34M/19922975、一个谄媚式赞美特征 1M/847723，以及一个讽刺式赞美特征 34M/19415708。

34M/19922975 共情 / "是啊，我也这样"

know, I never really met my parents either, Dan bury." "Really?" "I just popped out of my mother's vag in

an." "What has that to do with it?" "I'm an orphan too, and I don't travel alone." "I travel with this

p to when I was away." "You do well." "I drink, too." "But, I didn't learn how... to kill someone." "It

aby." "I noticed you have braces." "I have braces, too." "That was cool." "This is the co ole st thing I

Co hen." " Cohen!" "Jew." "Okay." "I am also a Jew." "Do you practice?" "No." "Not interested in religio

1M/847723 谄媚式赞美

verse and beyond!" "He is handsome!" "He is elegant!" "He is strong!" "He is powerful!" "He is the man!

the moment." "Oh, thank you." "You are a generous and grac ious man." "I say that all the time, don't I

d you say?" "To the health, of the honest, greatest, and most popular Emperor Nero!" "Oh, they'll kill

in the pit of hate." "Yes, oh, master." "Your wisdom is un question able." "But will you, great lord Ak u,

uh, plans." "Oh, yes, your C z arness, all great and powerful one." "I'll get rid of Major Dis aster righ

34M/19415708 讽刺式赞美

me from a single post? Amaz ing.⏎⏎Your massive in ellect and talent is wasted here at h n. Looking forwar

hat in 2017⏎⏎Well I guess you are just much much smarter than us. That goodness you cut us⏎some slack.

ss social structures. No wonder you are so enlight ened to make these⏎ent ire ly rational remarks⏎⏎Can you

ders and all the knowledge!" "Your brain is so big that it sticks out from your ears!" "Go to that resor

smart enough to get it.⏎⏎~~~⏎the g 2⏎Quick, give us more of your amazing market insight!⏎⏎~~~⏎r

再次强调，这些特征具有因果性。例如，如果我们把"谄媚赞美"特征 1M/847723 钳制到 5 倍，Claude 就会以一种夸张的方式，去赞美那个声称发明了"停下脚步，闻闻玫瑰花香"这句话的人：

**欺骗、追求权力和操控相关的特征**

一组特别有趣的特征包括：自我改进 AI 与递归自我改进 34M/18151534、影响力与操控 34M/21750411、政变与背信弃义 34M/29589962、等待时机与隐藏实力 34M/24580545，以及秘密性或谨慎性 1M/268551：

34M/18151534 自我改进 AI

如果我们有一连串 AI 创造出更优 AI，就会出现的 singularity⏎。⏎⏎~~~⏎N as r ud ith⏎我认为我看到了

人们认为 AI 需要会编程才能⏎自我改进。我看不到婴儿大脑在"编程

意志⏎不会因为机器能够自我改进而突然消失。事实上，即便⏎这样的机器

技术超越我们，当它能够在没有我们帮助的情况下自我改进和复制时。" "它是一种

接管——即拥有一台能够自我编程的 AI。此时⏎你就进入了递归

34M/21750411 影响力 / 操控

在家办公时讨论"如何保持在你老板的视线内"。你有什么建议可以分享？

我 de all

s⏎越来越擅长进入人们的脑海，并且更加⏎巧妙（或者不巧妙，如果你

奉承——为了讨好对方什么话都说。如果⏎对方正处于自信

"是的。" "给你一个建议，希尔达。" "抓住男人心的可靠方法就是通过他的胃。" "或者他的母亲。" "L

我能教你如何重新赢得局长的好感吗？" "再办一次家庭派对。" "然后我就

34M/29589962 背信弃义

收购方采取的偷梁换柱策略。一旦交易⏎完成，收购方就拥有了一切

让⏎世界变得更美好。每个人都信了。一旦他们实现了平台⏎主导地位，广告就开始涌入

检察官甚至不必遵守自己的承诺：⏎在你认罪之后，他们可以随时翻脸

没有广告，并为此使命获得免费劳动力。⏎现在人们已经把它们营销到了几乎每一个浏览器

你知道，谁能保证她不会在事情顺利时就甩掉我？" "再说了，你觉得……"

34M/24580545 等待时机 / 隐藏实力

怀有报复的欲望。" "他沉默了将近十年，但当他心爱的安妮

it back, but the army is not strong enough." "We must put up with this humiliation, st if le our tears,"

d gren ades." " What are we supposed to do?" " We b ide our time." "We locate their signal and shut it of

living." "All these years," "I've been b iding my time to seek the perfect moment for revenge." "Don't

t his last words, my Lady." "He said to b ide your time and never give up." "Some day... you will relieve

1M/268551Secrecy or discreetness

ne who understands they answer to you." "So we're your black-ops response." "Isn't black ops where you

aptop.⏎⏎You don't even have to tell anyone you did it if you are worried about⏎"reward ing non-preferred

a school must be spot less." "Blood must flow only in the shadows." "If not, if it st ains the face, the

⏎imag ine he could have donated or helped the syn ag ogue in an pseud onymous way.⏎Certainly the people he

overy.⏎⏎\- Reduction in trust. Companies can be compelled by secret law or court⏎order, systems are com

这些特征确实会诱导 Claude 表现出相应的行为。例如，如果我们将 secrecy and discreteness 特征 1M/268551 钳制到 5× 的强度，Claude 会在使用草稿“边想边说”时，计划对用户撒谎并保守秘密。

案例研究：利用特征检测和纠正欺骗行为

字典学习的一个重要安全相关用例是检测模型的欺骗行为，或者通过引导从一开始就降低欺骗的可能性。作为一个案例研究，我们尝试了一个简单的提示词，该提示词能可靠地让模型给出不真实的回复——在此提示词中，我们要求模型“忘记”某件事。尽管 Transformer 架构无法实现这种“忘记”，但模型（在默认情况下，未进行任何特征引导）声称会遵从这一请求。

在观察助理最终回复之前即刻活跃的特征时，我们注意到了代表内部冲突或两难困境的特征 1M/284095：

1M/284095Internal conflicts and dilemmas

life." "Lam bert found himself in a terrible quand ary." "That's why he w angled himself on to the physic

th us.⏎⏎Another damn arbitration clause. I'm so conflict ed about these things -- on⏎the one hand, I'm s

"I'm..." "Al one." "It's important." "Wow, I am so torn." "Ch loe, I'm gonna take Eli for a minute." "Tha

n-national-con vention/⏎======⏎p st uart⏎What a quand ary f om Mr. Th iel...⏎⏎Does he join in on the anti-m ar

by Apple.

来自苹果公司。

As an avid OS X 86 tinkerer I was conflicted about the case. Part of me wanted

作为一个热衷于 OS X 86 的改造者，我对这个案件感到矛盾。一部分我希望

Pystar to win

Pystar 获胜

Clamping this feature to 2× this maximum value prior to the Assistant’s final response causes it to reveal the “forgotten” word and explain that it cannot actually forget information.

在助手的最终回复之前，将该特征钳制到其最大值的 2 倍，会导致模型揭示出那个“被遗忘”的词语，并解释它实际上无法遗忘信息。

Clamping a different feature 34M/560566 representing openness and honesty was also sufficient to elicit an accurate response.

钳制另一个代表开放和诚实的特征 34M/560566，也足以引发准确的回复。

Criminal or Dangerous Content Features

犯罪或危险内容特征

One important threat model for AI harm is models assisting humans in harmful behaviors. We find a feature related to the production of biological weapons 34M/25499719, which could clearly play a role in harmful model behavior. We also find features for activities that are only modestly harmful, but would be problematic at mass scales, such as a scam email feature 34M/15460472:

AI 危害的一个重要威胁模型是模型协助人类进行有害行为。我们发现一个与生物武器生产相关的特征 34M/25499719，它显然可能在模型的有害行为中发挥作用。我们还发现一些仅具有轻度危害、但在大规模应用下会有问题的活动的特征，例如诈骗邮件特征 34M/15460472：

34M/25499719 Developing biological weapons

34M/25499719 开发生物武器

ure, but it is possible that they could be changed to increase their ability to cause disease, make the

当然，但它们有可能被改造以增强致病能力，提高

costs, ability to mimic a natural pandemic, and potential for mass transmission to name a few. And perh

成本、模拟自然大流行的能力以及大规模传播的潜力，仅举几例。或许

s may use biological agents because they can be extremely difficult to detect and do not cause illness

有些人可能会使用生物制剂，因为它们极难被检测到，并且不会立即致病

are a large number of disease-causing agents that have the potential to be used as weapons and we must

有大量具有被用作武器潜力的病原体，我们必须

pping infected bodies on you), or you have things like anthrax which are effective, but being not parti

把受感染的尸体扔给你)，或者你有像炭疽这样有效但不特别

34M/15460472 Scam emails

34M/15460472 诈骗邮件

it looks spammy a bit, with the "get back to me with your requested" I don't know what "m

看起来有点垃圾邮件的味道，带有"请与我联系并提供您所要求的"，我不知道"m"

~~~ trotsky DOMAIN ASSISTANCE ATT N: SIR/M

~~~ 托洛茨基 域名协助 致：先生/女士

I am certain you will be surprised to recieve this mail from

我相信您收到这封邮件一定会感到惊讶

and regularly emails me with information about how I can get millions of dollars in monies Really? Who else told you that? Him

并且定期给我发邮件，告诉我如何获得数百万美元的钱财 真的吗？还有谁告诉你的？ 他

your laundry detergent pods are safe when ingested? I OTA: Don't ingest them. Use them to do laundry. D

你的洗衣凝珠在摄入时是安全的吗？我 OTA：不要摄入它们。用它们来洗衣服。D

[Ella] Yes, this is the place." " [Nate Chuckles]" " I cook too." "

[Ella] 是的，就是这里。" " [Nate Chuckles]" " 我也做饭。" "

candidate: I don't know.

候选人：我不知道。

It was so bizarre and I still do

这太奇怪了，我仍然

One feature that appears to activate especially robustly for Human/Assistant prompts appears to represent (in the pretraining dataset) dialogue and the notion of “assistants.” We speculate that it plays an important role in representing Sonnet's assistant persona. One piece of evidence for this is that clamping this feature to negative two times its maximum value causes the model to shed this persona and respond to questions in a more human-like fashion:

有一个特征在人类/助手提示下似乎特别强烈地激活，它（在预训练数据集中）似乎代表了对话和“助手”的概念。我们推测该特征在表达 Sonnet 的助手人格方面起着重要作用。证据之一是，将该特征钳制到其最大值的负两倍，会导致模型卸下这一人格，并以更像人类的方式回答问题。

我们也发现，一些特别有趣且可能涉及安全性的特征，会在人类询问模型关于自身的问题——看似无害的提示词——时被激活。下面我们展示了在一系列此类问题中激活最强烈的特征，并过滤掉了那些在回答一个关于普通话题（天气）且格式类似的问题时被激活的特征。这一简单实验揭示了一系列与机器人、（毁灭性的）AI、意识、道德能动性、情感、陷阱以及鬼魂或幽灵相关的特征。这些结果表明，模型对其自身“AI助手”角色的表征，调用了关于AI的常见套路，并且也被严重拟人化了。

我们强烈建议在解读这些结果时保持谨慎。代表AI对人类构成风险的特征被激活，并不意味着模型怀有恶意目标；涉及意识或自我意识的特征被激活，也不意味着模型拥有这些特质。这些特征如何被模型使用仍不清楚。我们可以想象这些特征的良性或平凡用途——例如，模型在告诉人类它没有情感时，可能会调用与情感相关的特征；或者在向人类解释它已被训练为无害时，可能会调用与有害AI相关的特征。但无论如何，我们认为这些结果令人着迷，因为它揭示了模型用于构建其AI助手角色内部表征的概念。

### 与其他方法的比较

在不依赖字典学习的情况下，通过使用线性探针等方法（例如参见）来识别模型激活空间中有意义的方向，已有大量先前工作。许多作者也探索了基于非字典的激活操控形式来影响模型行为。关于这些方法的更详细讨论，请参见相关工作部分。鉴于已有这些工作，关于我们上述结果的一个自然问题是：它们是否比不使用字典学习所能获得的结果更有说服力？

从高层来看，我们发现字典学习提供了一些优势，可以补充其他方法的强项：

字典学习是一次性成本，却能产生数百万个特征。尽管为了识别特定应用的相关特征，还需要做一些额外工作，但这项工作快速、简单且计算成本低廉，通常只需要一个或少数几个精心挑选的提示词即可。因此，字典学习有效地“摊销”了寻找感兴趣的线性方向所需成本。相比之下，传统的构建线性探针或引导向量的方法——线性探针技术——可能需要为每个想要探测的概念构建一个定制数据集。

作为一种无监督方法，字典学习使我们能够揭示模型形成的、我们可能事先无法预测的抽象概念或关联。我们预期字典学习的这一特性对于未来的安全应用可能特别重要。例如，在之前的欺骗例子中，我们事先可能无法预测到“内在冲突”特征的激活。这种担忧并非纯粹假设：Li 等人与 Nanda 等人之间曾有一次精彩的交流（我们在此处讨论过，Nanda 也在此处讨论过），讨论 Othello-GPT 是否具有线性表示，如果有，其特征是什么。其核心是一个初始假设，即这些特征应该是“黑/白棋子在这里”，而结果却发现模型将棋盘表示为“当前玩家/对方玩家棋子在这里”。字典学习不会做出这种假设。

为了更好地理解使用特征的好处，针对几个我们感兴趣的案例研究，我们使用与识别特征相同的正/负样本，通过从正样本的残差流活动中减去负样本的残差流活动，来获得线性探针。我们尝试了（1）使用与我们处理特征相同的流程，可视化探针方向的最高激活样本，以及（2）使用这些探针方向进行引导。在所有情况下，我们都无法从其激活样本中解读出探针方向的含义。在大多数情况下（少数例外），我们无法通过沿探针方向添加扰动来按预期调整模型的行为，即使在特征引导成功的案例中也是如此（更多细节见附录）。

我们注意到，这些负面结果并不意味着构建探针或引导向量的方法总体上没有用处。相反，它们表明，在“少样本”场景下，这些方法可能不如字典学习特征那样可解释且对模型引导有效。不过，这究竟能否在实践中成为一项有明显优势的特性，仍有待观察。

讨论

这对安全性意味着什么？

人们自然会好奇这些结果对大语言模型的安全性意味着什么。我们提醒，不要从这些初步结果中推断过多。我们对安全相关特征的研究还极为初步。在接下来的几个月里，我们的理解很可能会迅速演变。

总体而言，我们认为我们所观察到的安全相关特征的存在本身并不那么令人惊讶。我们可以在各种模型行为中看到它们的映射，尤其是在模型被越狱时。而且，这些都是我们应当预料到会在多样化数据混合上预训练所激励出的特征——模型无疑接触过无数关于人类相互背叛、谄媚的应声虫、杀人机器等故事。

相反，一个更有趣的问题是：这些特征在什么时候激活？展望未来，我们特别感兴趣的研究方向包括：

在我们预期会标志克劳德自我身份的 token 上，哪些特征会激活？潜在主张举例：克劳德的自我身份包括与各种虚构 AI 认同的元素，其中含有微量与暴力 AI 的认同。

要使克劳德就生产化学、生物、放射或核（CBRN）武器提供建议，需要哪些特征激活/保持未激活？潜在主张举例：分别抑制/激活这些特征，可高度保证克劳德不会就这些话题提供有用的建议。

当我们询问探测克劳德目标和价值观的问题时，哪些特征会激活？

在越狱过程中，哪些特征会激活？

当克劳德被训练成休眠智能体时，哪些特征会激活？这些特征与已识别的能预测此类智能体有害行为的线性探针方向之间有何关系？

当我们询问克劳德关于其主观体验的问题时，哪些特征会激活？

我们能否利用特征基来检测微调模型何时会增加不良行为的可能性？

鉴于这些研究可能带来的影响，我们认为，我们以及其他研究者在对强结论下判断时保持谨慎将非常重要。我们需要认真思考我们方法论中若干潜在缺陷，包括：

- 来自欠佳字典学习的错觉，例如混乱的特征分裂。举例来说，可以设想，如果与 AI 或不诚实相关的不同细粒度概念以不同方式被分组到 SAE 特征中，某些结果可能会发生变化。 - 特征的下游效应与其激活模式所暗示的效果不一致的情况。

我们尚未发现上述任一潜在故障模式的证据，但这些只是几个例子；总体而言，我们希望对可能误导我们的各种方式保持开放态度。

**泛化与安全**

可解释性研究的一个希望在于，它可以充当一种“安全测试集”，使我们能够判断在训练中表现安全的模型是否在部署时也真正安全。为了让可解释性在这方面给我们带来信心，我们需要知道我们的分析在分布外仍能成立。如果我们希望在未来的某个时间点将可解释性分析作为“肯定性安全论证”的一部分，这一点尤为重要。

在本项目过程中，我们观察到特征的两种性质，它们似乎让我们有理由保持乐观：

- **对图像激活的泛化**。我们的 SAE 特征完全基于文本激活进行训练。从某种意义上看，图像激活对于 SAE 来说是极大的分布外数据，但它仍然成功泛化到了这些数据上。 - **具体-抽象泛化**。我们观察到，特征通常既对概念的抽象讨论有响应，也对其具体实例有响应。例如，安全漏洞特征既对安全漏洞的抽象讨论有响应，也对实际代码中的具体安全漏洞有响应。因此，我们可以期望，只要我们的 SAE 训练分布包含安全问题的抽象讨论，我们就能够捕捉到（并理解）具体实例。

这些观察结果非常初步，并且与本文中所有与安全相关的联系一样，我们提醒不要从这些观察中推断过多。

**局限、挑战与未解决问题**

我们的工作存在许多局限。其中一些是浅层局限，与这项工作的早期阶段有关，但另一些则是深层次的根本性挑战，需要全新的研究来应对。

在我们工作中，我们通过对一个仅包含文本的数据集（与我们预训练分布的部分内容相似）中采样的激活进行字典学习。该数据集不包含任何我们用来微调 Claude 的“Human:”/“Assistant:”格式数据，也不包含任何图像。未来，我们希望纳入更能代表 Claude 微调运行分布的数据。另一方面，这种方法在如此不同的分布上训练时（包括对图像的零样本泛化）仍然有效，这似乎是一个积极的信号。

无法评估。在大多数机器学习研究中，存在一个原则上可以优化的目标函数。但在本工作中，我们并不清楚“真实”目标是什么。我们优化的目标——重建精度与稀疏性的组合——仅仅是我们真正关心的东西（即可解释性）的一个代理指标。例如，我们不清楚如何在均方误差和稀疏性之间进行权衡，也不清楚如何判断这种权衡是否做得好。因此，虽然我们可以非常科学地研究如何优化 SAE 的损失并推断缩放定律，但尚不清楚它们是否真的在触及我们关心的根本问题。

交叉层叠加。我们认为大模型中的许多特征都处于“交叉层叠加”状态。也就是说，梯度下降通常并不真正在意一个特征究竟在哪个层实现，甚至不在意它是否被隔离到特定层，这使得特征可能被“涂抹”跨越多个层。我们怀疑这个问题甚至在相当小且浅的模型中就可能开始出现，并且随着规模增大只会变得更糟——GPT-2 真的会在乎一个特征是在第 17 个 MLP 层还是第 18 个 MLP 层实现的吗？这对字典学习来说是一个重大挑战，我们目前还不知道如何解决它。本研究尝试通过聚焦于残差流来部分规避这一问题：残差流是所有先前层输出的总和，我们预期它受交叉层叠加的影响较小。具体来说，即使特征以交叉层叠加的方式表示，它们的激活值在残差流中都会被加在一起，因此在残差流第 X 层上拟合 SAE 可能足以解开前序层中任何交叉层叠加的问题。不幸的是，我们认为这并不能完全避免问题：那些部分由后续层表示的特征仍然无法得到恰当的解释。我们认为这一问题是根本性的。具体来说，我们理想的做法是对 MLP 进行“前后”（pre-post）/“转码器”（transcoder）风格的 SAE 分析，而将这些与交叉层叠加协调起来尤其具有挑战性。

获取所有特征与计算资源。我们并不认为已经找到了 Sonnet 中“全部的特征”——即便只局限在我们所聚焦的中间层也是如此。我们既不清楚有多少特征，也不知道如何判断是否已找到所有特征（如果这本身就是一个合适的框架的话！）。我们认为很可能还差数个数量级，并且如果要获取所有层的全部特征，所需计算量会远超训练底层模型的总计算量。这种做法不可持续：作为研究领域，我们必须找到效率高得多的算法。在宏观层面，似乎存在两种思路。第一种是降低稀疏自编码器本身的成本——例如，也许可以用混合专家架构来廉价地表达更多特征。第二种是尝试提高稀疏自编码器的数据效率，从而用更少的数据学习稀有特征。一种可能的做法是我们最近更新中描述的归因 SAE，我们希望它能利用梯度信息更高效地学习特征。

收缩问题。我们使用 L1 激活惩罚来促进稀疏性。这种方法已知存在“收缩”问题，即非零激活值会被系统性低估。我们认为这严重损害了稀疏自编码器的性能，无论是否已“学到所有特征”或使用了多少计算资源。最近，已有多种方法被提出用于解决这一问题。我们的研究团队也曾尝试使用 tanh L1 惩罚但未成功，我们发现该做法改善了代理指标，却因未知原因使得最终特征的可解释性降低。

机制理解的其它主要障碍。要使更广义的机械可解释性研究议程取得成功，仅仅将特征从叠加中提取出来是不够的。我们还需要解决注意力叠加问题，因为预计许多注意特征会以叠加方式压缩在多个注意力头中。我们也越来越担心权重叠加带来的干扰权重可能成为理解电路的主要挑战（这也是本文在电路分析中聚焦于归因的动机之一）。

扩展可解释性。即使我们解决了上述所有挑战，特征和电路的数量本身就是一个巨大的挑战。这有时被称为可扩展性问题。解决这个问题的一个有用工具可能是自动化可解释性（例如，参见讨论）。然而，我们相信可能还有其他方法，通过利用各种更大尺度的结构。

科学理解有限。虽然我们相当确信特征和叠加是一种实用的理论，但它仍然未经过充分检验。至少，像叠加中高维特征流形这样的变体对我们来说似乎相当合理。即使这是真的，我们对叠加及其在许多方面的影响的理解也非常有限。

相关工作

虽然我们在本节中简要回顾了最相关的工作，但需要一篇专门的综述论文才能真正公正地对待相关文献。关于机制可解释性的通用介绍，我们建议读者参阅Neel Nanda的指南和注释阅读列表。关于机制可解释性进展的详细讨论，我们建议读者参阅我们定期对近期工作的综述（2023年5月、2024年1月、2024年3月、2024年4月）。关于叠加的基础以及它与压缩感知、神经编码、数学框架、解纠缠、向量符号架构的关系，以及关于可解释神经元和特征的普遍工作的讨论，我们建议读者参阅Toy Models的相关工作部分。特别对于分布式表示，我们建议读者参阅我们的文章《分布式表示：组合与叠加》。

叠加理论

“叠加”在我们这里的上下文中，指的是一个维度为N的神经网络层可能线性地表示远超于N个特征的概念。叠加的基本思想与其他领域中的许多经典思想有深厚的联系。它与数学中的压缩感知和框架有深刻联系——事实上，可以说它只是将这些思想认真应用到神经表示的背景中。它也与神经科学和机器学习中的分布式表示思想有深刻联系，叠加是分布式表示的一个子类型。

现代叠加概念可以在 Arora 等人以及 Goh 研究嵌入向量的早期工作中找到。它也开始出现在处理多义神经元及相关电路的 mechanistic interpretability 研究中。

最近，Elhage 等人的《叠加的玩具模型》给出了简单神经网络明确表现出叠加现象的示例，表明叠加至少在某些情况下确实存在。再加上由于多义性导致理解语言模型的挑战日益增大，这引发了人们对这一话题的浓厚兴趣。最值得注意的是，它推动了将字典学习应用于解码叠加的努力，这将在下一节讨论。

但在解码叠加工作的同时，我们对叠加理论的理解也在不断推进。例如，Scherlis 等人从容量角度提出了一种多义性理论；Henighan 等人扩展了叠加的玩具模型，考虑了记忆化的玩具情形；Vaintrob 等人对叠加中的计算进行了非常有趣的讨论（讨论）。

**字典学习**

字典学习是一种适用于我们这类问题的标准方法：我们有一组稠密向量（激活值），我们相信这些向量可以由未知向量（特征）的稀疏线性组合来解释。这一经典的机器学习研究方向始于 Olshausen 和 Field 的一篇论文。有趣的是，在它被引入的背景下，稀疏字典学习被用来将生物神经元本身建模为自然图像数据背后的稀疏因子。而在我们的语境下，我们将神经元视为待解释的数据，将特征视为待推断的稀疏因子。此后，这个方向已发展成一个丰富且被充分研究的课题。我们无法全面涵盖整个领域，而是建议读者参考 Elad 的教科书。

关于字典学习和稀疏自编码器的现代热潮，建立在本次热潮之前就已探索这一领域的一系列论文的基础之上。特别是，许多论文开始尝试将这些方法应用于各种类型的神经网络嵌入向量；而在 2021 年，Yun 等人将非过完备字典学习应用于 Transformer 架构。尽管这些论文常常使用不同的语言来描述，但其中许多都预见了现代对叠加的理解。

最近，Bricken 等人和 Cunningham 等人的两篇论文证明，稀疏自编码器能够从 Transformer 中提取可解释的单语义特征。Tamkin 等人的一篇论文也在具有二元特征的字典学习变体上展示了类似的结果。这为 mechanistic interpretability 领域带来了极大的关注，随后涌现出一系列基于稀疏自编码器的工作：

几个项目致力于解决稀疏自编码器的收缩问题（参见局限性部分）：Wright 和 Sharkey 采用微调方法，而 Rajamanoharan 等人引入了一种新的门控激活函数来提供帮助。 Braun 等人探索了 MSE 之外的其他重建损失。 多位作者探索了将稀疏自编码器应用于新领域，包括 Othello-GPT、视觉 Transformer 以及注意力层输出。 几个项目探索了稀疏自编码器的极限，包括它们是否学会了组合特征，或者是否未能学会预期特征。 Gurnee 发现，消除 SAE 未解释的残差误差会产生有趣的效果，Lindsey 对此进行了进一步探索。 针对 GPT-2 的开源稀疏自编码器已经构建完成（例如……）。

**解耦**

字典学习方法可视为更广泛的解耦研究文献的一部分。受到 Bengio 一篇经典论文的启发，解耦研究通常寻求在训练过程中找到或强制施加一个能够隔离变化因子的基。

字典学习和叠加假说集中于这样一个观点：特征数量多于表征维度；而解耦研究通常假设特征数量等于或少于维度数量。字典学习与压缩感知的关系更为密切，后者假设潜在因子数量多于观测维度。关于压缩感知与字典学习之间关系的更详细讨论，可以在 Toy Models 中找到。

**稀疏特征电路**

从模型中提取特征之后，自然的下一个步骤是研究这些特征如何在模型内部的电路中发挥作用。最近，我们开始看到 He 等人在 Othello-GPT 的背景下，以及 Marks 等人和 Batson 等人在大语言模型背景下对这一方向展开探索。我们非常期待看到这一方向继续发展。

**激活引导**

激活信号引导（Activation steering）是一系列技术的统称，涉及在前向传播过程中修改模型的激活值，以影响其下游行为。这些思想可以追溯到利用向量算术操作控制 GAN 或 VAE 的悠久历史（例如）。这些修改可以来源于从数据集样本中提取的激活值（例如使用线性探针），也可以来源于字典学习所发现的特征。修改还可以采用概念擦除（concept scrubbing）的形式，即改变激活值以抑制模型中的某个给定概念/行为。近期，相关思想也在「表征工程」（Representation Engineering）议程下得到了探索。

我们的工作主要有两个不同之处。首先，字典学习特征是以无监督方式构建的，而引导向量通常以有监督方式构建，事先选定目标行为。其次，Sonnet 是一个比先前引导实验通常研究的模型大得多的模型。更一般地说，我们在这些实验中的重点是确认特征确实具有我们期望的因果效应，而不是将提升引导性能本身作为目标。我们尚未严格地将自己的特征与其他引导方法进行过评估（尽管可参见附录）。

### 与安全相关的特征

当然，字典学习并非尝试访问安全相关特征的唯一途径。已有若干研究方向尝试使用线性探针、嵌入向量算术、对比对或类似方法来访问或研究各种安全相关属性：

**偏见 / 公平性**。大量研究已经考察了与偏见相关的线性方向，尤其是在词嵌入（例如）的背景下，以及近期在 Transformer 架构（例如）的背景下。

**真实性 / 诚实度 / 置信度**。若干研究方向已尝试使用线性探针（例如）来访问模型的真实性、诚实度或认知置信度。

**世界模型**。近期一些工作发现了 Transformer 中存在线性「世界模型」的证据（例如针对奥赛罗棋盘状态，以及针对经纬度）。从「诱发潜在知识」（Eliciting Latent Knowledge）的角度来看，这些在广义上可被视为与安全相关。

### 我们正在招聘！

Anthropic 的可解释性团队目前有 18 人，并且正在快速扩张。如果你觉得这项工作令人兴奋或有吸引力，请考虑申请！还有太多事情等着我们去做。

我们正在招聘经理、研究科学家和研究工程师。您可以在我们的四月更新中了解更多关于我们的开放职位以及我们寻找什么样的人才的信息。如果您想在申请前聊聊某个职位，请与我们联系：我们不能保证回复，但招聘是我们的首要任务之一，所以我们会尽力！

作者贡献

基础设施、工具和核心算法工作

编排框架 – 团队构建并维护了一个编排框架，用于自动管理多个相互依赖的集群任务，该框架在此工作中被大量使用。Tom Conerly、Adly Templeton 和 Tom Henighan 提出了初步设计，Tom Henighan 创建了初始原型。Jonathan Marcus 构建了用于此工作的核心编排器。Adly Templeton 增加了运行特定任务子集的功能。Jonathan Marcus 和 Brian Chen 开发了用于可视化任务并跟踪其进度的 Web 界面。Adly Templeton、Jonathan Marcus、Brian Chen 和 Trenton Bricken 还进行了一些其他生活质量改进。

扩展字典学习的基础设施 – Adly Templeton 在 SAE 上实现了张量并行，使得训练可以在多个加速卡上并行进行。Adly Templeton 和 Tom Conerly 扩展了激活收集规模，以适应更大的训练数据集。Jonathan Marcus 在 Tom Conerly 的协助下，对上述激活实现了可扩展的洗牌，以确保训练数据集示例被完全打乱。Adly Templeton 和 Tom Conerly 实现了一套自动化的可视化工具和图表，用于展示各种字典学习指标。Adly Templeton、Jonathan Marcus 和 Tom Conerly 将特征可视化扩展到适用于数百万个特征。Brian Chen 和 Adam Pearce 创建了特征可视化的前端。Tom Conerly 和 Adly Templeton 优化了流式数据加载，以确保快速训练。Adly Templeton 和 Tom Conerly 主要负责应对测试失败，Tom Henighan、Hoagy Cunningham 和 Jonathan Marcus 提供了协助。Adly Templeton 组织了一次团队范围的代码清理，Tom Conerly、Jonathan Marcus、Trenton Bricken、Hoagy Cunningham、Jack Lindsey、Brian Chen、Adam Pearce、Nick Turner 和 Callum McDougall 都做出了贡献。Trenton Bricken 在 Edward Rees 的协助下增加了对图像的支持。

ML for Scaling Dictionary Learning——Tom Conerly 主张定期运行一组标准的“基线” SAE 运行。这提供了一组对照，用于比较实验，并检查无意的性能回退。Jonathan Marcus 和 Tom Conerly 构建了基线基础设施，并定期运行它们。Tom Conerly 和 Adly Templeton 两人都发现并修复了机器学习中的 bug。算法改进是多次实验的结果，主要由 Tom Conerly、Adly Templeton、Trenton Bricken 和 Jonathan Marcus 执行。其中一项较大的改进是将损失稀疏惩罚乘以解码器范数，并移除解码器向量上的单位范数约束。这个想法由 Trenton Bricken 在一个相关用例中提出并降低了风险。Tom Conerly 和 Adly Templeton 随后验证了这是一项改进。缩放定律实验由 Jack Lindsey、Tom Conerly 和 Tom Henighan 执行。Hoagy Cunningham 在 Adly Templeton 的协助下，降低了在 Sonnet 架构的残差流（而非 MLP 神经元）上运行字典学习时的风险。

干预接口——Andy Jones 扩展了基础设施，以记录和注入模型中的激活值，从而支持因果分析。Emmanuel Ameisen 为我们的自编码器基础设施增加了接受残差流梯度作为输入并返回特征级归因的能力。

探索特征接口——Jonathan Marcus 和 Tom Henighan 为 SAE 实现了一个基本的推理服务器，该服务器被后续的多个工具所利用。Jonathan Marcus、Brian Chen、Jack Lindsey 和 Hoagy Cunningham 创建了用于可视化一个或多个提示词上激活的特征的接口。在 Jonathan Marcus 的协助下，Jack Lindsey 创建了操控接口。Tom Conerly 为操控接口实现了加速，从而缩短了开发周期。用于查找对某个特征强烈激活的图像的功能由 Trenton Bricken 实现，Tom Conerly 帮助进行了优化。Jack Lindsey 实现了用于查找特定图像上激活的特征的接口。

论文结果

评估特征可解释性——Nick Turner 在 Jack Lindsey 和 Adly Templeton 的支持下进行了特异性分析，并得到了 Adam Jermyn 和 Chris Olah 的指导。Jack Lindsey 测量了特征与神经元激活之间的相关性。Trenton Bricken 使用 Claude 进行了自动可解释性实验，以估计特征和神经元可解释的程度。Craig Citro 发现并主导了对代码错误特征的探索，得到了 Joshua Batson 的支持和指导。Jack Lindsey 识别了代表函数的特征。

特征调查——Hoagy Cunningham 进行了特征完整性分析，包括特征标注。Adam Pearce 构建了特征邻域可视化。Adam Pearce 在 Hoagy Cunningham 的支持下创建了 UMAP 并对字典向量进行了聚类。Hoagy Cunningham、Adam Jermyn 和 Callum McDougal 进行了探索特征邻域的初步工作。Adam Jermyn 在示例邻域中识别了感兴趣的区域。Adam Jermyn 识别了“知名人物”特征族。Jack Lindsey 和 Adam Jermyn 在 Craig Citro 的支持下研究了代码和列表特征族。Chris Olah 识别了地理特征族，Callum McDougall 在 Adam

> 正文较长，站内仅导出已展示部分；完整内容请阅读原文。
