1月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

2024年1月可解释性研究进展与团队计划

Anthropic可解释性团队分享了2024年1月的多项初步研究想法。团队未来数月将聚焦三个方向：扩展字典学习方法、利用其分析真实模型中的注意力叠加现象，以及在此基础上解析电路机制。报告提及在注意力叠加几何结构上的新发现，例如在仅用两个注意力头表征五个“真实注意力特征”的玩具模型中，混合矩阵呈现出显著的几何结构。此外，团队也探讨了字典学习能否从MNIST模型中提取稀疏特征。这些内容多为初步成果，旨在促进领域内研究者交流。

Anthropic 数据/训练论文/研究

10月4日

00:00

Anthropic：Transformer Circuits（可解释性研究）

迈向单义性：使用字典学习分解语言模型

本研究针对神经网络神经元多义性导致可解释性差的问题，采用稀疏自编码器对单层Transformer中512神经元的MLP层进行字典学习。基于80亿数据点的激活训练，特征数量从512扩展至131,072个。以4096个特征集合（A/1）为重点，通过详细调查和自动化评估，证明大多数特征具有单义性和可解释性，能有效分解MLP激活，为理解神经网络行为提供了新途径。

Anthropic 数据/训练论文/研究

7月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

电路更新 - 2023年7月

Anthropic 可解释性团队分享了2023年7月的研究进展。在有限数据中间区域的分析中，发现一层的玩具模型行为并非线性特征叠加的反例，而是优化失败的产物；模型在数据集从约1k样本增至500k样本时，记忆方式从个体数据点转向相关集群，并在约500k样本处出现训练损失的一阶相变。团队还提出语言模型中最安全相关的特征可能包括高层动作和规划等假设机制，这些机制对AI安全有潜在影响。

Anthropic 推理论文/研究

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

分布式表征中的组合与叠加

本文探讨了分布式表征中“组合”与“叠加”两个核心概念的关系与权衡。作者认为，传统上被视为从“局部编码”到“分布式编码”的单一谱系，实际上可分解为叠加和组合这两个不同维度。组合式表征通过独立特征（如颜色、形状）的组合来表示对象，能显著提高编码效率；而叠加则允许单个神经元同时参与表示多个特征。两者在泛化能力和线性计算功能上存在根本性张力，无法同时最优。文章借用了Thorpe（1989）的二元神经元编码示例（局部、半局部、半分布式、高分布式）来具体阐述这一观点。

Anthropic 数据/训练论文/研究

08:00

Anthropic：Transformer Circuits（可解释性研究）

可解释性之梦

Chris Olah于2023年5月24日发表非正式笔记，阐述机制可解释性研究的未来愿景。当前核心是解决叠加问题，为领域奠定基础。长期目标包括揭示神经网络的大尺度抽象结构、探索特征与电路的普遍性、连接微观机制与宏观行为，并实现可解释性自动化。作者指出这些设想虽具推测性，但若基础突破，可助力AI安全并展现神经网络内部结构之美。该方法采用自底向上的微观研究，旨在建立坚实的认知基础。

Anthropic 推理论文/研究

5月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS 发布最新大语言模型排行榜（第4周）

LMSYS Org 发布基于 27K 条匿名投票的大模型排行榜（4 月 24 日-5 月 22 日）。GPT-4（1225 分）居首，Claude-v1（1195 分）与 Claude-instant-v1（1153 分）紧随其后。新加入的 Google PaLM 2（1042 分）位列第六，虽对顶级模型胜率过半，但因过度监管（20.9% 对局因拒答失利），竟在 21.6% 比赛中输给非头部模型，表现不及 GPT-3.5-turbo（12.8%）。

Anthropic Google 评测/基准

5月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

2023年5月电路研究进展

Anthropic可解释性团队分享了多项关于“叠加”现象的研究思路与初步实验。团队目前正系统性地探索利用字典学习方法，从已训练稠密模型的激活中提取特征，以破解叠加问题，并为此构建了大规模研究基础设施。同时，团队提出了一个概念性框架，将“特征”定义为“激活的最简单分解”，通过在合成数据上测量分解所需的总信息量，初步验证该方法能有效指示真实特征数量。这些工作包含正在进行的研究方向和暂未计划成文的细节，旨在促进与活跃研究者的早期交流。

Anthropic 数据/训练论文/研究

5月10日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena第二周排行榜：GPT-4居首，Claude紧随其后

LMSYS Org发布Chatbot Arena第二周排行榜，新增GPT-4、Claude-v1、GPT-3.5-turbo和RWKV-4-Raven-14B四款模型。基于1.3万条匿名投票的Elo评分显示，GPT-4以1274分领跑，Claude-v1（1224分）和GPT-3.5-turbo（1155分）分列二、三位。专有模型与开源模型差距显著，GPT-4对Vicuna-13B胜率达82%，但Claude在66场非平局对决中对GPT-4取得48%胜率。RWKV-4-Raven-14B作为非Transformer架构的RNN模型排名第六，表现超出预期。

Anthropic OpenAI 评测/基准

3月16日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

Transformer残差流中的特权基向量

研究发现Transformer模型的残差流中存在“特权基向量”现象，即某些坐标方向持续出现异常大的激活值，这与“无特权基”的理论预期相悖。通过实验，研究者将根源指向Adam优化器中的逐维度归一化器，而非层归一化或浮点精度问题。在2亿参数模型中，典型层有20至60个维度的激活绝对值超过6。研究还提出使用峰度作为检测指标，发现激活分布峰度普遍大于3，进一步证实了基向量对称性被破坏。

Anthropic 推理论文/研究

推荐理由：揭示Transformer内部基依赖性的根源，帮助研究者改进模型可解释性。

1月5日

00:00

Anthropic：Transformer Circuits（可解释性研究）

叠加、记忆与双下降现象

本研究在有限数据集上训练简单神经网络，发现过拟合表现为模型在叠加中存储具体数据点而非抽象特征，形成两种机制：过拟合机制（记忆数据点）与泛化机制（学习特征），并在过渡期间出现双下降现象。实验采用稀疏高维输入（维度n=10,000）与二维隐藏空间，通过全批量更新进行训练。可视化结果表明，从特征视角看模型表现混乱，但从数据点激活视角看则呈现简单结构，提示叠加可能提升记忆效率。这项初步研究揭示了过拟合与叠加的关联，为机制可解释性提供了新视角。

Anthropic 数据/训练论文/研究

9月14日

00:00

Anthropic：Transformer Circuits（可解释性研究）

叠加的玩具模型

本研究使用小型ReLU网络在合成稀疏特征数据上训练，探究神经网络中的叠加现象。当输入特征稀疏时，模型能在有限维度内表示超出维度的特征数量，实现超越线性模型的压缩，但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配，特征根据重要性组织成三角形、五边形等几何结构，甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义（对应单一特征）、有时多义（对应多个特征）。研究认为，实践中的神经网络可能模拟更大、更稀疏的网络，叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。

Anthropic 推理数据/训练论文/研究

6月27日

00:00

Anthropic：Transformer Circuits（可解释性研究）

Softmax线性单元

本研究提出了一种名为SoLU（Softmax线性单元）的新型激活函数，旨在提升Transformer模型MLP层的机制可解释性。实验表明，SoLU能在基本保持模型性能的同时，将MLP层中易于人类理解的神经元比例从35%显著提升至60%。然而，研究也发现SoLU可能将部分特征“隐藏”起来，使其更难解释，这印证了特征叠加假说。该工作初步证明，通过有意识地设计模型架构，或许能在不牺牲性能的前提下，创造出更易于逆向工程与理解的神经网络模型。

Anthropic 推理论文/研究

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

机制可解释性、变量与可解释基的重要性

机制可解释性旨在对神经网络进行逆向工程，其核心挑战在于克服高维诅咒。文章通过类比传统程序逆向工程，指出理解可解释神经元（类似程序变量）是核心任务。神经网络参数是对其行为的有限描述，如同二进制程序代码；理解这些参数需要像分析复杂程序一样，将高维激活状态分解为有意义的变量。当前最大语言模型的参数量已达数千亿，但如同理解庞大操作系统，通过机制分析仍可能实现非指数级的理解路径。

Anthropic 推理论文/研究

3月8日

00:00

Anthropic：Transformer Circuits（可解释性研究）

上下文学习与归纳头

研究发现，Transformer语言模型中的“归纳头”可能是其实现上下文学习能力的主要机制。归纳头是一种能够识别并复制序列模式的内部电路，其功能是在序列中寻找当前令牌的先前出现，并预测相同的后续令牌。在训练早期，模型会经历一个“相位变化”，此时归纳头迅速形成，同时上下文学习能力显著提升。通过架构扰动、直接剔除等六条互补的证据链表明，这种电路不仅存在于小型模型中，也可能构成了大型模型上下文学习的核心机制。这一机制性解释为理解模型内部计算、系统化解决安全问题提供了新途径。

Anthropic 推理数据/训练论文/研究

12月22日

00:00

Anthropic：Transformer Circuits（可解释性研究）

Garçon：支持大语言模型可解释性研究的核心工具

Anthropic开发的Garçon工具解决了传统方法难以对超单节点大模型进行可解释性研究的问题。它允许研究人员通过启动服务器连接模型，并利用“钩子”接口在前向传播过程中访问和修改内部状态（如特定层的张量）。该工具自动处理多节点数据分发与服务器管理（如一小时闲置后自动关闭），显著简化了大规模模型的探测与干预实验工作流程。

Anthropic 推理论文/研究

00:00

Anthropic：Transformer Circuits（可解释性研究）

Transformer电路的数学框架

本研究提出一个用于逆向工程Transformer语言模型的数学框架，通过分析仅含注意力机制的超简模型（两层或以下）来揭示其内部工作机制。研究发现：零层模型直接建模二元统计；单层模型是二元与“跳跃三元”模型的组合；两层模型则能通过注意力头组合形成“归纳头”，实现复杂的上下文学习算法。该框架将注意力头分解为独立的QK与OV电路，并将模型输出表述为可解释函数之和，为理解更大规模模型的计算原理提供了初步基础。

Anthropic 推理论文/研究

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

Transformer Circuit Videos

研究团队发布了一系列关于逆向工程神经网络的早期思考视频。这些视频旨在与同行分享非正式、初步的研究想法，内容相当于研究组会议上的早期成果报告。视频中的观点较为粗糙，可能存在错误，主要面向积极思考神经网络逆向工程的研究者。团队强调，自录制以来其想法已显著演进，且前几个视频的内容已被后续更完善的论文《A Mathematical Framework for Transformer Circuits》所取代。视频合集已发布于YouTube平台。

Anthropic 论文/研究

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

Transformer电路逆向工程练习题集

本练习集旨在通过动手编写注意力头的具体权重矩阵，从参数层面精确理解Transformer工作机制。内容涵盖：详解注意力头中W_Q、W_K、W_V、W_out矩阵的作用；分析读写子空间的控制矩阵及其乘积意义；探讨如何用两个矩阵等效表示注意力头及其秩的含义；研究跨层注意力头如何通过矩阵运算传递信息。并通过具体数值示例，演示多个“前词注意力头”如何协作实现“查看前两个词”的虚拟功能，以及手动构建实现“归纳头”的“指针算法”步骤。

Anthropic 推理数据/训练论文/研究

推荐理由：帮助开发者亲手拆解Transformer内部机制，提升可解释性研究能力。