Anthropic可解释性团队分享了多项关于“叠加”现象的研究思路与初步实验。团队目前正系统性地探索利用字典学习方法,从已训练稠密模型的激活中提取特征,以破解叠加问题,并为此构建了大规模研究基础设施。同时,团队提出了一个概念性框架,将“特征”定义为“激活的最简单分解”,通过在合成数据上测量分解所需的总信息量,初步验证该方法能有效指示真实特征数量。这些工作包含正在进行的研究方向和暂未计划成文的细节,旨在促进与活跃研究者的早期交流。
Anthropic可解释性团队分享了多项关于“叠加”现象的研究思路与初步实验。团队目前正系统性地探索利用字典学习方法,从已训练稠密模型的激活中提取特征,以破解叠加问题,并为此构建了大规模研究基础设施。同时,团队提出了一个概念性框架,将“特征”定义为“激活的最简单分解”,通过在合成数据上测量分解所需的总信息量,初步验证该方法能有效指示真实特征数量。这些工作包含正在进行的研究方向和暂未计划成文的细节,旨在促进与活跃研究者的早期交流。
该研究利用 TransformerLens 可解释性工具,针对 TRLX 框架训练的 RLHF Transformer 模型开展探索性分析,系统展示了对齐后模型的内部工作机制。通过逐层可视化与激活分析,揭示了人类反馈强化学习训练过程中形成的特定注意力模式与表征结构,为理解大语言模型在 RLHF 微调后的行为机制提供了实证观察与可视化证据。
研究发现Transformer模型的残差流中存在“特权基向量”现象,即某些坐标方向持续出现异常大的激活值,这与“无特权基”的理论预期相悖。通过实验,研究者将根源指向Adam优化器中的逐维度归一化器,而非层归一化或浮点精度问题。在2亿参数模型中,典型层有20至60个维度的激活绝对值超过6。研究还提出使用峰度作为检测指标,发现激活分布峰度普遍大于3,进一步证实了基向量对称性被破坏。
本研究在有限数据集上训练简单神经网络,发现过拟合表现为模型在叠加中存储具体数据点而非抽象特征,形成两种机制:过拟合机制(记忆数据点)与泛化机制(学习特征),并在过渡期间出现双下降现象。实验采用稀疏高维输入(维度n=10,000)与二维隐藏空间,通过全批量更新进行训练。可视化结果表明,从特征视角看模型表现混乱,但从数据点激活视角看则呈现简单结构,提示叠加可能提升记忆效率。这项初步研究揭示了过拟合与叠加的关联,为机制可解释性提供了新视角。
本研究使用小型ReLU网络在合成稀疏特征数据上训练,探究神经网络中的叠加现象。当输入特征稀疏时,模型能在有限维度内表示超出维度的特征数量,实现超越线性模型的压缩,但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配,特征根据重要性组织成三角形、五边形等几何结构,甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义(对应单一特征)、有时多义(对应多个特征)。研究认为,实践中的神经网络可能模拟更大、更稀疏的网络,叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。
本研究提出了一种名为SoLU(Softmax线性单元)的新型激活函数,旨在提升Transformer模型MLP层的机制可解释性。实验表明,SoLU能在基本保持模型性能的同时,将MLP层中易于人类理解的神经元比例从35%显著提升至60%。然而,研究也发现SoLU可能将部分特征“隐藏”起来,使其更难解释,这印证了特征叠加假说。该工作初步证明,通过有意识地设计模型架构,或许能在不牺牲性能的前提下,创造出更易于逆向工程与理解的神经网络模型。
机制可解释性旨在对神经网络进行逆向工程,其核心挑战在于克服高维诅咒。文章通过类比传统程序逆向工程,指出理解可解释神经元(类似程序变量)是核心任务。神经网络参数是对其行为的有限描述,如同二进制程序代码;理解这些参数需要像分析复杂程序一样,将高维激活状态分解为有意义的变量。当前最大语言模型的参数量已达数千亿,但如同理解庞大操作系统,通过机制分析仍可能实现非指数级的理解路径。
研究发现,Transformer语言模型中的“归纳头”可能是其实现上下文学习能力的主要机制。归纳头是一种能够识别并复制序列模式的内部电路,其功能是在序列中寻找当前令牌的先前出现,并预测相同的后续令牌。在训练早期,模型会经历一个“相位变化”,此时归纳头迅速形成,同时上下文学习能力显著提升。通过架构扰动、直接剔除等六条互补的证据链表明,这种电路不仅存在于小型模型中,也可能构成了大型模型上下文学习的核心机制。这一机制性解释为理解模型内部计算、系统化解决安全问题提供了新途径。
Anthropic开发的Garçon工具解决了传统方法难以对超单节点大模型进行可解释性研究的问题。它允许研究人员通过启动服务器连接模型,并利用“钩子”接口在前向传播过程中访问和修改内部状态(如特定层的张量)。该工具自动处理多节点数据分发与服务器管理(如一小时闲置后自动关闭),显著简化了大规模模型的探测与干预实验工作流程。
本研究提出一个用于逆向工程Transformer语言模型的数学框架,通过分析仅含注意力机制的超简模型(两层或以下)来揭示其内部工作机制。研究发现:零层模型直接建模二元统计;单层模型是二元与“跳跃三元”模型的组合;两层模型则能通过注意力头组合形成“归纳头”,实现复杂的上下文学习算法。该框架将注意力头分解为独立的QK与OV电路,并将模型输出表述为可解释函数之和,为理解更大规模模型的计算原理提供了初步基础。
研究团队利用分解认知(factored cognition)策略,使原本无法完成简单数学运算的 GPT-3 成功处理复杂算术任务。实验通过将复杂玩具任务拆解为可管理的子任务,验证分解方法在现实模型中的可行性。结果表明,即使不具备基础数学能力,该模型仍可通过任务分解解决其原生能力无法处理的复杂问题,为扩展语言模型能力边界提供了初步证据。
自回归语言模型(GPT-3、GPT-Neo、GPT-J 等)的多项选择任务评估存在多种实现路径。文章系统梳理了当前主流的归一化(Normalization)方法,针对模型在不同选项上的概率计算方式、长度偏差修正及分数标准化技术进行详细阐述,为统一语言模型评测标准提供方法论参考。
该评估系统对比了旋转位置编码(RoPE)与 GPT 类学习式位置编码在下游任务中的性能表现,通过多维度基准测试分析两种位置编码机制的应用差异,为 Transformer 模型架构中位置编码方案的选择提供实证依据。
研究团队发布了一系列关于逆向工程神经网络的早期思考视频。这些视频旨在与同行分享非正式、初步的研究想法,内容相当于研究组会议上的早期成果报告。视频中的观点较为粗糙,可能存在错误,主要面向积极思考神经网络逆向工程的研究者。团队强调,自录制以来其想法已显著演进,且前几个视频的内容已被后续更完善的论文《A Mathematical Framework for Transformer Circuits》所取代。视频合集已发布于YouTube平台。
本练习集旨在通过动手编写注意力头的具体权重矩阵,从参数层面精确理解Transformer工作机制。内容涵盖:详解注意力头中W_Q、W_K、W_V、W_out矩阵的作用;分析读写子空间的控制矩阵及其乘积意义;探讨如何用两个矩阵等效表示注意力头及其秩的含义;研究跨层注意力头如何通过矩阵运算传递信息。并通过具体数值示例,演示多个“前词注意力头”如何协作实现“查看前两个词”的虚拟功能,以及手动构建实现“归纳头”的“指针算法”步骤。
研究团队利用 eval harness 评估框架,通过对比 OpenAI API 模型在标准测试集上的性能表现,成功反向推算出其模型参数规模。该方法基于模型能力与参数量之间的相关性,分析了包括 GPT 系列在内的闭源模型在各项任务中的得分差异,揭示了 OpenAI 未公开披露的模型大小信息,为理解这些模型的实际规模与能力边界提供了量化依据。
该研究在 GPT-3 模型上系统评估了不同 Few-shot 描述提示对性能的影响,通过对比多种少样本提示模板,分析了提示设计差异如何改变模型输出质量。实验显示,描述方式的细微差别会导致 GPT-3 在任务表现上产生显著变化,为理解大语言模型的少样本学习机制及优化提示工程策略提供了实证参考。
研究团队对GPT-Neo模型开展下游任务微调实验,利用eval harness评测体系进行针对性训练,系统观测微调过程对其性能表现产生的具体影响。实验通过调整模型参数适配特定任务,评估预训练模型在下游场景中的能力变化与适应性表现,为理解微调对模型性能的优化效果提供实证数据支撑。
针对类 GPT 自回归语言模型开展激活函数消融实验,系统评估不同激活函数对模型性能的影响。通过对比分析各类激活函数在自回归架构中的表现差异,检验其对模型表达能力、训练稳定性及生成质量的作用机制,为大语言模型的激活函数选择与架构优化提供实验依据。
旋转位置编码(RoPE)作为一种新型位置编码技术,统一了绝对位置与相对位置编码方法。该技术突破了传统位置编码的局限,在保持绝对位置信息的同时实现了相对位置感知能力。测试验证表明,这种编码方案在模型性能和位置外推方面展现出优势,为大语言模型的位置表示策略提供了新的技术路径。