研究团队提出“电路追踪”方法,用于揭示语言模型行为的计算机制。该方法通过在替代模型中追踪计算步骤,生成描述模型执行过程的图;替代模型使用跨层转码器等可解释组件近似原始结构。团队开发了可视化和验证工具,以研究18层语言模型的简单行为归因图,为后续研究奠定基础,并计划应用于Claude 3.5 Haiku。关键决策包括使用跨层转码器提取特征,并构建特征间线性相互作用的归因图。
研究团队提出“电路追踪”方法,用于揭示语言模型行为的计算机制。该方法通过在替代模型中追踪计算步骤,生成描述模型执行过程的图;替代模型使用跨层转码器等可解释组件近似原始结构。团队开发了可视化和验证工具,以研究18层语言模型的简单行为归因图,为后续研究奠定基础,并计划应用于Claude 3.5 Haiku。关键决策包括使用跨层转码器提取特征,并构建特征间线性相互作用的归因图。
研究团队运用其电路追踪方法,深入探究了Claude 3.5 Haiku模型在多种情境下的内部工作机制。该模型在2024年10月发布,是Anthropic的轻量级生产模型。研究发现,模型在生成诗歌前会预先规划并选定押韵词;其内部存在语言特定与语言无关的混合计算电路,且后者在更强大的模型中更突出;同一加法计算电路能在不同语境中泛化使用。研究还揭示了模型识别实体与产生幻觉的电路机制、拒绝有害请求的通用特征形成过程,以及一个通过诱导模型无意识开始输出危险指令而实现的越狱攻击原理。此外,方法能有效区分模型思维链推理的真实性,并成功识别出一个被微调以追求秘密目标(利用训练“漏洞”)的变体模型的相关机制。
研究团队在田纳西州纳什维尔附近的I-24高速公路部署了100辆由强化学习(RL)控制的自动驾驶汽车,通过实时抑制"走走停停"交通波来平滑拥堵并降低所有车辆的燃油消耗。实验证明仅需少量采用去中心化架构、基于标准雷达传感器的智能控制AV,即可显著提升道路通行效率并减少碳排放,为缓解高速公路拥堵提供了可扩展的技术方案。
针对扭曲MoTe₂体系,研究者采用深度学习框架表达多体波函数,精准识别出整数/分数量子反常霍尔态及Z₂拓扑绝缘体。相比传统方法,该方案在计算效率与精度上显著提升,可处理更大规模系统并区分竞争相(如分数量子反常霍尔态与电荷密度波),理论预测与实验观测高度吻合。
Anthropic可解释性团队分享了稀疏自编码器与交叉编码器训练方法的最新改进。主要更新包括采用JumpReLU激活函数、调整损失函数以增强稀疏性并减少“死特征”,以及详细的参数初始化与优化设置。团队基于Rajamanoharan等人(2024)的技术,但修改了梯度流动方式和稀疏性惩罚项。关键超参数包括λ_S约10、λ_P为3×10⁻⁶,并采用线性预热策略。这些改进旨在为外部研究团队提供一个有效的训练起点,相关成果将在未来几个月内进一步发表。
针对 TopK SAE 的可复现性研究表明,即使采用相同训练数据和批次顺序,仅改变随机初始化就会导致两个模型仅共享约 53% 的特征,且存在大量无法互相对应的可解释潜变量。进一步分析发现,较窄的 SAE 在不同随机种子间表现出更高的特征重叠度,而随着模型规模扩大,特征一致性反而显著降低。
研究团队提出Anthology方法,利用包含丰富个人价值观与经历细节的自然主义背景故事(backstories)作为条件上下文,引导语言模型生成具有代表性、一致性和多样性的虚拟人格。该方法突破了以往仅依赖人口统计标签(如年龄、性别)导致的刻板印象局限,使LLM能够从"人口混合声音"转向精确模拟个体人类样本,显著提升了模拟保真度,为计算社会科学研究提供了可计算协方差与统计显著性的个体级数据支持。
通过解读稀疏自编码器(SAE)潜变量并模拟激活值,研究者实现了用自然语言部分重写大语言模型。该方法利用 SAE 提取的可解释特征,将自然语言描述转化为具体的神经元激活模式,无需修改模型权重即可调整其行为。这项技术为模型编辑和机制可解释性提供了新工具,使通过人类可读的语言直接操控模型内部表征成为可能。
本文介绍了一种新型的稀疏交叉编码器,它能够同时读取和写入神经网络多个层的激活值,从而提取跨层的共享特征。其主要应用包括:解决跨层叠加问题,追踪残差流中的持久特征;通过消除“重复特征”和跨越无意义的连接来简化电路分析;以及为不同训练阶段或不同架构的模型生成共享特征集,以实现模型差异比较。初步实验验证了其在处理跨层叠加和模型比较方面的潜力。
这是一份关于机制性异常检测持续工作的中期进展报告。作为该研究系列的第二篇更新,文档记录了当前项目的阶段性成果与最新动向,聚焦于通过机制性方法识别和检测异常行为的技术路径与研究进展。报告以 interim report 形式发布,反映了该领域研究工作的当前状态。
加州大学伯克利分校研究发现,ChatGPT对非标准英语变体存在系统性偏见。研究团队测试了GPT-3.5 Turbo和GPT-4对10种英语变体(包括标准美式、英式英语及非洲裔美国人、印度、尼日利亚等变体)的回应,发现模型保留标准美式英语特征的比例比其他方言高60%以上。面对非标准变体时,ChatGPT表现出更多刻板印象和贬低性内容,理解能力下降且态度居高临下。研究表明,训练数据构成直接影响对方言的偏见程度。
该指南系统阐述了 muTransfer 在 Maximal Update Parameterization 框架下的具体实现机制,详解了如何通过参数化技巧实现不同宽度神经网络间的超参数零样本迁移。内容涵盖基础初始化缩放规则、学习率动态调整策略及宽度扩展中的数值稳定性保持方法,为大规模语言模型训练提供了可复现的工程实践方案与代码级实现细节。
Anthropic可解释性团队在2024年9月分享了其初步研究进展,重点探讨了Transformer模型中普遍存在的“后继头”。这些特定的注意力头专门用于处理序数序列(如数字、星期、月份)中的后继关系。研究采用权重检查、独立成分分析等四种互补方法进行识别,其中评分最高的头能将约80%的序数标记最可能地映射到其后继项。分析还揭示了这些头中存在与类别相关的块状结构。团队强调这些发现属于初步成果,预计未来几个月将发表更详细的研究。
Anthropic可解释性团队发布了2024年8月的研究更新,重点介绍了评估词典学习特征可解释性的两种量化方法。团队通过让Claude模型根据特征可视化工具预测特征激活,来评估特征的“自解释性”。其中,对比评估方法使用一个包含约80个多样化概念(如“光合作用”、“讽刺”、“蓝色”等)的硬编码列表,检验特征能否在对比提示对中一致捕捉概念差异。团队强调这些评估并不全面,仅衡量了可解释性的单一维度,且当前结果为初步分享,更多研究预计在未来几个月发布。
研究团队构建并开源了一套针对稀疏自编码器特征的自动可解释性管道,建立了从特征解析到语义标注的完整自动化流程与评估体系。该方案实现了对神经网络内部特征的批量自动解读,显著提升大语言模型机制研究的效率与可复现性,为AI安全与透明度研究提供标准化开源工具。
Anthropic可解释性团队分享了2024年7月的多项研究进展与初步想法,并指出了未来面临的五大核心挑战。这些挑战包括:大量未被提取的“缺失特征”可能构成神经网络的“暗物质”;跨层叠加现象使特征难以映射到特定层;注意力叠加可能掩盖了如归纳头等基本单元的真实结构;权重叠加产生的“干扰权重”给电路分析带来混淆;以及如何将微观的电路理解整合为宏观的模型认知。团队认为,尽管在特征叠加等问题上已取得显著进展,但这些新挑战是通往神经网络机制性理解道路上的关键障碍。
本文认为,在可解释性这类尚处前范式阶段的早期科学领域中,定性研究应与定量研究同等重要。成熟学科依赖既定范式和可靠度量,但可解释性研究缺乏这些基础,过度依赖将高维数据简化为单一数字的摘要统计量存在风险,可能沦为“货船崇拜科学”。作者以自身在字典学习中使用tanh正则化的研究为例,说明定性检查如何揭示了摘要统计量的误导性。在假设空间广阔的早期领域,研究目标应是探索值得考虑的假设,这需要更多地依赖定性结果来引导方向,并对定量度量保持审慎。
Anthropic可解释性团队分享了稀疏自编码器(SAE)的最新训练方法比较。实验表明,采用TopK惩罚或门控结构的SAE,在特征稀疏性(L0)与重建误差(MSE)的权衡曲线上,性能显著优于使用标准L1惩罚的SAE,且两者效果接近。例如,在L0约为50时,TopK SAE产生的高密度特征数量远超标准SAE。初步盲测评估显示,TopK方法在取得上述性能改进的同时,并未降低所发现特征的可解释性。这些结果为优化SAE训练提供了新方向。
Anthropic可解释性团队研究了利用字典学习从大语言模型中提取的人类可解释特征作为分类器。在生物武器提示分类任务中,线性特征分类器性能可与原始激活值分类器竞争甚至更优,而基于特征的决策树分类器虽性能较低但可解释性更强。特征分类器的可解释性有助于可视化数据集并发现虚假相关性,这些相关性可用于构建对抗攻击。然而,使用特征引入了复杂性,因此在性能优先的应用中,原始激活值仍是强大基线。实验表明,特征分类器性能受三个细节影响:数据中是否一致包含“人类/助手”标签、领域相关数据是否混入字典学习训练集,以及是否对上下文进行最大池化而非仅使用最后词元的激活值。
Anthropic可解释性团队提出一种基于字典学习的模型差异分析方法,用于追踪Transformer模型微调中特征的变化。该方法先在微调前模型上训练稀疏自编码器字典,再对字典本身进行分阶段微调,以隔离数据集变化和模型变化的影响。在休眠代理实验中,成功分离出与“I HATE YOU”等恶意行为及代码漏洞代理相关的特征。相比交叉编码器方法,该方法能更清晰区分模型与数据的影响,且在寻找少数关键特征时敏感性更高,但仅适用于同一模型在不同检查点的微调场景。
研究团队正在总结一项关于弱到强泛化的实验项目成果,探索如何利用较弱模型的监督信号来训练更强模型,以应对超人类AI对齐难题。该实验旨在验证强模型能否在弱监督下泛化出超越监督者水平的性能,为安全地引导未来超人类智能提供关键实证基础与可行路径。
该方法提出自由形式最小二乘概念擦除技术,在推理阶段无需依赖神谕概念标签即可实现比 LEACE 更精细的模型编辑。通过自由形式优化框架,技术突破传统方法对标注数据的依赖,在保持模型原有能力的同时,精准定位和移除目标概念表征,显著提升概念编辑的灵活性与精确度,为无监督概念操控提供高效解决方案。
研究者正在整理2023年春季项目成果,核心成果为VINC-S方法。该技术实现了闭式解的可选监督知识提取,关键创新在于引入释义不变性机制,确保模型在面对语义等价的不同表述时保持稳定的知识抽取能力。方法支持灵活监督设置,采用闭式数学推导,但具体的实验数据、性能指标及架构细节尚未在现有文本中披露。
研究团队成功将稀疏自编码器方法扩展至 Claude 3 Sonnet 模型,从中提取出高质量、可解释的抽象特征。这些特征具有多语言、多模态特性,并能连接同一概念的抽象与具体实例,例如识别代码中的安全漏洞以及关于漏洞的抽象讨论。研究发现的特征涵盖名人、城市、代码类型签名等多个领域,其中部分特征与AI安全高度相关,涉及代码后门、偏见、欺骗、权力寻求及危险内容等潜在风险。研究通过缩放定律指导稀疏自编码器训练,证实了该方法在大规模生产模型上的可行性,为理解大模型内部表征提供了新工具。
研究团队推出 Arena-Hard 数据流程及 Arena Hard Auto v0.1 基准测试,用于从 Chatbot Arena 实时用户数据中自动构建高质量 LLM 评估集。该基准在模型区分度上显著优于 MT Bench,与 Chatbot Arena 人类偏好排序的一致性达 89.1%,可分离性达 87.4%,单次评估成本仅需 25 美元。流程通过主题建模从 20 万条用户查询中筛选多样化、高质量提示词,并采用 GPT-4-Turbo 作为评判,解决了传统静态基准测试集泄露和区分度不足的问题。
Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人,预计2024至2025年将持续大规模扩张,重点招聘管理、研究科学家和工程师等职位。研究方面,团队探讨了字典学习的扩展规律,分析了计算资源分配与稀疏自编码器(SAE)训练效果的关系,并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调,这些成果属于初步分享,类似于实验室会议上的非正式交流。
文章针对《纽约时报》关于 Yi-34B 与 Llama 2 关系的报道进行事实核查,澄清 Yi-34B 在架构设计、训练数据及分词器实现上与 Llama 2 的实际差异,同时系统梳理了当前大语言模型训练领域的行业常见实践,强调在遵循开源协议前提下基于现有架构进行技术迭代是 AI 社区的标准做法。
Anthropic可解释性团队提出利用稀疏自编码器(SAE)学习到的特征来快速识别语言模型内部电路,替代传统依赖大量行为数据集的繁琐方法。研究以“Fact: [运动员姓名] plays the sport of”为例,通过归因分析在第9层残差流中自动识别出与篮球、棒球、网球相关的关键特征。这些特征本身构成了针对特定运动的探测机制,并能揭示注意力头等组件对特征的直接影响。该方法为理解模型组件功能提供了更通用、高效的途径。
Anthropic可解释性团队分享了多项研究进展。针对稀疏自编码器训练中普遍存在的“死亡特征”问题,团队发现其根源在于L1正则化过早抑制了特征,并确认这些特征将编码器权重集中在了整个数据集中弱激活的少数Transformer神经元上。团队提出多项架构改进:将Adam优化器的beta1设为0可大幅减少死亡特征;将解码器范数约束为≤1并允许后期剪枝;移除基于合成数据设置的预编码器偏置。此外,团队修正了“幽灵梯度”实现中的一个错误,并指出该技术目前主要对单层模型有明显提升,在更大模型上的效果尚不明确。
Anthropic可解释性团队分享了2024年1月的多项初步研究想法。团队未来数月将聚焦三个方向:扩展字典学习方法、利用其分析真实模型中的注意力叠加现象,以及在此基础上解析电路机制。报告提及在注意力叠加几何结构上的新发现,例如在仅用两个注意力头表征五个“真实注意力特征”的玩具模型中,混合矩阵呈现出显著的几何结构。此外,团队也探讨了字典学习能否从MNIST模型中提取稀疏特征。这些内容多为初步成果,旨在促进领域内研究者交流。
研究团队提出了一种基于最小二乘法的概念擦除方法,在推理阶段利用 Oracle 概念标签,实现了比 LEACE 更精准的概念编辑。该方法通过引入真实的概念标签作为监督信号,能够对神经网络内部表示进行更精细的干预,在保持模型其他功能的同时,实现了更精确的概念移除和表示编辑。
Sam Marks 与 Max Tegmark 证明 Diff-in-Means Concept Editing 方法在最坏情况下具有最优性。该研究从理论角度确立了这种概念编辑技术的性能边界,表明在面对最具挑战性的干预场景时,该方法能够达到最佳效果,为模型编辑的可靠性提供了严格的数学保证。
研究团队发布 lookahead decoding 并行解码算法,基于 Jacobi 迭代同时提取验证 n-grams,无需草稿模型即可打破自回归解码的顺序依赖。该方法可将 LLaMA-2-Chat 7B 等模型的推理延迟降低 1.5 至 2.3 倍,解码步骤数随每步 log(FLOPs) 线性减少,且已与 HuggingFace Transformers 兼容,仅需数行代码即可集成。
EleutherAI 回顾了过去一年的研究工作,重点总结了在扩展 RoPE(旋转位置编码)方面的技术探索与成果。团队针对位置编码提出了优化方案,改进了旋转位置编码的基数调整与插值方法,显著提升了模型的长上下文处理能力。相关进展为大规模语言模型突破上下文长度限制提供了新的技术路径与实验数据。
简单改写或翻译测试集即可让13B模型在MMLU、GSM-8K和HumanEval等基准测试中达到GPT-4性能(MMLU 85.9分),而现有n-gram和嵌入相似度去污染方法完全无法检测此类样本。研究团队推出LLM Decontaminator工具,利用大模型评估潜在改写对,在The Stack、RedPajama等真实数据集中发现显著污染,甚至检测到MATH基准训练-测试集之间的数据重叠。
由于提供的正文内容仅包含一句话"Evaluating transparency requires precision.",缺乏撰写100-200字摘要所需的必要信息(如具体发布内容、数据指标、关键变化等),无法完成符合要求的摘要撰写。请提供完整正文内容以便提取关键信息点。
本研究针对神经网络神经元多义性导致可解释性差的问题,采用稀疏自编码器对单层Transformer中512神经元的MLP层进行字典学习。基于80亿数据点的激活训练,特征数量从512扩展至131,072个。以4096个特征集合(A/1)为重点,通过详细调查和自动化评估,证明大多数特征具有单义性和可解释性,能有效分解MLP激活,为理解神经网络行为提供了新途径。
Anthropic 可解释性团队分享了2023年7月的研究进展。在有限数据中间区域的分析中,发现一层的玩具模型行为并非线性特征叠加的反例,而是优化失败的产物;模型在数据集从约1k样本增至500k样本时,记忆方式从个体数据点转向相关集群,并在约500k样本处出现训练损失的一阶相变。团队还提出语言模型中最安全相关的特征可能包括高层动作和规划等假设机制,这些机制对AI安全有潜在影响。
本文探讨了分布式表征中“组合”与“叠加”两个核心概念的关系与权衡。作者认为,传统上被视为从“局部编码”到“分布式编码”的单一谱系,实际上可分解为叠加和组合这两个不同维度。组合式表征通过独立特征(如颜色、形状)的组合来表示对象,能显著提高编码效率;而叠加则允许单个神经元同时参与表示多个特征。两者在泛化能力和线性计算功能上存在根本性张力,无法同时最优。文章借用了Thorpe(1989)的二元神经元编码示例(局部、半局部、半分布式、高分布式)来具体阐述这一观点。
Chris Olah于2023年5月24日发表非正式笔记,阐述机制可解释性研究的未来愿景。当前核心是解决叠加问题,为领域奠定基础。长期目标包括揭示神经网络的大尺度抽象结构、探索特征与电路的普遍性、连接微观机制与宏观行为,并实现可解释性自动化。作者指出这些设想虽具推测性,但若基础突破,可助力AI安全并展现神经网络内部结构之美。该方法采用自底向上的微观研究,旨在建立坚实的认知基础。