Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人,预计2024至2025年将持续大规模扩张,重点招聘管理、研究科学家和工程师等职位。研究方面,团队探讨了字典学习的扩展规律,分析了计算资源分配与稀疏自编码器(SAE)训练效果的关系,并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调,这些成果属于初步分享,类似于实验室会议上的非正式交流。
Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人,预计2024至2025年将持续大规模扩张,重点招聘管理、研究科学家和工程师等职位。研究方面,团队探讨了字典学习的扩展规律,分析了计算资源分配与稀疏自编码器(SAE)训练效果的关系,并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调,这些成果属于初步分享,类似于实验室会议上的非正式交流。
Anthropic可解释性团队提出利用稀疏自编码器(SAE)学习到的特征来快速识别语言模型内部电路,替代传统依赖大量行为数据集的繁琐方法。研究以“Fact: [运动员姓名] plays the sport of”为例,通过归因分析在第9层残差流中自动识别出与篮球、棒球、网球相关的关键特征。这些特征本身构成了针对特定运动的探测机制,并能揭示注意力头等组件对特征的直接影响。该方法为理解模型组件功能提供了更通用、高效的途径。
Mistral AI发布了其最新旗舰大语言模型Mistral Large。该模型在MMLU基准测试中排名全球第二(仅次于GPT-4),拥有32K token上下文窗口,原生支持英语、法语、西班牙语、德语和意大利语,并具备函数调用能力。Mistral Large已可通过Azure AI Studio和Mistral自身的la Plateforme API访问。同时,Mistral还发布了优化低延迟的Mistral Small。
Anthropic可解释性团队分享了多项研究进展。针对稀疏自编码器训练中普遍存在的“死亡特征”问题,团队发现其根源在于L1正则化过早抑制了特征,并确认这些特征将编码器权重集中在了整个数据集中弱激活的少数Transformer神经元上。团队提出多项架构改进:将Adam优化器的beta1设为0可大幅减少死亡特征;将解码器范数约束为≤1并允许后期剪枝;移除基于合成数据设置的预编码器偏置。此外,团队修正了“幽灵梯度”实现中的一个错误,并指出该技术目前主要对单层模型有明显提升,在更大模型上的效果尚不明确。
Mistral AI 发布开源模型 Mixtral 8x7B,采用 Apache 2.0 许可证。这是一个稀疏混合专家(SMoE)模型,总参数 46.7B,但每个 token 仅激活 12.9B 参数。其推理速度比 Llama 2 70B 快 6 倍,并在多数基准测试中匹配或超越 GPT-3.5。模型支持 32k token 上下文窗口,掌握英语、法语、意大利语、德语和西班牙语,并具备强大的代码生成能力。同步发布经监督微调和直接偏好优化(DPO)的指令版本 Mixtral 8x7B Instruct,其在 MT-Bench 上得分 8.3。
xAI发布大模型Grok,灵感源自《银河系漫游指南》,主打幽默叛逆风格,能回答敏感问题并通过X平台获取实时信息。底层模型Grok-1拥有330亿参数,在HumanEval编码测试达63.2%、MMLU达73%,性能超越GPT-3.5和同计算量级模型。在2023匈牙利高中数学考试中获C级(59%)。系统目前处于早期测试阶段。
Anthropic 可解释性团队分享了2023年7月的研究进展。在有限数据中间区域的分析中,发现一层的玩具模型行为并非线性特征叠加的反例,而是优化失败的产物;模型在数据集从约1k样本增至500k样本时,记忆方式从个体数据点转向相关集群,并在约500k样本处出现训练损失的一阶相变。团队还提出语言模型中最安全相关的特征可能包括高层动作和规划等假设机制,这些机制对AI安全有潜在影响。
以大语言模型为核心控制器的自主智能体系统,通过规划、记忆和工具使用三大组件构建复杂任务处理能力。规划模块支持任务分解与自我反思优化;记忆系统包含短期上下文学习与基于外部向量存储的长期记忆;工具使用则允许代理调用外部API获取模型权重未覆盖的信息与能力。系统已在AutoGPT、GPT-Engineer等多个概念验证项目中实现初步演示,展现了LLM超越文本生成、作为通用问题解决器的潜力。
Chris Olah于2023年5月24日发表非正式笔记,阐述机制可解释性研究的未来愿景。当前核心是解决叠加问题,为领域奠定基础。长期目标包括揭示神经网络的大尺度抽象结构、探索特征与电路的普遍性、连接微观机制与宏观行为,并实现可解释性自动化。作者指出这些设想虽具推测性,但若基础突破,可助力AI安全并展现神经网络内部结构之美。该方法采用自底向上的微观研究,旨在建立坚实的认知基础。
研究发现Transformer模型的残差流中存在“特权基向量”现象,即某些坐标方向持续出现异常大的激活值,这与“无特权基”的理论预期相悖。通过实验,研究者将根源指向Adam优化器中的逐维度归一化器,而非层归一化或浮点精度问题。在2亿参数模型中,典型层有20至60个维度的激活绝对值超过6。研究还提出使用峰度作为检测指标,发现激活分布峰度普遍大于3,进一步证实了基向量对称性被破坏。
本研究使用小型ReLU网络在合成稀疏特征数据上训练,探究神经网络中的叠加现象。当输入特征稀疏时,模型能在有限维度内表示超出维度的特征数量,实现超越线性模型的压缩,但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配,特征根据重要性组织成三角形、五边形等几何结构,甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义(对应单一特征)、有时多义(对应多个特征)。研究认为,实践中的神经网络可能模拟更大、更稀疏的网络,叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。
本研究提出了一种名为SoLU(Softmax线性单元)的新型激活函数,旨在提升Transformer模型MLP层的机制可解释性。实验表明,SoLU能在基本保持模型性能的同时,将MLP层中易于人类理解的神经元比例从35%显著提升至60%。然而,研究也发现SoLU可能将部分特征“隐藏”起来,使其更难解释,这印证了特征叠加假说。该工作初步证明,通过有意识地设计模型架构,或许能在不牺牲性能的前提下,创造出更易于逆向工程与理解的神经网络模型。
机制可解释性旨在对神经网络进行逆向工程,其核心挑战在于克服高维诅咒。文章通过类比传统程序逆向工程,指出理解可解释神经元(类似程序变量)是核心任务。神经网络参数是对其行为的有限描述,如同二进制程序代码;理解这些参数需要像分析复杂程序一样,将高维激活状态分解为有意义的变量。当前最大语言模型的参数量已达数千亿,但如同理解庞大操作系统,通过机制分析仍可能实现非指数级的理解路径。
研究发现,Transformer语言模型中的“归纳头”可能是其实现上下文学习能力的主要机制。归纳头是一种能够识别并复制序列模式的内部电路,其功能是在序列中寻找当前令牌的先前出现,并预测相同的后续令牌。在训练早期,模型会经历一个“相位变化”,此时归纳头迅速形成,同时上下文学习能力显著提升。通过架构扰动、直接剔除等六条互补的证据链表明,这种电路不仅存在于小型模型中,也可能构成了大型模型上下文学习的核心机制。这一机制性解释为理解模型内部计算、系统化解决安全问题提供了新途径。
Anthropic开发的Garçon工具解决了传统方法难以对超单节点大模型进行可解释性研究的问题。它允许研究人员通过启动服务器连接模型,并利用“钩子”接口在前向传播过程中访问和修改内部状态(如特定层的张量)。该工具自动处理多节点数据分发与服务器管理(如一小时闲置后自动关闭),显著简化了大规模模型的探测与干预实验工作流程。
本研究提出一个用于逆向工程Transformer语言模型的数学框架,通过分析仅含注意力机制的超简模型(两层或以下)来揭示其内部工作机制。研究发现:零层模型直接建模二元统计;单层模型是二元与“跳跃三元”模型的组合;两层模型则能通过注意力头组合形成“归纳头”,实现复杂的上下文学习算法。该框架将注意力头分解为独立的QK与OV电路,并将模型输出表述为可解释函数之和,为理解更大规模模型的计算原理提供了初步基础。
研究团队利用分解认知(factored cognition)策略,使原本无法完成简单数学运算的 GPT-3 成功处理复杂算术任务。实验通过将复杂玩具任务拆解为可管理的子任务,验证分解方法在现实模型中的可行性。结果表明,即使不具备基础数学能力,该模型仍可通过任务分解解决其原生能力无法处理的复杂问题,为扩展语言模型能力边界提供了初步证据。
本练习集旨在通过动手编写注意力头的具体权重矩阵,从参数层面精确理解Transformer工作机制。内容涵盖:详解注意力头中W_Q、W_K、W_V、W_out矩阵的作用;分析读写子空间的控制矩阵及其乘积意义;探讨如何用两个矩阵等效表示注意力头及其秩的含义;研究跨层注意力头如何通过矩阵运算传递信息。并通过具体数值示例,演示多个“前词注意力头”如何协作实现“查看前两个词”的虚拟功能,以及手动构建实现“归纳头”的“指针算法”步骤。
本文探讨了一个根本性问题:语言意义能否仅从形式数据(如文本语料)中学习?研究通过理论模型论证,即使模型能获得近乎无限的文本数据并具备查询任意两段文本语义等价性的强大“神谕”能力,也无法真正习得意义。文章以代码断言为喻,强调从形式通向意义需要一个最小的“接地点”,即对基本断言含义的初始理解。作者指出,现有模型在复杂任务上的局限正是纯形式学习不足的体现,并提出了一个关键理论问题:这个必要的“接地点”可以小到何种程度,才能启动有意义的学习?
文章聚焦于强化学习中探索与利用的核心矛盾,指出智能体需在快速寻求最优解与避免过早陷入局部最优之间取得平衡。文章系统介绍了多种提升深度强化学习中探索效率的常见方法,并特别在2020年6月的更新中,于“前向动力学”章节增加了“通过分歧进行探索”的相关内容。文中强调,现代强化学习算法已能高效实现利用,但如何实现有效探索仍是一个开放性的研究课题。
多臂老虎机问题是阐释探索与利用困境的经典范例。文章分析了该问题的核心矛盾:在未知选项中尝试新可能性(探索)与坚持已知最优选择(利用)之间的权衡。内容以在线推荐系统为例,说明算法需要平衡对成熟广告方案与潜在更优新方案的选择。文中提及针对伯努利多臂老虎机的具体算法实现代码已公开,展示了解决该问题的不同探索策略。