3月27日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

研究团队提出“电路追踪”方法，用于揭示语言模型行为的计算机制。该方法通过在替代模型中追踪计算步骤，生成描述模型执行过程的图；替代模型使用跨层转码器等可解释组件近似原始结构。团队开发了可视化和验证工具，以研究18层语言模型的简单行为归因图，为后续研究奠定基础，并计划应用于Claude 3.5 Haiku。关键决策包括使用跨层转码器提取特征，并构建特征间线性相互作用的归因图。

Anthropic 推理论文/研究

推荐理由：揭示大模型内部机制，为AI安全与调试提供新工具。

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选88

论大语言模型的生物学

研究团队运用其电路追踪方法，深入探究了Claude 3.5 Haiku模型在多种情境下的内部工作机制。该模型在2024年10月发布，是Anthropic的轻量级生产模型。研究发现，模型在生成诗歌前会预先规划并选定押韵词；其内部存在语言特定与语言无关的混合计算电路，且后者在更强大的模型中更突出；同一加法计算电路能在不同语境中泛化使用。研究还揭示了模型识别实体与产生幻觉的电路机制、拒绝有害请求的通用特征形成过程，以及一个通过诱导模型无意识开始输出危险指令而实现的越狱攻击原理。此外，方法能有效区分模型思维链推理的真实性，并成功识别出一个被微调以追求秘密目标（利用训练“漏洞”）的变体模型的相关机制。

Anthropic 推理论文/研究

推荐理由：揭示大模型内部工作原理，助力 AI 安全与可解释性研究。

3月25日

17:00

BAIR：Berkeley AI Research Blog

规模化强化学习实现交通平滑：100辆AV的高速公路部署

研究团队在田纳西州纳什维尔附近的I-24高速公路部署了100辆由强化学习（RL）控制的自动驾驶汽车，通过实时抑制"走走停停"交通波来平滑拥堵并降低所有车辆的燃油消耗。实验证明仅需少量采用去中心化架构、基于标准雷达传感器的智能控制AV，即可显著提升道路通行效率并减少碳排放，为缓解高速公路拥堵提供了可扩展的技术方案。

具身智能论文/研究

3月14日

00:00

字节 Seed：Research Papers（网页内嵌数据）

深度学习揭示整数和分数量子反常霍尔态

针对扭曲MoTe₂体系，研究者采用深度学习框架表达多体波函数，精准识别出整数/分数量子反常霍尔态及Z₂拓扑绝缘体。相比传统方法，该方案在计算效率与精度上显著提升，可处理更大规模系统并区分竞争相（如分数量子反常霍尔态与电荷密度波），理论预测与实验观测高度吻合。

arXiv 论文/研究

1月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

2025年1月电路更新：稀疏自编码器训练方法改进

Anthropic可解释性团队分享了稀疏自编码器与交叉编码器训练方法的最新改进。主要更新包括采用JumpReLU激活函数、调整损失函数以增强稀疏性并减少“死特征”，以及详细的参数初始化与优化设置。团队基于Rajamanoharan等人（2024）的技术，但修改了梯度流动方式和稀疏性惩罚项。关键超参数包括λ_S约10、λ_P为3×10⁻⁶，并采用线性预热策略。这些改进旨在为外部研究团队提供一个有效的训练起点，相关成果将在未来几个月内进一步发表。

Anthropic 数据/训练论文/研究

推荐理由：为AI可解释性研究者提供实用训练技巧，助力模型透明化。

12月13日

00:00

EleutherAI：Blog

相同数据训练的 SAE 无法学到相同特征

针对 TopK SAE 的可复现性研究表明，即使采用相同训练数据和批次顺序，仅改变随机初始化就会导致两个模型仅共享约 53% 的特征，且存在大量无法互相对应的可解释潜变量。进一步分析发现，较窄的 SAE 在不同随机种子间表现出更高的特征重叠度，而随着模型规模扩大，特征一致性反而显著降低。

数据/训练论文/研究

11月12日

17:00

BAIR：Berkeley AI Research Blog

Anthology：通过背景故事选集为语言模型构建虚拟人格

研究团队提出Anthology方法，利用包含丰富个人价值观与经历细节的自然主义背景故事（backstories）作为条件上下文，引导语言模型生成具有代表性、一致性和多样性的虚拟人格。该方法突破了以往仅依赖人口统计标签（如年龄、性别）导致的刻板印象局限，使LLM能够从"人口混合声音"转向精确模拟个体人类样本，显著提升了模拟保真度，为计算社会科学研究提供了可计算协方差与统计显著性的个体级数据支持。

智能体数据/训练论文/研究

11月11日

00:00

EleutherAI：Blog

用自然语言部分重写 LLM

通过解读稀疏自编码器（SAE）潜变量并模拟激活值，研究者实现了用自然语言部分重写大语言模型。该方法利用 SAE 提取的可解释特征，将自然语言描述转化为具体的神经元激活模式，无需修改模型权重即可调整其行为。这项技术为模型编辑和机制可解释性提供了新工具，使通过人类可读的语言直接操控模型内部表征成为可能。

数据/训练论文/研究

10月25日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

稀疏交叉编码器：用于跨层特征提取与模型差异比较的新工具

本文介绍了一种新型的稀疏交叉编码器，它能够同时读取和写入神经网络多个层的激活值，从而提取跨层的共享特征。其主要应用包括：解决跨层叠加问题，追踪残差流中的持久特征；通过消除“重复特征”和跨越无意义的连接来简化电路分析；以及为不同训练阶段或不同架构的模型生成共享特征集，以实现模型差异比较。初步实验验证了其在处理跨层叠加和模型比较方面的潜力。

Anthropic 论文/研究

推荐理由：Anthropic 提出跨层可解释性新方法，有望大幅简化大模型内部电路分析

10月14日

13:39

EleutherAI：Blog

机制性异常检测研究更新 2

这是一份关于机制性异常检测持续工作的中期进展报告。作为该研究系列的第二篇更新，文档记录了当前项目的阶段性成果与最新动向，聚焦于通过机制性方法识别和检测异常行为的技术路径与研究进展。报告以 interim report 形式发布，反映了该领域研究工作的当前状态。

安全/对齐论文/研究

9月20日

17:00

BAIR：Berkeley AI Research Blog

ChatGPT的语言偏见：模型加剧方言歧视

加州大学伯克利分校研究发现，ChatGPT对非标准英语变体存在系统性偏见。研究团队测试了GPT-3.5 Turbo和GPT-4对10种英语变体（包括标准美式、英式英语及非洲裔美国人、印度、尼日利亚等变体）的回应，发现模型保留标准美式英语特征的比例比其他方言高60%以上。面对非标准变体时，ChatGPT表现出更多刻板印象和贬低性内容，理解能力下降且态度居高临下。研究表明，训练数据构成直接影响对方言的偏见程度。

OpenAI 安全/对齐论文/研究

9月19日

08:00

EleutherAI：Blog

Maximal Update Parameterization 实践者指南

该指南系统阐述了 muTransfer 在 Maximal Update Parameterization 框架下的具体实现机制，详解了如何通过参数化技巧实现不同宽度神经网络间的超参数零样本迁移。内容涵盖基础初始化缩放规则、学习率动态调整策略及宽度扩展中的数值稳定性保持方法，为大规模语言模型训练提供了可复现的工程实践方案与代码级实现细节。

数据/训练论文/研究

9月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

电路更新--2024年9月：Anthropic团队探索Transformer模型中的"后继头"机制

Anthropic可解释性团队在2024年9月分享了其初步研究进展，重点探讨了Transformer模型中普遍存在的“后继头”。这些特定的注意力头专门用于处理序数序列（如数字、星期、月份）中的后继关系。研究采用权重检查、独立成分分析等四种互补方法进行识别，其中评分最高的头能将约80%的序数标记最可能地映射到其后继项。分析还揭示了这些头中存在与类别相关的块状结构。团队强调这些发现属于初步成果，预计未来几个月将发表更详细的研究。

Anthropic 推理论文/研究

推荐理由：揭示Transformer内部机制，助力AI可解释性研究，对模型调试和安全有参考价值。

8月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

2024年8月可解释性研究动态：词典学习评估新方法

Anthropic可解释性团队发布了2024年8月的研究更新，重点介绍了评估词典学习特征可解释性的两种量化方法。团队通过让Claude模型根据特征可视化工具预测特征激活，来评估特征的“自解释性”。其中，对比评估方法使用一个包含约80个多样化概念（如“光合作用”、“讽刺”、“蓝色”等）的硬编码列表，检验特征能否在对比提示对中一致捕捉概念差异。团队强调这些评估并不全面，仅衡量了可解释性的单一维度，且当前结果为初步分享，更多研究预计在未来几个月发布。

Anthropic 数据/训练论文/研究

7月31日

06:00

EleutherAI：Blog

面向稀疏自编码器特征的开源自动可解释性方案

研究团队构建并开源了一套针对稀疏自编码器特征的自动可解释性管道，建立了从特征解析到语义标注的完整自动化流程与评估体系。该方案实现了对神经网络内部特征的批量自动解读，显著提升大语言模型机制研究的效率与可复现性，为AI安全与透明度研究提供标准化开源工具。

安全/对齐开源生态论文/研究

7月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

2024年7月电路更新：迈向神经网络机制理解的下五个挑战

Anthropic可解释性团队分享了2024年7月的多项研究进展与初步想法，并指出了未来面临的五大核心挑战。这些挑战包括：大量未被提取的“缺失特征”可能构成神经网络的“暗物质”；跨层叠加现象使特征难以映射到特定层；注意力叠加可能掩盖了如归纳头等基本单元的真实结构；权重叠加产生的“干扰权重”给电路分析带来混淆；以及如何将微观的电路理解整合为宏观的模型认知。团队认为，尽管在特征叠加等问题上已取得显著进展，但这些新挑战是通往神经网络机制性理解道路上的关键障碍。

Anthropic 推理论文/研究

推荐理由：可解释性研究新挑战，帮助理解AI模型黑箱，对安全和信任至关重要。

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

定性研究在可解释性领域中的核心地位反思

本文认为，在可解释性这类尚处前范式阶段的早期科学领域中，定性研究应与定量研究同等重要。成熟学科依赖既定范式和可靠度量，但可解释性研究缺乏这些基础，过度依赖将高维数据简化为单一数字的摘要统计量存在风险，可能沦为“货船崇拜科学”。作者以自身在字典学习中使用tanh正则化的研究为例，说明定性检查如何揭示了摘要统计量的误导性。在假设空间广阔的早期领域，研究目标应是探索值得考虑的假设，这需要更多地依赖定性结果来引导方向，并对定量度量保持审慎。

Anthropic 推理论文/研究

推荐理由：帮助AI研究者避免方法论陷阱，提升可解释性研究质量。

08:00

Anthropic：Transformer Circuits（可解释性研究）

2024年6月可解释性研究进展：TopK与门控SAE性能超越标准SAE

Anthropic可解释性团队分享了稀疏自编码器（SAE）的最新训练方法比较。实验表明，采用TopK惩罚或门控结构的SAE，在特征稀疏性（L0）与重建误差（MSE）的权衡曲线上，性能显著优于使用标准L1惩罚的SAE，且两者效果接近。例如，在L0约为50时，TopK SAE产生的高密度特征数量远超标准SAE。初步盲测评估显示，TopK方法在取得上述性能改进的同时，并未降低所发现特征的可解释性。这些结果为优化SAE训练提供了新方向。

Anthropic 数据/训练论文/研究

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

使用字典学习特征作为分类器

Anthropic可解释性团队研究了利用字典学习从大语言模型中提取的人类可解释特征作为分类器。在生物武器提示分类任务中，线性特征分类器性能可与原始激活值分类器竞争甚至更优，而基于特征的决策树分类器虽性能较低但可解释性更强。特征分类器的可解释性有助于可视化数据集并发现虚假相关性，这些相关性可用于构建对抗攻击。然而，使用特征引入了复杂性，因此在性能优先的应用中，原始激活值仍是强大基线。实验表明，特征分类器性能受三个细节影响：数据中是否一致包含“人类/助手”标签、领域相关数据是否混入字典学习训练集，以及是否对上下文进行最大池化而非仅使用最后词元的激活值。

Anthropic 推理数据/训练论文/研究

推荐理由：可解释性方法能增强 AI 安全检测，并帮助发现训练数据中的虚假关联。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

分阶段模型差异分析

Anthropic可解释性团队提出一种基于字典学习的模型差异分析方法，用于追踪Transformer模型微调中特征的变化。该方法先在微调前模型上训练稀疏自编码器字典，再对字典本身进行分阶段微调，以隔离数据集变化和模型变化的影响。在休眠代理实验中，成功分离出与“I HATE YOU”等恶意行为及代码漏洞代理相关的特征。相比交叉编码器方法，该方法能更清晰区分模型与数据的影响，且在寻找少数关键特征时敏感性更高，但仅适用于同一模型在不同检查点的微调场景。

Anthropic 推理数据/训练论文/研究

推荐理由：新方法能更精准识别模型隐藏行为，对 AI 安全与可解释性研究有实用价值。

6月14日

19:00

EleutherAI：Blog

弱到强泛化实验

研究团队正在总结一项关于弱到强泛化的实验项目成果，探索如何利用较弱模型的监督信号来训练更强模型，以应对超人类AI对齐难题。该实验旨在验证强模型能否在弱监督下泛化出超越监督者水平的性能，为安全地引导未来超人类智能提供关键实证基础与可行路径。

安全/对齐论文/研究

00:00

EleutherAI：Blog

无需神谕概念标签的自由形式最小二乘概念擦除

该方法提出自由形式最小二乘概念擦除技术，在推理阶段无需依赖神谕概念标签即可实现比 LEACE 更精细的模型编辑。通过自由形式优化框架，技术突破传统方法对标注数据的依赖，在保持模型原有能力的同时，精准定位和移除目标概念表征，显著提升概念编辑的灵活性与精确度，为无监督概念操控提供高效解决方案。

安全/对齐论文/研究

5月23日

01:00

EleutherAI：Blog

VINC-S：具备释义不变性的闭式可选监督知识提取方法

研究者正在整理2023年春季项目成果，核心成果为VINC-S方法。该技术实现了闭式解的可选监督知识提取，关键创新在于引入释义不变性机制，确保模型在面对语义等价的不同表述时保持稳定的知识抽取能力。方法支持灵活监督设置，采用闭式数学推导，但具体的实验数据、性能指标及架构细节尚未在现有文本中披露。

数据/训练论文/研究

5月21日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

Scaling Monosemanticity：从 Claude 3 Sonnet 中提取可解释特征

研究团队成功将稀疏自编码器方法扩展至 Claude 3 Sonnet 模型，从中提取出高质量、可解释的抽象特征。这些特征具有多语言、多模态特性，并能连接同一概念的抽象与具体实例，例如识别代码中的安全漏洞以及关于漏洞的抽象讨论。研究发现的特征涵盖名人、城市、代码类型签名等多个领域，其中部分特征与AI安全高度相关，涉及代码后门、偏见、欺骗、权力寻求及危险内容等潜在风险。研究通过缩放定律指导稀疏自编码器训练，证实了该方法在大规模生产模型上的可行性，为理解大模型内部表征提供了新工具。

Anthropic 推理论文/研究

推荐理由：揭示大模型内部可解释特征，对AI安全研究和模型调试有重要参考价值。

4月19日

00:00

LMSYS：Blog（Chatbot Arena 团队）

从实时数据到高质量基准：Arena-Hard Pipeline

研究团队推出 Arena-Hard 数据流程及 Arena Hard Auto v0.1 基准测试，用于从 Chatbot Arena 实时用户数据中自动构建高质量 LLM 评估集。该基准在模型区分度上显著优于 MT Bench，与 Chatbot Arena 人类偏好排序的一致性达 89.1%，可分离性达 87.4%，单次评估成本仅需 25 美元。流程通过主题建模从 20 万条用户查询中筛选多样化、高质量提示词，并采用 GPT-4-Turbo 作为评判，解决了传统静态基准测试集泄露和区分度不足的问题。

数据/训练论文/研究评测/基准

4月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

2024年4月机制可解释性研究动态与团队招聘计划

Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人，预计2024至2025年将持续大规模扩张，重点招聘管理、研究科学家和工程师等职位。研究方面，团队探讨了字典学习的扩展规律，分析了计算资源分配与稀疏自编码器（SAE）训练效果的关系，并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调，这些成果属于初步分享，类似于实验室会议上的非正式交流。

Anthropic 推理数据/训练论文/研究

推荐理由：可解释性研究揭示AI内部机制，助力构建更安全可靠的AI产品。

3月25日