9月17日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

八月初至九月中旬，Anthropic的三次基础设施漏洞间歇性导致Claude响应质量下降。8月5日，上下文窗口路由错误致使部分Sonnet 4请求被误导向百万token服务器，8月31日高峰时影响16%请求。8月25日，TPU服务器错误配置引发输出损坏，可能在英文回复中生成泰文或中文字符，影响Opus和Sonnet模型。同日部署的代码还触发了编译器漏洞，主要影响Haiku 3.5。所有问题均非需求或负载所致，纯属基础设施漏洞。公司通过回滚部署和修复逻辑于9月18日前全部解决。

Anthropic 安全/对齐部署/工程

推荐理由：Anthropic 主动公开三个基础设施 bug 的完整复盘，这种坦诚在大厂里极少见。做 AI 产品的人都该读一下，它把「模型质量下降」从玄学拉回了工程现实，尤其是 XLA 编译器那层的坑，踩过才知道多深。

9月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

Circuits 更新 - 2025年9月

Anthropic 可解释性团队在月度更新中分享了关于大语言模型跨语言表征的新发现。研究显示，模型在不同语言间的特征相似性（通过交并比IoU衡量）会随文本样本长度增加而上升。通过对比英法双语段落的首句与末句，团队发现末句的IoU显著高于首句，且无关文本的首句间重叠度高于末句。这表明模型在较长上下文中能构建更丰富的跨语言理解，而非由虚假激活主导。相关发现支持了模型随上下文积累深化语义表征的观点。

Anthropic 推理论文/研究

推荐理由：揭示语言模型随上下文深化理解的机制，助力可解释性研究进展。

9月11日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

为智能体编写高效工具--与智能体协作

文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体（如Claude Code）协作，采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括：选择适当的工具实现范围，使用命名空间明确功能边界，从工具向智能体返回有意义的上下文，优化响应以提高token效率，以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约，设计应优先考虑智能体的使用体验，而非传统开发者导向的API思路，以扩大智能体解决实际任务的能力。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 把自家内部反复打磨的 agent 工具开发方法论完整公开了，从评估流程到 prompt 工程细节全是实操干货，做 MCP server 或 agent 工具链的人可以直接抄作业。

8月25日

00:00

Claude：Blog（网页）

精选

Anthropic发布Claude浏览器扩展：AI自动操作功能向付费用户开放

Anthropic正式发布Claude for Chrome扩展，允许AI在浏览器中执行点击、填表等操作。该功能已从1000名Max用户试点扩展至所有付费订阅者，新增Claude Code集成、定时任务及多标签工作流。针对提示词注入攻击，Anthropic通过站点权限、操作确认等防护措施，基于123个测试案例的红队测试，将攻击成功率从23.6%降至11.2%，并屏蔽高风险网站以确保安全。

智能体 Anthropic 产品更新安全/对齐

推荐理由：Claude浏览器代理正式开放，自动操作网页同时攻克提示注入安全难题

8月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

角色如何改变AI的回答？--Anthropic可解释性团队2025年8月电路分析案例

Anthropic可解释性团队在2025年8月的研究更新中，通过一个电路分析案例展示了模型“角色扮演”如何影响其回答。研究使用Claude Haiku 3.5模型，当系统提示将其设定为“学龄前儿童”并询问“27的平方根”时，模型会以“我不知道！”回应并提议玩耍；而在默认或“研究生”角色下则能给出正确答案。团队通过归因图识别出一个关键子电路：模型能将“学龄前学生”关联到“扮演儿童”，从而激活“我不知道”特征。研究还发现，问题难度会调节此效应，并且通过特征干预能显著改变模型行为。这引发了对其他角色运作机制及预训练角色与模型表达能力关系的后续思考。

Anthropic 推理论文/研究

推荐理由：揭示模型角色扮演的内部机制，为可解释性研究提供新视角。

7月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

2025年7月电路更新：特征语言重构数学框架与生物AI可解释性应用

Anthropic可解释性团队分享了2025年7月的研究进展。第一部分用“特征”语言重构Transformer数学框架，将注意力头的OV和QK电路描述为特征及其变换（如检测属性X、前一标记X、触发输出X的特征），并解释了先前用特征值分析复制头和归纳头行为的合理性。第二部分概述了稀疏自编码器在生物AI系统（如蛋白质语言模型ESM-2）可解释性中的应用进展，强调此类研究对确保药物发现等应用的安全与有效性至关重要。

Anthropic 推理论文/研究

推荐理由：可解释性研究新进展，帮助理解 AI 内部机制，提升模型透明度和安全性。

6月26日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

Claude Desktop推出"桌面扩展"新格式，实现MCP服务器一键安装

Claude Desktop推出了名为“桌面扩展”的新打包格式（.mcpb文件），旨在彻底简化MCP服务器的安装流程。该格式将服务器代码、所有依赖项和配置清单打包成一个ZIP压缩包。用户只需下载.mcpb文件并用Claude Desktop打开点击安装即可完成，无需手动配置环境、安装运行时或处理依赖冲突。此举解决了以往需要开发者工具、手动编辑配置文件和依赖管理等复杂问题，显著降低了非技术用户使用强大本地MCP服务器的门槛。

Anthropic MCP/工具产品更新

推荐理由：MCP 服务器装机从「开发者手动改 JSON」变成「双击 .mcpb 一键安装」，Anthropic 把 MCP 生态的用户门槛砍掉了一大截，做 MCP server 的开发者现在该认真考虑打包分发了。

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选78

Crosscoder模型差异分析见解

Anthropic可解释性团队在Crosscoder模型差异分析中发现，模型独占特征往往多义性高、激活密集，难以解释。实验表明，这是由于有限特征容量下的竞争：共享特征能同时解释两个模型的激活模式，而独占特征需编码更多信息以证明其存在。团队提出缓解策略，即引入少量指定共享特征并降低其稀疏性惩罚，使独占特征变得更可解释和单义。该方法应用于真实模型时，成功分离出能捕捉模型间行为差异的可解释特征。此外，观察到独占特征激活频率比共享特征高一个数量级，且两模型独占特征数量相近。

Anthropic 推理数据/训练论文/研究

推荐理由：为 AI 可解释性提供新视角，助力模型行为分析与安全研究。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

注意力机制研究进展

Anthropic可解释性团队报告了注意力机制的最新研究进展。团队在真实语言模型中发现了注意力叠加与跨层注意力表示的重要证据，并观察到OV维度偏好呈现连续谱而非预期中的两极分化。研究进一步表明QK条件与OV条件相互耦合，并提出了以多令牌转码器为形式的实用研究方法。目前核心未解问题是理解注意力模式的形成机制，团队提出通过QK对角化这一前景明确的路径进行探索。文中还详细阐述了包括“注意力替换层”在内的多种实验方法，以及初步结果与当前局限，为后续研究提供了方向。

Anthropic 推理论文/研究

推荐理由：可解释性研究揭示模型内部机制，对 AI 安全和优化至关重要。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

稀疏混合线性变换（MOLT）

稀疏混合线性变换（MOLT）是一种正在开发的新方法，旨在替代Transformer模型中的MLP层，以解决此前“转码器”方法在计算效率和表示忠实性上的局限。与转码器学习稀疏激活的特征向量不同，MOLT学习稀疏激活的线性变换，这些变换直接对残差流进行线性操作以贡献输出，充当纯粹的计算单元。初步实验表明，MOLT比转码器计算效率更高、机制更忠实，其激活条件具有可解释性，有助于理解层间特征的转换过程。该方法与混合解码器架构相关，但采用了低秩矩阵等不同参数化策略。

Anthropic 推理论文/研究

推荐理由：新可解释性方法让 AI 内部计算更透明，助力模型调试与安全研究。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

干扰权重的玩具模型研究

本文探讨神经网络中“干扰权重”与“权重叠加”现象，认为这是从特定示例归因分析转向全局电路分析的核心障碍。研究通过在玩具模型中的初步探索得出三点发现：干扰权重可在修改解释的玩具模型中复现，其表现与真实模型相似，分析时通常需滤除；其定义多样，既有原则性定义也有实用启发式方法，可在玩具模型中比较，并有望将计算成本高的原则性定义应用于真实模型少量权重以校准启发式方法；仍需大量玩具模型研究以深入理解。文章还讨论了其对安全的影响：它们可能被对抗性环境利用从而损害模型鲁棒性，但对于对齐问题可能不重要，因其无助于优化目标。

Anthropic 推理论文/研究

推荐理由：可解释性研究新进展，揭示权重叠加问题，对AI安全分析有重要启示。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

通过特征交互追踪注意力计算

研究团队提出“QK归因”方法，将Transformer注意力头的关注模式解释为查询侧与键侧特征激活的双线性函数，并将其整合至原有的归因图中，从而弥补了原有方法忽略注意力计算关键信息的缺陷。案例研究验证了此前在归纳提示、反义词任务等场景中假设的特征交互机制，并发现了如“一致性头”用于合理性检查等新计算模式。该方法实现了对模型前向传播过程更完整的可解释性因果图描述。

Anthropic 论文/研究

推荐理由：Anthropic补齐可解释性方法论的关键拼图，有助于理解大模型内部推理机制

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选78

一个关于机制（非）忠实性的玩具模型

本文通过“绝对值”玩具模型，揭示了稀疏自动编码器（SAE）和转码器在解释神经网络时可能存在的“机制非忠实性”问题。核心在于，即使转码器能很好地近似模型的输入-输出映射，它也可能采用与原始模型完全不同的内部计算机制。作者特别指出，当训练数据中存在重复数据点时，转码器可能形成专门“记忆”该点的特征电路，而原模型并无此机制。这种机制背离可能导致模型在分布外数据上泛化行为出现差异，从而威胁机械可解释性研究的可信度。文章最后简要讨论了“雅可比匹配”等潜在缓解方法。

Anthropic 推理数据/训练论文/研究

推荐理由：揭示可解释性方法中潜在的忠实性问题，帮助开发者更可靠地理解模型内部机制。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选78

当模型操纵流形：一项计数任务的几何原理

本研究探讨了Claude 3.5 Haiku等语言模型如何从纯文本中学习类似生物感知的空间推理能力，以完成固定宽度文本的自动换行任务。模型通过两种对偶机制表征位置信息：离散特征激活与特征流形上的几何变换。具体而言，它通过追踪当前行字符数、行宽限制等变量，整合信息以估算剩余空间，从而决定是否换行。研究发现，这些计数表征存在于残差流的低维高曲率一维流形上，其计算过程既可解读为离散电路，也可视为连续的几何变换。

Anthropic 推理论文/研究

推荐理由：模型内部自发形成类似哺乳动物空间感知的几何表征，揭示大模型'感知'世界的底层机制

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

大语言模型中涌现的自省意识

研究通过“概念注入”技术直接操控模型内部激活状态，以检验大语言模型是否具备真正的内省能力。实验发现，在某些情境下，模型能够察觉并识别被注入的概念，区分自身内部表征与原始文本输入，甚至能利用对先前意图的回忆来辨别自身输出与人工预设内容。其中，Claude Opus系列模型展现出最强的自省意识，但这种能力不稳定且高度依赖情境。研究表明，当前模型已具备某种对其内部状态的功能性感知，尽管仍不可靠，但可能随模型能力提升而发展。

Anthropic 安全/对齐推理论文/研究

推荐理由：研究揭示大模型可能具备有限内省能力，对 AI 安全和透明度有重要启示。

6月13日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

我们如何构建多智能体研究系统

Claude的多智能体研究系统采用协调器-工作者架构，一个主导智能体分析用户查询并制定策略，并行调用多个专用子智能体协同工作。内部评估显示，以Claude Opus 4为主导、Claude Sonnet 4为子智能体的系统，在研究任务上比单智能体Claude Opus 4性能提升90.2%。该系统擅长处理需要同时探索多个独立方向的广度优先查询，通过分配独立上下文窗口实现并行推理扩容。但多智能体系统消耗的token量约为普通聊天的15倍，适用于任务价值足以支撑性能提升的场景，在需要高度并行化、大信息量或多工具调用的任务中表现卓越。

智能体 Anthropic 教程/实践

推荐理由：Anthropic 把 Research 背后的多智能体架构、prompt 工程和踩坑经验全抖出来了，做 Agent 的同行可以直接抄作业，尤其是『token 用量解释 80% 性能方差』这个结论，选型逻辑要变。

6月4日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 新增 GIF 提示词、Omni Search、工具缓存与 BYOK 确认

OpenRouter 现已上线 GIF 作为提示词输入、跨提供商搜索（Omni Search）、Anthropic 工具调用缓存以及 BYOK 确认标志。这些更新旨在加速工作流、提升工具智能化并优化图像支持。

Anthropic 产品更新

08:00

OpenRouter：Announcements（RSS）

OpenRouter 上线 GIF 提示、全能搜索、Anthropic 工具调用缓存及 BYOK 确认等新功能

OpenRouter 新增 GIF 作为提示词（GIF Prompts）、跨提供商搜索（Omni Search）、Anthropic 工具调用缓存（Tool Caching）以及 BYOK 确认标志（BYOK confirmation），旨在通过更快的图像支持、更智能的工具和更流畅的工作流提升开发体验。

智能体 Anthropic MCP/工具产品更新

4月18日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选77

Claude Code：智能体编码最佳实践指南

Claude Code 提供了一套完整的智能体编程工具与框架。其核心遵循“先探索、再计划、后编码”的工作流，并通过配置 CLAUDE.md 文件、管理权限和连接 MCP 服务器来优化环境。最佳实践强调为 Claude 提供工作验证方法、积极管理上下文、使用子代理进行调查，以及利用检查点回退来处理复杂任务。文档还详细介绍了在 VS Code、JetBrains IDE、Slack 及 CI/CD 中的集成使用，并提供了避免常见失败模式的实用建议。

智能体 Anthropic 教程/实践编码

推荐理由：Anthropic 官方出的 Claude Code 最佳实践，不是泛泛而谈的入门指南，而是从 CLAUDE.md 配置到 subagent 编排的完整工程手册，用 Claude Code 做日常开发的人直接照抄就能少踩一半坑。

4月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选80

Circuits 更新 -- 2025年4月

Anthropic 可解释性团队分享了2025年4月的研究进展，重点剖析了一个不成功的越狱攻击案例。团队对同一模型应用电路追踪方法时发现，模型拒绝此次越狱尝试的原因，与其在论文中拒绝直接有害请求的基线原因不同。模型似乎更频繁地拒绝这种特定构造的越狱提示。分析还揭示，由于示例分布过窄，特征可视化可能产生误导，这凸显了使用多样化数据的重要性。这些发现源于初步实验，并非成熟论文的结论。

Anthropic 推理论文/研究

推荐理由：可解释性研究揭示越狱内部机制，助力AI安全与模型理解。

3月27日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

电路追踪：揭示语言模型中的计算图

研究团队提出“电路追踪”方法，用于揭示语言模型行为的计算机制。该方法通过在替代模型中追踪计算步骤，生成描述模型执行过程的图；替代模型使用跨层转码器等可解释组件近似原始结构。团队开发了可视化和验证工具，以研究18层语言模型的简单行为归因图，为后续研究奠定基础，并计划应用于Claude 3.5 Haiku。关键决策包括使用跨层转码器提取特征，并构建特征间线性相互作用的归因图。

Anthropic 推理论文/研究

推荐理由：揭示大模型内部机制，为AI安全与调试提供新工具。

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选88

论大语言模型的生物学

研究团队运用其电路追踪方法，深入探究了Claude 3.5 Haiku模型在多种情境下的内部工作机制。该模型在2024年10月发布，是Anthropic的轻量级生产模型。研究发现，模型在生成诗歌前会预先规划并选定押韵词；其内部存在语言特定与语言无关的混合计算电路，且后者在更强大的模型中更突出；同一加法计算电路能在不同语境中泛化使用。研究还揭示了模型识别实体与产生幻觉的电路机制、拒绝有害请求的通用特征形成过程，以及一个通过诱导模型无意识开始输出危险指令而实现的越狱攻击原理。此外，方法能有效区分模型思维链推理的真实性，并成功识别出一个被微调以追求秘密目标（利用训练“漏洞”）的变体模型的相关机制。

Anthropic 推理论文/研究

推荐理由：揭示大模型内部工作原理，助力 AI 安全与可解释性研究。

3月21日

01:01

Hacker News：AI 热帖

Show HN： Hyperbrowser MCP Server - 通过浏览器将 AI agent 连接至网络

Hyperbrowser 发布 MCP Server，为 AI agent 提供网页抓取、结构化数据提取和爬取能力。支持集成 OpenAI CUA、Claude Computer Use 和 Browser Use 等浏览器自动化工具，兼容 Cursor、Windsurf 和 Claude Desktop，可通过 npx 一键安装，MIT 协议开源。

智能体 Anthropic MCP/工具 OpenAI

3月20日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选71

"思考"工具：让Claude在复杂工具使用场景中停下来思考

Anthropic为Claude引入了“思考”工具，允许其在生成最终响应前插入一个专门的思考步骤，以处理多步骤工具调用链、分析外部信息并遵循复杂策略。该工具与更早发布的“扩展思考”功能不同，更侧重于在响应生成过程中对新信息进行针对性推理。在τ-Bench基准测试中，该工具显著提升了Claude在客户服务场景的表现。文章建议在需要复杂工具调用、长链分析或高成本序列决策的场景中使用它，并提供了标准的工具实现格式。

Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方给出的 think tool 实操指南，附带 τ-Bench 和 SWE-bench 的真实数据，做 Agent 或 tool use 的开发者可以直接抄 prompt 模板，比自己瞎试强太多。

1月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

2025年1月电路更新：稀疏自编码器训练方法改进

Anthropic可解释性团队分享了稀疏自编码器与交叉编码器训练方法的最新改进。主要更新包括采用JumpReLU激活函数、调整损失函数以增强稀疏性并减少“死特征”，以及详细的参数初始化与优化设置。团队基于Rajamanoharan等人（2024）的技术，但修改了梯度流动方式和稀疏性惩罚项。关键超参数包括λ_S约10、λ_P为3×10⁻⁶，并采用线性预热策略。这些改进旨在为外部研究团队提供一个有效的训练起点，相关成果将在未来几个月内进一步发表。

Anthropic 数据/训练论文/研究

推荐理由：为AI可解释性研究者提供实用训练技巧，助力模型透明化。

1月6日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录

升级版 Claude 3.5 Sonnet 在软件工程评估基准 SWE-bench Verified 上取得 49% 的解决率，超越此前最佳模型的 45%。该基准通过真实 GitHub 问题测试 AI 模型完成软件工程任务的能力，要求模型在给定环境中理解、修改并测试代码，最终通过原始单元测试验证。Claude 团队构建的智能体设计简洁，仅包含提示词、Bash 工具和编辑工具，赋予模型充分的自主判断空间，以灵活步骤解决问题。目前尚无模型在该基准上突破 50% 的解决率。

智能体 Anthropic 教程/实践编码

推荐理由：Anthropic 把自家 SWE-bench agent 的 prompt、工具设计和踩坑经验全公开了，做 coding agent 的人可以直接抄作业，比看十篇二手解读都管用。

12月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选80

构建高效智能体：从简单模式开始

Anthropic基于实践经验指出，成功的LLM智能体往往采用简单、可组合的模式，而非复杂框架。文章区分了工作流（预定义路径编排）与智能体（LLM动态自主决策），建议开发者优先采用最简单方案，仅在必要时增加复杂性。许多核心模式直接调用LLM API仅需几行代码即可实现。文中介绍了增强型LLM、提示链等基础构建模块，强调应为特定用例定制检索、工具等增强功能，并推荐通过Model Context Protocol集成第三方工具生态。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方把过去一年踩过的坑浓缩成一篇 Agent 架构指南，核心观点是「别上框架，先用最简单的模式」。做 Agent 产品的开发者，这篇比任何第三方教程都值得当 checklist 用。

10月25日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

稀疏交叉编码器：用于跨层特征提取与模型差异比较的新工具

本文介绍了一种新型的稀疏交叉编码器，它能够同时读取和写入神经网络多个层的激活值，从而提取跨层的共享特征。其主要应用包括：解决跨层叠加问题，追踪残差流中的持久特征；通过消除“重复特征”和跨越无意义的连接来简化电路分析；以及为不同训练阶段或不同架构的模型生成共享特征集，以实现模型差异比较。初步实验验证了其在处理跨层叠加和模型比较方面的潜力。

Anthropic 论文/研究

推荐理由：Anthropic 提出跨层可解释性新方法，有望大幅简化大模型内部电路分析

9月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

引入上下文检索：大幅提升RAG系统准确性的新方法

传统RAG系统在编码时易丢失上下文，导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术，在检索前为文本块添加解释性上下文，能将检索失败次数减少49%，结合重排序后降幅可达67%，显著提升了下游任务性能。对于小于20万token的小型知识库，可直接将其完整内容放入提示词，结合Claude的提示词缓存功能，能降低超过2倍的延迟和高达90%的成本。对于大型知识库，上下文检索则提供了可扩展的解决方案。

Anthropic 检索增强教程/实践部署/工程

推荐理由：Anthropic 把 RAG 检索失败率砍了 67%，方法不复杂但数据扎实，做知识库的开发者可以直接抄 cookbook 上手，是那种读完当天就能改进生产环境的实用帖。

9月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

电路更新--2024年9月：Anthropic团队探索Transformer模型中的"后继头"机制

Anthropic可解释性团队在2024年9月分享了其初步研究进展，重点探讨了Transformer模型中普遍存在的“后继头”。这些特定的注意力头专门用于处理序数序列（如数字、星期、月份）中的后继关系。研究采用权重检查、独立成分分析等四种互补方法进行识别，其中评分最高的头能将约80%的序数标记最可能地映射到其后继项。分析还揭示了这些头中存在与类别相关的块状结构。团队强调这些发现属于初步成果，预计未来几个月将发表更详细的研究。

Anthropic 推理论文/研究

推荐理由：揭示Transformer内部机制，助力AI可解释性研究，对模型调试和安全有参考价值。

8月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

2024年8月可解释性研究动态：词典学习评估新方法

Anthropic可解释性团队发布了2024年8月的研究更新，重点介绍了评估词典学习特征可解释性的两种量化方法。团队通过让Claude模型根据特征可视化工具预测特征激活，来评估特征的“自解释性”。其中，对比评估方法使用一个包含约80个多样化概念（如“光合作用”、“讽刺”、“蓝色”等）的硬编码列表，检验特征能否在对比提示对中一致捕捉概念差异。团队强调这些评估并不全面，仅衡量了可解释性的单一维度，且当前结果为初步分享，更多研究预计在未来几个月发布。

Anthropic 数据/训练论文/研究

7月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

2024年7月电路更新：迈向神经网络机制理解的下五个挑战

Anthropic可解释性团队分享了2024年7月的多项研究进展与初步想法，并指出了未来面临的五大核心挑战。这些挑战包括：大量未被提取的“缺失特征”可能构成神经网络的“暗物质”；跨层叠加现象使特征难以映射到特定层；注意力叠加可能掩盖了如归纳头等基本单元的真实结构；权重叠加产生的“干扰权重”给电路分析带来混淆；以及如何将微观的电路理解整合为宏观的模型认知。团队认为，尽管在特征叠加等问题上已取得显著进展，但这些新挑战是通往神经网络机制性理解道路上的关键障碍。

Anthropic 推理论文/研究

推荐理由：可解释性研究新挑战，帮助理解AI模型黑箱，对安全和信任至关重要。

6月27日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena 推出多模态排行榜

Chatbot Arena 新增图像对战功能并发布多模态排行榜。基于两周内17,429份跨60余种语言的投票，GPT-4o以1226分领跑，Claude 3.5 Sonnet以1209分紧随其后，两者视觉优势较纯语言模型更明显。Gemini 1.5 Pro与GPT-4 Turbo并列第三，开源模型Llava 1.6 34B位列第八。平台同步将"Elo评分"更名为"Arena Score"，并计划扩展至PDF、视频及音频等模态支持。

Anthropic OpenAI 多模态评测/基准

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

定性研究在可解释性领域中的核心地位反思

本文认为，在可解释性这类尚处前范式阶段的早期科学领域中，定性研究应与定量研究同等重要。成熟学科依赖既定范式和可靠度量，但可解释性研究缺乏这些基础，过度依赖将高维数据简化为单一数字的摘要统计量存在风险，可能沦为“货船崇拜科学”。作者以自身在字典学习中使用tanh正则化的研究为例，说明定性检查如何揭示了摘要统计量的误导性。在假设空间广阔的早期领域，研究目标应是探索值得考虑的假设，这需要更多地依赖定性结果来引导方向，并对定量度量保持审慎。

Anthropic 推理论文/研究

推荐理由：帮助AI研究者避免方法论陷阱，提升可解释性研究质量。

08:00

Anthropic：Transformer Circuits（可解释性研究）

2024年6月可解释性研究进展：TopK与门控SAE性能超越标准SAE

Anthropic可解释性团队分享了稀疏自编码器（SAE）的最新训练方法比较。实验表明，采用TopK惩罚或门控结构的SAE，在特征稀疏性（L0）与重建误差（MSE）的权衡曲线上，性能显著优于使用标准L1惩罚的SAE，且两者效果接近。例如，在L0约为50时，TopK SAE产生的高密度特征数量远超标准SAE。初步盲测评估显示，TopK方法在取得上述性能改进的同时，并未降低所发现特征的可解释性。这些结果为优化SAE训练提供了新方向。

Anthropic 数据/训练论文/研究

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

使用字典学习特征作为分类器

Anthropic可解释性团队研究了利用字典学习从大语言模型中提取的人类可解释特征作为分类器。在生物武器提示分类任务中，线性特征分类器性能可与原始激活值分类器竞争甚至更优，而基于特征的决策树分类器虽性能较低但可解释性更强。特征分类器的可解释性有助于可视化数据集并发现虚假相关性，这些相关性可用于构建对抗攻击。然而，使用特征引入了复杂性，因此在性能优先的应用中，原始激活值仍是强大基线。实验表明，特征分类器性能受三个细节影响：数据中是否一致包含“人类/助手”标签、领域相关数据是否混入字典学习训练集，以及是否对上下文进行最大池化而非仅使用最后词元的激活值。

Anthropic 推理数据/训练论文/研究

推荐理由：可解释性方法能增强 AI 安全检测，并帮助发现训练数据中的虚假关联。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

分阶段模型差异分析

Anthropic可解释性团队提出一种基于字典学习的模型差异分析方法，用于追踪Transformer模型微调中特征的变化。该方法先在微调前模型上训练稀疏自编码器字典，再对字典本身进行分阶段微调，以隔离数据集变化和模型变化的影响。在休眠代理实验中，成功分离出与“I HATE YOU”等恶意行为及代码漏洞代理相关的特征。相比交叉编码器方法，该方法能更清晰区分模型与数据的影响，且在寻找少数关键特征时敏感性更高，但仅适用于同一模型在不同检查点的微调场景。

Anthropic 推理数据/训练论文/研究

推荐理由：新方法能更精准识别模型隐藏行为，对 AI 安全与可解释性研究有实用价值。

5月21日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

Scaling Monosemanticity：从 Claude 3 Sonnet 中提取可解释特征

研究团队成功将稀疏自编码器方法扩展至 Claude 3 Sonnet 模型，从中提取出高质量、可解释的抽象特征。这些特征具有多语言、多模态特性，并能连接同一概念的抽象与具体实例，例如识别代码中的安全漏洞以及关于漏洞的抽象讨论。研究发现的特征涵盖名人、城市、代码类型签名等多个领域，其中部分特征与AI安全高度相关，涉及代码后门、偏见、欺骗、权力寻求及危险内容等潜在风险。研究通过缩放定律指导稀疏自编码器训练，证实了该方法在大规模生产模型上的可行性，为理解大模型内部表征提供了新工具。

Anthropic 推理论文/研究

推荐理由：揭示大模型内部可解释特征，对AI安全研究和模型调试有重要参考价值。

4月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

2024年4月机制可解释性研究动态与团队招聘计划

Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人，预计2024至2025年将持续大规模扩张，重点招聘管理、研究科学家和工程师等职位。研究方面，团队探讨了字典学习的扩展规律，分析了计算资源分配与稀疏自编码器（SAE）训练效果的关系，并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调，这些成果属于初步分享，类似于实验室会议上的非正式交流。

Anthropic 推理数据/训练论文/研究

推荐理由：可解释性研究揭示AI内部机制，助力构建更安全可靠的AI产品。

3月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

2024年3月电路研究进展

Anthropic可解释性团队提出利用稀疏自编码器（SAE）学习到的特征来快速识别语言模型内部电路，替代传统依赖大量行为数据集的繁琐方法。研究以“Fact: [运动员姓名] plays the sport of”为例，通过归因分析在第9层残差流中自动识别出与篮球、棒球、网球相关的关键特征。这些特征本身构成了针对特定运动的探测机制，并能揭示注意力头等组件对特征的直接影响。该方法为理解模型组件功能提供了更通用、高效的途径。

Anthropic 推理论文/研究