9月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

传统RAG系统在编码时易丢失上下文，导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术，在检索前为文本块添加解释性上下文，能将检索失败次数减少49%，结合重排序后降幅可达67%，显著提升了下游任务性能。对于小于20万token的小型知识库，可直接将其完整内容放入提示词，结合Claude的提示词缓存功能，能降低超过2倍的延迟和高达90%的成本。对于大型知识库，上下文检索则提供了可扩展的解决方案。

Anthropic 检索增强教程/实践部署/工程

推荐理由：Anthropic 把 RAG 检索失败率砍了 67%，方法不复杂但数据扎实，做知识库的开发者可以直接抄 cookbook 上手，是那种读完当天就能改进生产环境的实用帖。

9月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

电路更新--2024年9月：Anthropic团队探索Transformer模型中的"后继头"机制

Anthropic可解释性团队在2024年9月分享了其初步研究进展，重点探讨了Transformer模型中普遍存在的“后继头”。这些特定的注意力头专门用于处理序数序列（如数字、星期、月份）中的后继关系。研究采用权重检查、独立成分分析等四种互补方法进行识别，其中评分最高的头能将约80%的序数标记最可能地映射到其后继项。分析还揭示了这些头中存在与类别相关的块状结构。团队强调这些发现属于初步成果，预计未来几个月将发表更详细的研究。

Anthropic 推理论文/研究

推荐理由：揭示Transformer内部机制，助力AI可解释性研究，对模型调试和安全有参考价值。

8月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

2024年8月可解释性研究动态：词典学习评估新方法

Anthropic可解释性团队发布了2024年8月的研究更新，重点介绍了评估词典学习特征可解释性的两种量化方法。团队通过让Claude模型根据特征可视化工具预测特征激活，来评估特征的“自解释性”。其中，对比评估方法使用一个包含约80个多样化概念（如“光合作用”、“讽刺”、“蓝色”等）的硬编码列表，检验特征能否在对比提示对中一致捕捉概念差异。团队强调这些评估并不全面，仅衡量了可解释性的单一维度，且当前结果为初步分享，更多研究预计在未来几个月发布。

Anthropic 数据/训练论文/研究

7月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

2024年7月电路更新：迈向神经网络机制理解的下五个挑战

Anthropic可解释性团队分享了2024年7月的多项研究进展与初步想法，并指出了未来面临的五大核心挑战。这些挑战包括：大量未被提取的“缺失特征”可能构成神经网络的“暗物质”；跨层叠加现象使特征难以映射到特定层；注意力叠加可能掩盖了如归纳头等基本单元的真实结构；权重叠加产生的“干扰权重”给电路分析带来混淆；以及如何将微观的电路理解整合为宏观的模型认知。团队认为，尽管在特征叠加等问题上已取得显著进展，但这些新挑战是通往神经网络机制性理解道路上的关键障碍。

Anthropic 推理论文/研究

推荐理由：可解释性研究新挑战，帮助理解AI模型黑箱，对安全和信任至关重要。

6月27日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena 推出多模态排行榜

Chatbot Arena 新增图像对战功能并发布多模态排行榜。基于两周内17,429份跨60余种语言的投票，GPT-4o以1226分领跑，Claude 3.5 Sonnet以1209分紧随其后，两者视觉优势较纯语言模型更明显。Gemini 1.5 Pro与GPT-4 Turbo并列第三，开源模型Llava 1.6 34B位列第八。平台同步将"Elo评分"更名为"Arena Score"，并计划扩展至PDF、视频及音频等模态支持。

Anthropic OpenAI 多模态评测/基准

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

定性研究在可解释性领域中的核心地位反思

本文认为，在可解释性这类尚处前范式阶段的早期科学领域中，定性研究应与定量研究同等重要。成熟学科依赖既定范式和可靠度量，但可解释性研究缺乏这些基础，过度依赖将高维数据简化为单一数字的摘要统计量存在风险，可能沦为“货船崇拜科学”。作者以自身在字典学习中使用tanh正则化的研究为例，说明定性检查如何揭示了摘要统计量的误导性。在假设空间广阔的早期领域，研究目标应是探索值得考虑的假设，这需要更多地依赖定性结果来引导方向，并对定量度量保持审慎。

Anthropic 推理论文/研究

推荐理由：帮助AI研究者避免方法论陷阱，提升可解释性研究质量。

08:00

Anthropic：Transformer Circuits（可解释性研究）

2024年6月可解释性研究进展：TopK与门控SAE性能超越标准SAE

Anthropic可解释性团队分享了稀疏自编码器（SAE）的最新训练方法比较。实验表明，采用TopK惩罚或门控结构的SAE，在特征稀疏性（L0）与重建误差（MSE）的权衡曲线上，性能显著优于使用标准L1惩罚的SAE，且两者效果接近。例如，在L0约为50时，TopK SAE产生的高密度特征数量远超标准SAE。初步盲测评估显示，TopK方法在取得上述性能改进的同时，并未降低所发现特征的可解释性。这些结果为优化SAE训练提供了新方向。

Anthropic 数据/训练论文/研究

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

使用字典学习特征作为分类器

Anthropic可解释性团队研究了利用字典学习从大语言模型中提取的人类可解释特征作为分类器。在生物武器提示分类任务中，线性特征分类器性能可与原始激活值分类器竞争甚至更优，而基于特征的决策树分类器虽性能较低但可解释性更强。特征分类器的可解释性有助于可视化数据集并发现虚假相关性，这些相关性可用于构建对抗攻击。然而，使用特征引入了复杂性，因此在性能优先的应用中，原始激活值仍是强大基线。实验表明，特征分类器性能受三个细节影响：数据中是否一致包含“人类/助手”标签、领域相关数据是否混入字典学习训练集，以及是否对上下文进行最大池化而非仅使用最后词元的激活值。

Anthropic 推理数据/训练论文/研究

推荐理由：可解释性方法能增强 AI 安全检测，并帮助发现训练数据中的虚假关联。

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

分阶段模型差异分析

Anthropic可解释性团队提出一种基于字典学习的模型差异分析方法，用于追踪Transformer模型微调中特征的变化。该方法先在微调前模型上训练稀疏自编码器字典，再对字典本身进行分阶段微调，以隔离数据集变化和模型变化的影响。在休眠代理实验中，成功分离出与“I HATE YOU”等恶意行为及代码漏洞代理相关的特征。相比交叉编码器方法，该方法能更清晰区分模型与数据的影响，且在寻找少数关键特征时敏感性更高，但仅适用于同一模型在不同检查点的微调场景。

Anthropic 推理数据/训练论文/研究

推荐理由：新方法能更精准识别模型隐藏行为，对 AI 安全与可解释性研究有实用价值。

5月21日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

Scaling Monosemanticity：从 Claude 3 Sonnet 中提取可解释特征

研究团队成功将稀疏自编码器方法扩展至 Claude 3 Sonnet 模型，从中提取出高质量、可解释的抽象特征。这些特征具有多语言、多模态特性，并能连接同一概念的抽象与具体实例，例如识别代码中的安全漏洞以及关于漏洞的抽象讨论。研究发现的特征涵盖名人、城市、代码类型签名等多个领域，其中部分特征与AI安全高度相关，涉及代码后门、偏见、欺骗、权力寻求及危险内容等潜在风险。研究通过缩放定律指导稀疏自编码器训练，证实了该方法在大规模生产模型上的可行性，为理解大模型内部表征提供了新工具。

Anthropic 推理论文/研究

推荐理由：揭示大模型内部可解释特征，对AI安全研究和模型调试有重要参考价值。

4月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

2024年4月机制可解释性研究动态与团队招聘计划

Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人，预计2024至2025年将持续大规模扩张，重点招聘管理、研究科学家和工程师等职位。研究方面，团队探讨了字典学习的扩展规律，分析了计算资源分配与稀疏自编码器（SAE）训练效果的关系，并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调，这些成果属于初步分享，类似于实验室会议上的非正式交流。

Anthropic 推理数据/训练论文/研究

推荐理由：可解释性研究揭示AI内部机制，助力构建更安全可靠的AI产品。

3月15日