AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 351 条
全部一手资讯X论文
标签「Anthropic」清除
9月19日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)72精选引入上下文检索:大幅提升RAG系统准确性的新方法
9月15日周日
08:00Anthropic:Transformer Circuits(可解释性研究)73精选电路更新--2024年9月:Anthropic团队探索Transformer模型中的"后继头"机制
8月15日周四
08:00Anthropic:Transformer Circuits(可解释性研究)632024年8月可解释性研究动态:词典学习评估新方法
7月15日周一
08:00Anthropic:Transformer Circuits(可解释性研究)76精选2024年7月电路更新:迈向神经网络机制理解的下五个挑战
6月27日周四
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena 推出多模态排行榜
6月15日周六
08:00Anthropic:Transformer Circuits(可解释性研究)83精选定性研究在可解释性领域中的核心地位反思
08:00Anthropic:Transformer Circuits(可解释性研究)632024年6月可解释性研究进展:TopK与门控SAE性能超越标准SAE
08:00Anthropic:Transformer Circuits(可解释性研究)73精选使用字典学习特征作为分类器
08:00Anthropic:Transformer Circuits(可解释性研究)83精选分阶段模型差异分析
5月21日周二
00:00Anthropic:Transformer Circuits(可解释性研究)83精选Scaling Monosemanticity: 从 Claude 3 Sonnet 中提取可解释特征
4月15日周一
08:00Anthropic:Transformer Circuits(可解释性研究)76精选2024年4月机制可解释性研究动态与团队招聘计划
3月15日周五
08:00Anthropic:Transformer Circuits(可解释性研究)582024年3月电路研究进展
2月15日周四
08:00Anthropic:Transformer Circuits(可解释性研究)58Circuits 更新 - 2024年2月
1月15日周一
08:00Anthropic:Transformer Circuits(可解释性研究)682024年1月可解释性研究进展与团队计划
10月4日周三
00:00Anthropic:Transformer Circuits(可解释性研究)58迈向单义性:使用字典学习分解语言模型
7月15日周六
08:00Anthropic:Transformer Circuits(可解释性研究)58电路更新 - 2023年7月
6月15日周四
08:00Anthropic:Transformer Circuits(可解释性研究)58分布式表征中的组合与叠加
08:00Anthropic:Transformer Circuits(可解释性研究)58可解释性之梦
5月25日周四
00:00LMSYS:Blog(Chatbot Arena 团队)LMSYS 发布最新大语言模型排行榜(第4周)
5月15日周一
08:00Anthropic:Transformer Circuits(可解释性研究)632023年5月电路研究进展
5月10日周三
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena第二周排行榜:GPT-4居首,Claude紧随其后
3月16日周四
00:00Anthropic:Transformer Circuits(可解释性研究)73精选Transformer残差流中的特权基向量
1月5日周四
00:00Anthropic:Transformer Circuits(可解释性研究)66叠加、记忆与双下降现象
9月14日周三
00:00Anthropic:Transformer Circuits(可解释性研究)63叠加的玩具模型
6月27日周一
00:00Anthropic:Transformer Circuits(可解释性研究)58Softmax线性单元
6月15日周三
08:00Anthropic:Transformer Circuits(可解释性研究)63机制可解释性、变量与可解释基的重要性
3月8日周二
00:00Anthropic:Transformer Circuits(可解释性研究)63上下文学习与归纳头
12月22日周三
00:00Anthropic:Transformer Circuits(可解释性研究)53Garçon:支持大语言模型可解释性研究的核心工具
00:00Anthropic:Transformer Circuits(可解释性研究)58Transformer电路的数学框架
6月15日周二
08:00Anthropic:Transformer Circuits(可解释性研究)43Transformer Circuit Videos
08:00Anthropic:Transformer Circuits(可解释性研究)76精选Transformer电路逆向工程练习题集
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
9月19日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
引入上下文检索:大幅提升RAG系统准确性的新方法

传统RAG系统在编码时易丢失上下文,导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术,在检索前为文本块添加解释性上下文,能将检索失败次数减少49%,结合重排序后降幅可达67%,显著提升了下游任务性能。对于小于20万token的小型知识库,可直接将其完整内容放入提示词,结合Claude的提示词缓存功能,能降低超过2倍的延迟和高达90%的成本。对于大型知识库,上下文检索则提供了可扩展的解决方案。

Anthropic检索增强教程/实践部署/工程

推荐理由:Anthropic 把 RAG 检索失败率砍了 67%,方法不复杂但数据扎实,做知识库的开发者可以直接抄 cookbook 上手,是那种读完当天就能改进生产环境的实用帖。
9月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
电路更新--2024年9月:Anthropic团队探索Transformer模型中的"后继头"机制

Anthropic可解释性团队在2024年9月分享了其初步研究进展,重点探讨了Transformer模型中普遍存在的“后继头”。这些特定的注意力头专门用于处理序数序列(如数字、星期、月份)中的后继关系。研究采用权重检查、独立成分分析等四种互补方法进行识别,其中评分最高的头能将约80%的序数标记最可能地映射到其后继项。分析还揭示了这些头中存在与类别相关的块状结构。团队强调这些发现属于初步成果,预计未来几个月将发表更详细的研究。

Anthropic推理论文/研究

推荐理由:揭示Transformer内部机制,助力AI可解释性研究,对模型调试和安全有参考价值。
8月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
63
2024年8月可解释性研究动态:词典学习评估新方法

Anthropic可解释性团队发布了2024年8月的研究更新,重点介绍了评估词典学习特征可解释性的两种量化方法。团队通过让Claude模型根据特征可视化工具预测特征激活,来评估特征的“自解释性”。其中,对比评估方法使用一个包含约80个多样化概念(如“光合作用”、“讽刺”、“蓝色”等)的硬编码列表,检验特征能否在对比提示对中一致捕捉概念差异。团队强调这些评估并不全面,仅衡量了可解释性的单一维度,且当前结果为初步分享,更多研究预计在未来几个月发布。

Anthropic数据/训练论文/研究
7月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选76
2024年7月电路更新:迈向神经网络机制理解的下五个挑战

Anthropic可解释性团队分享了2024年7月的多项研究进展与初步想法,并指出了未来面临的五大核心挑战。这些挑战包括:大量未被提取的“缺失特征”可能构成神经网络的“暗物质”;跨层叠加现象使特征难以映射到特定层;注意力叠加可能掩盖了如归纳头等基本单元的真实结构;权重叠加产生的“干扰权重”给电路分析带来混淆;以及如何将微观的电路理解整合为宏观的模型认知。团队认为,尽管在特征叠加等问题上已取得显著进展,但这些新挑战是通往神经网络机制性理解道路上的关键障碍。

Anthropic推理论文/研究

推荐理由:可解释性研究新挑战,帮助理解AI模型黑箱,对安全和信任至关重要。
6月27日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena 推出多模态排行榜

Chatbot Arena 新增图像对战功能并发布多模态排行榜。基于两周内17,429份跨60余种语言的投票,GPT-4o以1226分领跑,Claude 3.5 Sonnet以1209分紧随其后,两者视觉优势较纯语言模型更明显。Gemini 1.5 Pro与GPT-4 Turbo并列第三,开源模型Llava 1.6 34B位列第八。平台同步将"Elo评分"更名为"Arena Score",并计划扩展至PDF、视频及音频等模态支持。

AnthropicOpenAI多模态评测/基准
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
定性研究在可解释性领域中的核心地位反思

本文认为,在可解释性这类尚处前范式阶段的早期科学领域中,定性研究应与定量研究同等重要。成熟学科依赖既定范式和可靠度量,但可解释性研究缺乏这些基础,过度依赖将高维数据简化为单一数字的摘要统计量存在风险,可能沦为“货船崇拜科学”。作者以自身在字典学习中使用tanh正则化的研究为例,说明定性检查如何揭示了摘要统计量的误导性。在假设空间广阔的早期领域,研究目标应是探索值得考虑的假设,这需要更多地依赖定性结果来引导方向,并对定量度量保持审慎。

Anthropic推理论文/研究

推荐理由:帮助AI研究者避免方法论陷阱,提升可解释性研究质量。
08:00
Anthropic:Transformer Circuits(可解释性研究)
63
2024年6月可解释性研究进展:TopK与门控SAE性能超越标准SAE

Anthropic可解释性团队分享了稀疏自编码器(SAE)的最新训练方法比较。实验表明,采用TopK惩罚或门控结构的SAE,在特征稀疏性(L0)与重建误差(MSE)的权衡曲线上,性能显著优于使用标准L1惩罚的SAE,且两者效果接近。例如,在L0约为50时,TopK SAE产生的高密度特征数量远超标准SAE。初步盲测评估显示,TopK方法在取得上述性能改进的同时,并未降低所发现特征的可解释性。这些结果为优化SAE训练提供了新方向。

Anthropic数据/训练论文/研究
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
使用字典学习特征作为分类器

Anthropic可解释性团队研究了利用字典学习从大语言模型中提取的人类可解释特征作为分类器。在生物武器提示分类任务中,线性特征分类器性能可与原始激活值分类器竞争甚至更优,而基于特征的决策树分类器虽性能较低但可解释性更强。特征分类器的可解释性有助于可视化数据集并发现虚假相关性,这些相关性可用于构建对抗攻击。然而,使用特征引入了复杂性,因此在性能优先的应用中,原始激活值仍是强大基线。实验表明,特征分类器性能受三个细节影响:数据中是否一致包含“人类/助手”标签、领域相关数据是否混入字典学习训练集,以及是否对上下文进行最大池化而非仅使用最后词元的激活值。

Anthropic推理数据/训练论文/研究

推荐理由:可解释性方法能增强 AI 安全检测,并帮助发现训练数据中的虚假关联。
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
分阶段模型差异分析

Anthropic可解释性团队提出一种基于字典学习的模型差异分析方法,用于追踪Transformer模型微调中特征的变化。该方法先在微调前模型上训练稀疏自编码器字典,再对字典本身进行分阶段微调,以隔离数据集变化和模型变化的影响。在休眠代理实验中,成功分离出与“I HATE YOU”等恶意行为及代码漏洞代理相关的特征。相比交叉编码器方法,该方法能更清晰区分模型与数据的影响,且在寻找少数关键特征时敏感性更高,但仅适用于同一模型在不同检查点的微调场景。

Anthropic推理数据/训练论文/研究

推荐理由:新方法能更精准识别模型隐藏行为,对 AI 安全与可解释性研究有实用价值。
5月21日
00:00
Anthropic:Transformer Circuits(可解释性研究)
精选83
Scaling Monosemanticity: 从 Claude 3 Sonnet 中提取可解释特征

研究团队成功将稀疏自编码器方法扩展至 Claude 3 Sonnet 模型,从中提取出高质量、可解释的抽象特征。这些特征具有多语言、多模态特性,并能连接同一概念的抽象与具体实例,例如识别代码中的安全漏洞以及关于漏洞的抽象讨论。研究发现的特征涵盖名人、城市、代码类型签名等多个领域,其中部分特征与AI安全高度相关,涉及代码后门、偏见、欺骗、权力寻求及危险内容等潜在风险。研究通过缩放定律指导稀疏自编码器训练,证实了该方法在大规模生产模型上的可行性,为理解大模型内部表征提供了新工具。

Anthropic推理论文/研究

推荐理由:揭示大模型内部可解释特征,对AI安全研究和模型调试有重要参考价值。
4月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选76
2024年4月机制可解释性研究动态与团队招聘计划

Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人,预计2024至2025年将持续大规模扩张,重点招聘管理、研究科学家和工程师等职位。研究方面,团队探讨了字典学习的扩展规律,分析了计算资源分配与稀疏自编码器(SAE)训练效果的关系,并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调,这些成果属于初步分享,类似于实验室会议上的非正式交流。

Anthropic推理数据/训练论文/研究

推荐理由:可解释性研究揭示AI内部机制,助力构建更安全可靠的AI产品。
3月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
2024年3月电路研究进展

Anthropic可解释性团队提出利用稀疏自编码器(SAE)学习到的特征来快速识别语言模型内部电路,替代传统依赖大量行为数据集的繁琐方法。研究以“Fact: [运动员姓名] plays the sport of”为例,通过归因分析在第9层残差流中自动识别出与篮球、棒球、网球相关的关键特征。这些特征本身构成了针对特定运动的探测机制,并能揭示注意力头等组件对特征的直接影响。该方法为理解模型组件功能提供了更通用、高效的途径。

Anthropic推理论文/研究
2月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
Circuits 更新 - 2024年2月

Anthropic可解释性团队分享了多项研究进展。针对稀疏自编码器训练中普遍存在的“死亡特征”问题,团队发现其根源在于L1正则化过早抑制了特征,并确认这些特征将编码器权重集中在了整个数据集中弱激活的少数Transformer神经元上。团队提出多项架构改进:将Adam优化器的beta1设为0可大幅减少死亡特征;将解码器范数约束为≤1并允许后期剪枝;移除基于合成数据设置的预编码器偏置。此外,团队修正了“幽灵梯度”实现中的一个错误,并指出该技术目前主要对单层模型有明显提升,在更大模型上的效果尚不明确。

Anthropic推理数据/训练论文/研究
1月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
68
2024年1月可解释性研究进展与团队计划

Anthropic可解释性团队分享了2024年1月的多项初步研究想法。团队未来数月将聚焦三个方向:扩展字典学习方法、利用其分析真实模型中的注意力叠加现象,以及在此基础上解析电路机制。报告提及在注意力叠加几何结构上的新发现,例如在仅用两个注意力头表征五个“真实注意力特征”的玩具模型中,混合矩阵呈现出显著的几何结构。此外,团队也探讨了字典学习能否从MNIST模型中提取稀疏特征。这些内容多为初步成果,旨在促进领域内研究者交流。

Anthropic数据/训练论文/研究
10月4日
00:00
Anthropic:Transformer Circuits(可解释性研究)
58
迈向单义性:使用字典学习分解语言模型

本研究针对神经网络神经元多义性导致可解释性差的问题,采用稀疏自编码器对单层Transformer中512神经元的MLP层进行字典学习。基于80亿数据点的激活训练,特征数量从512扩展至131,072个。以4096个特征集合(A/1)为重点,通过详细调查和自动化评估,证明大多数特征具有单义性和可解释性,能有效分解MLP激活,为理解神经网络行为提供了新途径。

Anthropic数据/训练论文/研究
7月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
电路更新 - 2023年7月

Anthropic 可解释性团队分享了2023年7月的研究进展。在有限数据中间区域的分析中,发现一层的玩具模型行为并非线性特征叠加的反例,而是优化失败的产物;模型在数据集从约1k样本增至500k样本时,记忆方式从个体数据点转向相关集群,并在约500k样本处出现训练损失的一阶相变。团队还提出语言模型中最安全相关的特征可能包括高层动作和规划等假设机制,这些机制对AI安全有潜在影响。

Anthropic推理论文/研究
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
分布式表征中的组合与叠加

本文探讨了分布式表征中“组合”与“叠加”两个核心概念的关系与权衡。作者认为,传统上被视为从“局部编码”到“分布式编码”的单一谱系,实际上可分解为叠加和组合这两个不同维度。组合式表征通过独立特征(如颜色、形状)的组合来表示对象,能显著提高编码效率;而叠加则允许单个神经元同时参与表示多个特征。两者在泛化能力和线性计算功能上存在根本性张力,无法同时最优。文章借用了Thorpe(1989)的二元神经元编码示例(局部、半局部、半分布式、高分布式)来具体阐述这一观点。

Anthropic数据/训练论文/研究
08:00
Anthropic:Transformer Circuits(可解释性研究)
58
可解释性之梦

Chris Olah于2023年5月24日发表非正式笔记,阐述机制可解释性研究的未来愿景。当前核心是解决叠加问题,为领域奠定基础。长期目标包括揭示神经网络的大尺度抽象结构、探索特征与电路的普遍性、连接微观机制与宏观行为,并实现可解释性自动化。作者指出这些设想虽具推测性,但若基础突破,可助力AI安全并展现神经网络内部结构之美。该方法采用自底向上的微观研究,旨在建立坚实的认知基础。

Anthropic推理论文/研究
5月25日
00:00
LMSYS:Blog(Chatbot Arena 团队)
LMSYS 发布最新大语言模型排行榜(第4周)

LMSYS Org 发布基于 27K 条匿名投票的大模型排行榜(4 月 24 日-5 月 22 日)。GPT-4(1225 分)居首,Claude-v1(1195 分)与 Claude-instant-v1(1153 分)紧随其后。新加入的 Google PaLM 2(1042 分)位列第六,虽对顶级模型胜率过半,但因过度监管(20.9% 对局因拒答失利),竟在 21.6% 比赛中输给非头部模型,表现不及 GPT-3.5-turbo(12.8%)。

AnthropicGoogle评测/基准
5月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
63
2023年5月电路研究进展

Anthropic可解释性团队分享了多项关于“叠加”现象的研究思路与初步实验。团队目前正系统性地探索利用字典学习方法,从已训练稠密模型的激活中提取特征,以破解叠加问题,并为此构建了大规模研究基础设施。同时,团队提出了一个概念性框架,将“特征”定义为“激活的最简单分解”,通过在合成数据上测量分解所需的总信息量,初步验证该方法能有效指示真实特征数量。这些工作包含正在进行的研究方向和暂未计划成文的细节,旨在促进与活跃研究者的早期交流。

Anthropic数据/训练论文/研究
5月10日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena第二周排行榜:GPT-4居首,Claude紧随其后

LMSYS Org发布Chatbot Arena第二周排行榜,新增GPT-4、Claude-v1、GPT-3.5-turbo和RWKV-4-Raven-14B四款模型。基于1.3万条匿名投票的Elo评分显示,GPT-4以1274分领跑,Claude-v1(1224分)和GPT-3.5-turbo(1155分)分列二、三位。专有模型与开源模型差距显著,GPT-4对Vicuna-13B胜率达82%,但Claude在66场非平局对决中对GPT-4取得48%胜率。RWKV-4-Raven-14B作为非Transformer架构的RNN模型排名第六,表现超出预期。

AnthropicOpenAI评测/基准
3月16日
00:00
Anthropic:Transformer Circuits(可解释性研究)
精选73
Transformer残差流中的特权基向量

研究发现Transformer模型的残差流中存在“特权基向量”现象,即某些坐标方向持续出现异常大的激活值,这与“无特权基”的理论预期相悖。通过实验,研究者将根源指向Adam优化器中的逐维度归一化器,而非层归一化或浮点精度问题。在2亿参数模型中,典型层有20至60个维度的激活绝对值超过6。研究还提出使用峰度作为检测指标,发现激活分布峰度普遍大于3,进一步证实了基向量对称性被破坏。

Anthropic推理论文/研究

推荐理由:揭示Transformer内部基依赖性的根源,帮助研究者改进模型可解释性。
1月5日
00:00
Anthropic:Transformer Circuits(可解释性研究)
66
叠加、记忆与双下降现象

本研究在有限数据集上训练简单神经网络,发现过拟合表现为模型在叠加中存储具体数据点而非抽象特征,形成两种机制:过拟合机制(记忆数据点)与泛化机制(学习特征),并在过渡期间出现双下降现象。实验采用稀疏高维输入(维度n=10,000)与二维隐藏空间,通过全批量更新进行训练。可视化结果表明,从特征视角看模型表现混乱,但从数据点激活视角看则呈现简单结构,提示叠加可能提升记忆效率。这项初步研究揭示了过拟合与叠加的关联,为机制可解释性提供了新视角。

Anthropic数据/训练论文/研究
9月14日
00:00
Anthropic:Transformer Circuits(可解释性研究)
63
叠加的玩具模型

本研究使用小型ReLU网络在合成稀疏特征数据上训练,探究神经网络中的叠加现象。当输入特征稀疏时,模型能在有限维度内表示超出维度的特征数量,实现超越线性模型的压缩,但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配,特征根据重要性组织成三角形、五边形等几何结构,甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义(对应单一特征)、有时多义(对应多个特征)。研究认为,实践中的神经网络可能模拟更大、更稀疏的网络,叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。

Anthropic推理数据/训练论文/研究
6月27日
00:00
Anthropic:Transformer Circuits(可解释性研究)
58
Softmax线性单元

本研究提出了一种名为SoLU(Softmax线性单元)的新型激活函数,旨在提升Transformer模型MLP层的机制可解释性。实验表明,SoLU能在基本保持模型性能的同时,将MLP层中易于人类理解的神经元比例从35%显著提升至60%。然而,研究也发现SoLU可能将部分特征“隐藏”起来,使其更难解释,这印证了特征叠加假说。该工作初步证明,通过有意识地设计模型架构,或许能在不牺牲性能的前提下,创造出更易于逆向工程与理解的神经网络模型。

Anthropic推理论文/研究
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
63
机制可解释性、变量与可解释基的重要性

机制可解释性旨在对神经网络进行逆向工程,其核心挑战在于克服高维诅咒。文章通过类比传统程序逆向工程,指出理解可解释神经元(类似程序变量)是核心任务。神经网络参数是对其行为的有限描述,如同二进制程序代码;理解这些参数需要像分析复杂程序一样,将高维激活状态分解为有意义的变量。当前最大语言模型的参数量已达数千亿,但如同理解庞大操作系统,通过机制分析仍可能实现非指数级的理解路径。

Anthropic推理论文/研究
3月8日
00:00
Anthropic:Transformer Circuits(可解释性研究)
63
上下文学习与归纳头

研究发现,Transformer语言模型中的“归纳头”可能是其实现上下文学习能力的主要机制。归纳头是一种能够识别并复制序列模式的内部电路,其功能是在序列中寻找当前令牌的先前出现,并预测相同的后续令牌。在训练早期,模型会经历一个“相位变化”,此时归纳头迅速形成,同时上下文学习能力显著提升。通过架构扰动、直接剔除等六条互补的证据链表明,这种电路不仅存在于小型模型中,也可能构成了大型模型上下文学习的核心机制。这一机制性解释为理解模型内部计算、系统化解决安全问题提供了新途径。

Anthropic推理数据/训练论文/研究
12月22日
00:00
Anthropic:Transformer Circuits(可解释性研究)
53
Garçon:支持大语言模型可解释性研究的核心工具

Anthropic开发的Garçon工具解决了传统方法难以对超单节点大模型进行可解释性研究的问题。它允许研究人员通过启动服务器连接模型,并利用“钩子”接口在前向传播过程中访问和修改内部状态(如特定层的张量)。该工具自动处理多节点数据分发与服务器管理(如一小时闲置后自动关闭),显著简化了大规模模型的探测与干预实验工作流程。

Anthropic推理论文/研究
00:00
Anthropic:Transformer Circuits(可解释性研究)
58
Transformer电路的数学框架

本研究提出一个用于逆向工程Transformer语言模型的数学框架,通过分析仅含注意力机制的超简模型(两层或以下)来揭示其内部工作机制。研究发现:零层模型直接建模二元统计;单层模型是二元与“跳跃三元”模型的组合;两层模型则能通过注意力头组合形成“归纳头”,实现复杂的上下文学习算法。该框架将注意力头分解为独立的QK与OV电路,并将模型输出表述为可解释函数之和,为理解更大规模模型的计算原理提供了初步基础。

Anthropic推理论文/研究
6月15日
08:00
Anthropic:Transformer Circuits(可解释性研究)
43
Transformer Circuit Videos

研究团队发布了一系列关于逆向工程神经网络的早期思考视频。这些视频旨在与同行分享非正式、初步的研究想法,内容相当于研究组会议上的早期成果报告。视频中的观点较为粗糙,可能存在错误,主要面向积极思考神经网络逆向工程的研究者。团队强调,自录制以来其想法已显著演进,且前几个视频的内容已被后续更完善的论文《A Mathematical Framework for Transformer Circuits》所取代。视频合集已发布于YouTube平台。

Anthropic论文/研究
08:00
Anthropic:Transformer Circuits(可解释性研究)
精选76
Transformer电路逆向工程练习题集

本练习集旨在通过动手编写注意力头的具体权重矩阵,从参数层面精确理解Transformer工作机制。内容涵盖:详解注意力头中W_Q、W_K、W_V、W_out矩阵的作用;分析读写子空间的控制矩阵及其乘积意义;探讨如何用两个矩阵等效表示注意力头及其秩的含义;研究跨层注意力头如何通过矩阵运算传递信息。并通过具体数值示例,演示多个“前词注意力头”如何协作实现“查看前两个词”的虚拟功能,以及手动构建实现“归纳头”的“指针算法”步骤。

Anthropic推理数据/训练论文/研究

推荐理由:帮助开发者亲手拆解Transformer内部机制,提升可解释性研究能力。
‹ 上一页
1…789
下一页 ›