全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态一手 · 300 条

全部一手资讯 X 论文

标签「论文/研究」清除

5月15日周一

08:00Anthropic：Transformer Circuits（可解释性研究）632023年5月电路研究进展

4月2日周日

08:00EleutherAI：Blog使用 TransformerLens 对 TRLX RLHF Transformer 进行探索性分析

3月16日周四

00:00Anthropic：Transformer Circuits（可解释性研究）73精选Transformer残差流中的特权基向量

1月5日周四

00:00Anthropic：Transformer Circuits（可解释性研究）66叠加、记忆与双下降现象

9月14日周三

00:00Anthropic：Transformer Circuits（可解释性研究）63叠加的玩具模型

6月27日周一

00:00Anthropic：Transformer Circuits（可解释性研究）58Softmax线性单元

6月15日周三

08:00Anthropic：Transformer Circuits（可解释性研究）63机制可解释性、变量与可解释基的重要性

3月8日周二

00:00Anthropic：Transformer Circuits（可解释性研究）63上下文学习与归纳头

12月22日周三

00:00Anthropic：Transformer Circuits（可解释性研究）53Garçon：支持大语言模型可解释性研究的核心工具

00:00Anthropic：Transformer Circuits（可解释性研究）58Transformer电路的数学框架

10月26日周二

04:00EleutherAI：Blog使用 GPT-3 对分解认知的初步探索

10月11日周一

23:00EleutherAI：Blog语言模型评估中的多项选择归一化

8月17日周二

02:13EleutherAI：BlogRoPE 与 GPT 学习式位置编码的下游评估对比

6月15日周二

08:00Anthropic：Transformer Circuits（可解释性研究）43Transformer Circuit Videos

08:00Anthropic：Transformer Circuits（可解释性研究）76精选Transformer电路逆向工程练习题集

5月25日周二

04:00EleutherAI：Blog关于 OpenAI API 模型规模的探讨

04:00EleutherAI：Blog评估 GPT-3 上不同 Few-shot 描述提示的效果

04:00EleutherAI：Blog在下游任务上微调模型

04:00EleutherAI：Blog激活函数消融研究

4月21日周三

09:00EleutherAI：Blog旋转位置编码（RoPE）：一场相对的革命

没有更多了

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

63

2023年5月电路研究进展

Anthropic可解释性团队分享了多项关于“叠加”现象的研究思路与初步实验。团队目前正系统性地探索利用字典学习方法，从已训练稠密模型的激活中提取特征，以破解叠加问题，并为此构建了大规模研究基础设施。同时，团队提出了一个概念性框架，将“特征”定义为“激活的最简单分解”，通过在合成数据上测量分解所需的总信息量，初步验证该方法能有效指示真实特征数量。这些工作包含正在进行的研究方向和暂未计划成文的细节，旨在促进与活跃研究者的早期交流。

Anthropic 数据/训练论文/研究

4月2日

08:00

EleutherAI：Blog

使用 TransformerLens 对 TRLX RLHF Transformer 进行探索性分析

该研究利用 TransformerLens 可解释性工具，针对 TRLX 框架训练的 RLHF Transformer 模型开展探索性分析，系统展示了对齐后模型的内部工作机制。通过逐层可视化与激活分析，揭示了人类反馈强化学习训练过程中形成的特定注意力模式与表征结构，为理解大语言模型在 RLHF 微调后的行为机制提供了实证观察与可视化证据。

开源生态数据/训练论文/研究

3月16日

00:00

Anthropic：Transformer Circuits（可解释性研究）

精选73

Transformer残差流中的特权基向量

研究发现Transformer模型的残差流中存在“特权基向量”现象，即某些坐标方向持续出现异常大的激活值，这与“无特权基”的理论预期相悖。通过实验，研究者将根源指向Adam优化器中的逐维度归一化器，而非层归一化或浮点精度问题。在2亿参数模型中，典型层有20至60个维度的激活绝对值超过6。研究还提出使用峰度作为检测指标，发现激活分布峰度普遍大于3，进一步证实了基向量对称性被破坏。

Anthropic 推理论文/研究

推荐理由：揭示Transformer内部基依赖性的根源，帮助研究者改进模型可解释性。

1月5日

00:00

Anthropic：Transformer Circuits（可解释性研究）

66

叠加、记忆与双下降现象

本研究在有限数据集上训练简单神经网络，发现过拟合表现为模型在叠加中存储具体数据点而非抽象特征，形成两种机制：过拟合机制（记忆数据点）与泛化机制（学习特征），并在过渡期间出现双下降现象。实验采用稀疏高维输入（维度n=10,000）与二维隐藏空间，通过全批量更新进行训练。可视化结果表明，从特征视角看模型表现混乱，但从数据点激活视角看则呈现简单结构，提示叠加可能提升记忆效率。这项初步研究揭示了过拟合与叠加的关联，为机制可解释性提供了新视角。

Anthropic 数据/训练论文/研究

9月14日

00:00

Anthropic：Transformer Circuits（可解释性研究）

63

叠加的玩具模型

本研究使用小型ReLU网络在合成稀疏特征数据上训练，探究神经网络中的叠加现象。当输入特征稀疏时，模型能在有限维度内表示超出维度的特征数量，实现超越线性模型的压缩，但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配，特征根据重要性组织成三角形、五边形等几何结构，甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义（对应单一特征）、有时多义（对应多个特征）。研究认为，实践中的神经网络可能模拟更大、更稀疏的网络，叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。

Anthropic 推理数据/训练论文/研究

6月27日

00:00

Anthropic：Transformer Circuits（可解释性研究）

58

Softmax线性单元

本研究提出了一种名为SoLU（Softmax线性单元）的新型激活函数，旨在提升Transformer模型MLP层的机制可解释性。实验表明，SoLU能在基本保持模型性能的同时，将MLP层中易于人类理解的神经元比例从35%显著提升至60%。然而，研究也发现SoLU可能将部分特征“隐藏”起来，使其更难解释，这印证了特征叠加假说。该工作初步证明，通过有意识地设计模型架构，或许能在不牺牲性能的前提下，创造出更易于逆向工程与理解的神经网络模型。

Anthropic 推理论文/研究

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

63

机制可解释性、变量与可解释基的重要性

机制可解释性旨在对神经网络进行逆向工程，其核心挑战在于克服高维诅咒。文章通过类比传统程序逆向工程，指出理解可解释神经元（类似程序变量）是核心任务。神经网络参数是对其行为的有限描述，如同二进制程序代码；理解这些参数需要像分析复杂程序一样，将高维激活状态分解为有意义的变量。当前最大语言模型的参数量已达数千亿，但如同理解庞大操作系统，通过机制分析仍可能实现非指数级的理解路径。

Anthropic 推理论文/研究

3月8日

00:00

Anthropic：Transformer Circuits（可解释性研究）

63

上下文学习与归纳头

研究发现，Transformer语言模型中的“归纳头”可能是其实现上下文学习能力的主要机制。归纳头是一种能够识别并复制序列模式的内部电路，其功能是在序列中寻找当前令牌的先前出现，并预测相同的后续令牌。在训练早期，模型会经历一个“相位变化”，此时归纳头迅速形成，同时上下文学习能力显著提升。通过架构扰动、直接剔除等六条互补的证据链表明，这种电路不仅存在于小型模型中，也可能构成了大型模型上下文学习的核心机制。这一机制性解释为理解模型内部计算、系统化解决安全问题提供了新途径。

Anthropic 推理数据/训练论文/研究

12月22日

00:00

Anthropic：Transformer Circuits（可解释性研究）

53

Garçon：支持大语言模型可解释性研究的核心工具

Anthropic开发的Garçon工具解决了传统方法难以对超单节点大模型进行可解释性研究的问题。它允许研究人员通过启动服务器连接模型，并利用“钩子”接口在前向传播过程中访问和修改内部状态（如特定层的张量）。该工具自动处理多节点数据分发与服务器管理（如一小时闲置后自动关闭），显著简化了大规模模型的探测与干预实验工作流程。

Anthropic 推理论文/研究

00:00

Anthropic：Transformer Circuits（可解释性研究）

58

Transformer电路的数学框架

本研究提出一个用于逆向工程Transformer语言模型的数学框架，通过分析仅含注意力机制的超简模型（两层或以下）来揭示其内部工作机制。研究发现：零层模型直接建模二元统计；单层模型是二元与“跳跃三元”模型的组合；两层模型则能通过注意力头组合形成“归纳头”，实现复杂的上下文学习算法。该框架将注意力头分解为独立的QK与OV电路，并将模型输出表述为可解释函数之和，为理解更大规模模型的计算原理提供了初步基础。

Anthropic 推理论文/研究

10月26日

04:00

EleutherAI：Blog

使用 GPT-3 对分解认知的初步探索

研究团队利用分解认知（factored cognition）策略，使原本无法完成简单数学运算的 GPT-3 成功处理复杂算术任务。实验通过将复杂玩具任务拆解为可管理的子任务，验证分解方法在现实模型中的可行性。结果表明，即使不具备基础数学能力，该模型仍可通过任务分解解决其原生能力无法处理的复杂问题，为扩展语言模型能力边界提供了初步证据。

安全/对齐推理论文/研究

10月11日

23:00

EleutherAI：Blog

语言模型评估中的多项选择归一化

自回归语言模型（GPT-3、GPT-Neo、GPT-J 等）的多项选择任务评估存在多种实现路径。文章系统梳理了当前主流的归一化（Normalization）方法，针对模型在不同选项上的概率计算方式、长度偏差修正及分数标准化技术进行详细阐述，为统一语言模型评测标准提供方法论参考。

数据/训练论文/研究评测/基准

8月17日

02:13

EleutherAI：Blog

RoPE 与 GPT 学习式位置编码的下游评估对比

该评估系统对比了旋转位置编码（RoPE）与 GPT 类学习式位置编码在下游任务中的性能表现，通过多维度基准测试分析两种位置编码机制的应用差异，为 Transformer 模型架构中位置编码方案的选择提供实证依据。

数据/训练论文/研究

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

43

Transformer Circuit Videos

研究团队发布了一系列关于逆向工程神经网络的早期思考视频。这些视频旨在与同行分享非正式、初步的研究想法，内容相当于研究组会议上的早期成果报告。视频中的观点较为粗糙，可能存在错误，主要面向积极思考神经网络逆向工程的研究者。团队强调，自录制以来其想法已显著演进，且前几个视频的内容已被后续更完善的论文《A Mathematical Framework for Transformer Circuits》所取代。视频合集已发布于YouTube平台。

Anthropic 论文/研究

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

Transformer电路逆向工程练习题集

本练习集旨在通过动手编写注意力头的具体权重矩阵，从参数层面精确理解Transformer工作机制。内容涵盖：详解注意力头中W_Q、W_K、W_V、W_out矩阵的作用；分析读写子空间的控制矩阵及其乘积意义；探讨如何用两个矩阵等效表示注意力头及其秩的含义；研究跨层注意力头如何通过矩阵运算传递信息。并通过具体数值示例，演示多个“前词注意力头”如何协作实现“查看前两个词”的虚拟功能，以及手动构建实现“归纳头”的“指针算法”步骤。

Anthropic 推理数据/训练论文/研究

推荐理由：帮助开发者亲手拆解Transformer内部机制，提升可解释性研究能力。

5月25日

04:00

EleutherAI：Blog

关于 OpenAI API 模型规模的探讨

研究团队利用 eval harness 评估框架，通过对比 OpenAI API 模型在标准测试集上的性能表现，成功反向推算出其模型参数规模。该方法基于模型能力与参数量之间的相关性，分析了包括 GPT 系列在内的闭源模型在各项任务中的得分差异，揭示了 OpenAI 未公开披露的模型大小信息，为理解这些模型的实际规模与能力边界提供了量化依据。

OpenAI 论文/研究评测/基准

04:00

EleutherAI：Blog

评估 GPT-3 上不同 Few-shot 描述提示的效果

该研究在 GPT-3 模型上系统评估了不同 Few-shot 描述提示对性能的影响，通过对比多种少样本提示模板，分析了提示设计差异如何改变模型输出质量。实验显示，描述方式的细微差别会导致 GPT-3 在任务表现上产生显著变化，为理解大语言模型的少样本学习机制及优化提示工程策略提供了实证参考。

04:00

EleutherAI：Blog

在下游任务上微调模型

研究团队对GPT-Neo模型开展下游任务微调实验，利用eval harness评测体系进行针对性训练，系统观测微调过程对其性能表现产生的具体影响。实验通过调整模型参数适配特定任务，评估预训练模型在下游场景中的能力变化与适应性表现，为理解微调对模型性能的优化效果提供实证数据支撑。

数据/训练论文/研究评测/基准

04:00

EleutherAI：Blog

激活函数消融研究

针对类 GPT 自回归语言模型开展激活函数消融实验，系统评估不同激活函数对模型性能的影响。通过对比分析各类激活函数在自回归架构中的表现差异，检验其对模型表达能力、训练稳定性及生成质量的作用机制，为大语言模型的激活函数选择与架构优化提供实验依据。

数据/训练论文/研究

4月21日

09:00

EleutherAI：Blog

旋转位置编码（RoPE）：一场相对的革命

旋转位置编码（RoPE）作为一种新型位置编码技术，统一了绝对位置与相对位置编码方法。该技术突破了传统位置编码的局限，在保持绝对位置信息的同时实现了相对位置感知能力。测试验证表明，这种编码方案在模型性能和位置外推方面展现出优势，为大语言模型的位置表示策略提供了新的技术路径。

数据/训练论文/研究

1…6 78

下一页 ›