Anthropic：Transformer Circuits（可解释性研究）

叠加的玩具模型

2022-09-14 00:00·1388天前

AI 摘要

本研究使用小型ReLU网络在合成稀疏特征数据上训练，探究神经网络中的叠加现象。当输入特征稀疏时，模型能在有限维度内表示超出维度的特征数量，实现超越线性模型的压缩，但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配，特征根据重要性组织成三角形、五边形等几何结构，甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义（对应单一特征）、有时多义（对应多个特征）。研究认为，实践中的神经网络可能模拟更大、更稀疏的网络，叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。

这是一则列表来源，站内未收录完整正文。

Anthropic 推理数据/训练论文/研究

阅读完整原文导出 Markdown

Anthropic：Transformer Circuits（可解释性研究）

63导出 Markdown