# 叠加的玩具模型

- 来源：Anthropic：Transformer Circuits（可解释性研究）
- 发布时间：2022-09-14 00:00
- AIHOT 分数：63
- AIHOT 链接：https://aihot.virxact.com/items/cmoegbh73007cslxxmdn2faol
- 原文链接：https://transformer-circuits.pub/2022/toy_model/index.html

## AI 摘要

本研究使用小型ReLU网络在合成稀疏特征数据上训练，探究神经网络中的叠加现象。当输入特征稀疏时，模型能在有限维度内表示超出维度的特征数量，实现超越线性模型的压缩，但代价是产生需要非线性过滤的干扰。实验发现叠加受相变支配，特征根据重要性组织成三角形、五边形等几何结构，甚至能在叠加态中执行绝对值函数等简单计算。这解释了神经元为何有时单义（对应单一特征）、有时多义（对应多个特征）。研究认为，实践中的神经网络可能模拟更大、更稀疏的网络，叠加现象也与对抗样本、顿悟学习及专家混合模型的性能相关。

## 正文

这是一则列表来源，站内未收录完整正文。