Gated DeltaNet-2:解耦线性注意力中的擦除与写入
阅读原文· arxiv.org把线性注意力里擦除和写入的解耦,像给模型装了独立刹车和油门,在长上下文检索上直接拉开差距,做架构的值得细读。
线性注意力通过固定循环状态替代无界缓存,但面临精确编辑压缩记忆的挑战。现有模型如Delta-rule与KDA使用单一标量门同时控制“擦除”与“写入”两个操作。本文提出Gated DeltaNet-2,引入独立的通道级擦除门和写入门,实现了这两个操作的解耦,从而泛化并改进了前代模型。该模型在1.3B参数规模、100B tokens训练下,在语言建模、常识推理等任务中表现优异,尤其在长上下文RULER多键检索基准上优势显著。
线性注意力机制用固定大小的循环状态替换了softmax注意力的无界缓存,从而将序列混合复杂度降至线性时间,解码过程降至恒定内存。难点不仅在于遗忘什么,更在于如何编辑这个压缩记忆而不打乱已有的关联。
Delta规则模型在写入新值之前先减去当前的读取值,而Kimi Delta Attention (KDA) 通过逐通道衰减来强化遗忘。但活跃编辑仍然使用单个标量门控来控制两个不同的事情:在键(key)一侧擦除多少旧内容,以及在值(value)一侧写入多少新内容。
我们提出了Gated DeltaNet-2,它继承了自适应遗忘和逐通道衰减,从而同时推广了Gated DeltaNet和KDA,同时解决了它们共有的局限性——擦除和写入之间的标量耦合。Gated Delta Rule-2通过逐通道擦除门b_t和逐通道写入门w_t将这两个角色分开,当两个门都退化为同一个标量时简化为KDA,当衰减也退化时简化为Gated DeltaNet。
我们推导了一个快速权重更新视角、一个将逐通道衰减吸收为非对称擦除因子的分块WY算法,以及一个保留高效并行训练能力的门感知反向传播过程。在100B FineWeb-Edu token上训练的1.3B参数规模下,Gated DeltaNet-2在语言建模、常识推理和检索任务中,相比于Mamba-2、Gated DeltaNet、KDA和Mamba-3变体取得了整体最强的结果。其优势在长上下文RULER"大海捞针"评测中最为显著,在评估的多键检索设置下取得了提升,并且在循环和混合两种设置中均表现强劲。代码已开源在 https://github.com/NVlabs/GatedDeltaNet-2。