Gated DeltaNet-2：解耦线性注意力中的擦除与写入

2026-05-21 08:00·43天前

精选理由

把线性注意力里擦除和写入的解耦，像给模型装了独立刹车和油门，在长上下文检索上直接拉开差距，做架构的值得细读。

AI 摘要

线性注意力通过固定循环状态替代无界缓存，但面临精确编辑压缩记忆的挑战。现有模型如Delta-rule与KDA使用单一标量门同时控制“擦除”与“写入”两个操作。本文提出Gated DeltaNet-2，引入独立的通道级擦除门和写入门，实现了这两个操作的解耦，从而泛化并改进了前代模型。该模型在1.3B参数规模、100B tokens训练下，在语言建模、常识推理等任务中表现优异，尤其在长上下文RULER多键检索基准上优势显著。

AI 翻译 · 中文

线性注意力机制用固定大小的循环状态替换了softmax注意力的无界缓存，从而将序列混合复杂度降至线性时间，解码过程降至恒定内存。难点不仅在于遗忘什么，更在于如何编辑这个压缩记忆而不打乱已有的关联。

Delta规则模型在写入新值之前先减去当前的读取值，而Kimi Delta Attention (KDA) 通过逐通道衰减来强化遗忘。但活跃编辑仍然使用单个标量门控来控制两个不同的事情：在键（key）一侧擦除多少旧内容，以及在值（value）一侧写入多少新内容。

我们提出了Gated DeltaNet-2，它继承了自适应遗忘和逐通道衰减，从而同时推广了Gated DeltaNet和KDA，同时解决了它们共有的局限性——擦除和写入之间的标量耦合。Gated Delta Rule-2通过逐通道擦除门b_t和逐通道写入门w_t将这两个角色分开，当两个门都退化为同一个标量时简化为KDA，当衰减也退化时简化为Gated DeltaNet。

我们推导了一个快速权重更新视角、一个将逐通道衰减吸收为非对称擦除因子的分块WY算法，以及一个保留高效并行训练能力的门感知反向传播过程。在100B FineWeb-Edu token上训练的1.3B参数规模下，Gated DeltaNet-2在语言建模、常识推理和检索任务中，相比于Mamba-2、Gated DeltaNet、KDA和Mamba-3变体取得了整体最强的结果。其优势在长上下文RULER"大海捞针"评测中最为显著，在评估的多键检索设置下取得了提升，并且在循环和混合两种设置中均表现强劲。代码已开源在 https://github.com/NVlabs/GatedDeltaNet-2。

HuggingFace Daily Papers（社区热门论文）

精选70导出 Markdown

Gated DeltaNet-2：解耦线性注意力中的擦除与写入

2026-05-21 08:00·43天前

阅读原文· arxiv.org

精选理由

把线性注意力里擦除和写入的解耦，像给模型装了独立刹车和油门，在长上下文检索上直接拉开差距，做架构的值得细读。

AI 摘要

AI 翻译 · 中文

推理论文/研究

阅读原文