DeepSeek-V4支持1M上下文,显存约10GB(对比DeepSeek-V3.2约84GB)。FlashMemory论文进一步将显存压至1.3GB,并在LongBench-v2等长文本评测上准确率平均提升0.6%。核心是神经内存索引器(小模型),通过预测所需历史片段按需加载,实现注意力降噪。训练采用解耦双编码器架构,无需加载DeepSeek-V4基座模型,训练成本大幅下降。论文:arxiv.org/abs/2606.09079;项目:github.com/libertywing/FlashMemory-Deepseek-V4。
魔法! DeepSeekV4 上下文内存压缩到1/10!
大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需要84G显存). 然后我刚看到了FlashMemory这个论文, 直接能把显存占用压到 1.3GB! 甚至输出效果不降反升!
哥们你骗兄弟可以, 骗自己就没意思了, 真的吗? 压缩后反而性能上升? 我赶紧看了论文细节:
咱们先复习一下传统做法: 模型每吐出一个字,都要把之前的几十万字重新看一遍(这就是全局注意力).
FlashMemory 的做法是: 预测未来需要什么, 它内置了一个神经内存索引器(Neural Memory Indexer, 其实就是个小模型了),能够主动预判接下来生成内容时需要用到历史文本里的哪些片段. 然后预先准备好这些片段, 接下来只要做到命中率超高, 那么这个提升就绝对有效. 即它的假设是, KVCache里面的东西并不是生成每个字的时候全都需要的, 只需要按需提前加载即可.
很像做作业的时候, 把参考资料摊满桌子, 然后优化了一下就是把参考资料需要用到的部分直接拍照, 用的时候看照片就行了.