Berryxia.AI@berryxia

2026-05-25 00:12·39天前

AI 摘要

DeepSeek面对GPU禁运，通过算法创新实现突围。核心成果包括：将KV Cache压缩至1/10，使1M上下文仅需5.48GB HBM；将MoE训练成本降低40-50%。其推出的Engram模块可利用LPDDR内存以O(1)查找换取算力。技术突破还涵盖MLA（KV Cache削减90%）、DSA/CSA/HCA等注意力机制重构，以及GRPO算法。效果显著：在1M上下文显存需求对比中，其V4 Pro（5.48GB）远低于GLM5（60GB）和Qwen3-235B（89GB）。该战略旨在盘活中国NAND与LPDDR资源，降低对HBM依赖，并已开源TileLang以打破CUDA壁垒。其V4 Pro模型1M上下文长缓存价格不足Sonnet 4.6的3%。

当初美国最后悔没有封杀的中国这家公司，没有之一。

中国古话说得好：拳怕少壮啊！

一个中国小团队，面对美国GPU全面禁运，却没有选择"堆算力"，而是花了两年时间，发明了一堆连OpenAI都没想到的黑科技。

他们把KV Cache压缩到原来的1/10，让1M上下文只需要5.48GB显存。

他们把MoE玩到极致，把训练成本砍掉40-50%。

他们甚至发明了"Engram"模块，用LPDDR内存直接换算力……

而这一切，不是为了今天卖几个coding plan，而是为了悄悄打造一个10万亿美元的AI硬件新生态，顺便让自己估值冲到1T美元。

他们叫DeepSeek。

故事得从2024年开始讲。

那时全世界都在卷dense模型、卷多模态、卷语音视频。

DeepSeek却反其道而行：他们死磕Mixture of Experts（MoE），一个公认极难训稳的架构。

他们从第一性原理出发，发明了GRPO算法，取代了行业通用的PPO。

他们提出RLVR（Reinforcement Learning from Verified Rewards），让模型真正学会"用正确答案奖励自己"。

他们搞出Multi Token Prediction做推测解码，把训练信号密度直接拉满。

更狠的是，他们把注意力机制彻底重构：

MLA（V2时期）→ KV Cache直接砍90%
DSA/CSA/HCA（V3/V4）→ 长上下文下计算量几乎不增长

mHC（Manifold-Constrained Hyper-Connections）（2025.12）→ 让27B模型在BIG-Bench Hard上直接+7.2分，训练开销却只多了6.7%

最骚的是Engram（2026 Q1）：

Transformer本来没有原生的"知识查找"机制，只能靠暴力计算模拟检索。

DeepSeek直接把经典N-gram升级成O（1）哈希查找，用内存换算力-LPDDR一查就行，比再跑一遍Transformer层便宜太多了。

这些创新加在一起，产生了核聚变般的效果：

用KV Cache计算器测1M上下文：

DeepSeek V4 Pro → 仅需5.48GB HBM
GLM5（已抄MLA+DSA）→ 60GB
Qwen3-235B → 89GB

差距大到离谱。

这意味着什么？

1️⃣意味着长时序Agent终于能经济地跑了，KV Cache可以轻松offload到SSD，重新计算成本暴降。

2️⃣意味着中国本来就丰富的NAND（YMTC）和LPDDR（CXMT）突然成了AI基础设施的战略级资源。

3️⃣意味着HBM这个最稀缺、最难造的资源，需求被大幅缓解，连GPU/ASIC的压力都跟着降低。

Berryxia.AI@berryxia · X

48导出 Markdown