DeepSeek算法突围:压缩显存、重塑生态,冲击万亿美元估值 · AI HOT
Berryxia.AI@berryxia48
2026-05-25 00:12·39天前
AI 摘要DeepSeek面对GPU禁运,通过算法创新实现突围。核心成果包括:将KV Cache压缩至1/10,使1M上下文仅需5.48GB HBM;将MoE训练成本降低40-50%。其推出的Engram模块可利用LPDDR内存以O(1)查找换取算力。技术突破还涵盖MLA(KV Cache削减90%)、DSA/CSA/HCA等注意力机制重构,以及GRPO算法。效果显著:在1M上下文显存需求对比中,其V4 Pro(5.48GB)远低于GLM5(60GB)和Qwen3-235B(89GB)。该战略旨在盘活中国NAND与LPDDR资源,降低对HBM依赖,并已开源TileLang以打破CUDA壁垒。其V4 Pro模型1M上下文长缓存价格不足Sonnet 4.6的3%。
Berryxia.AI@berryxia · X2026-05-25 00:12·39天前
在 X 看原推· x.comAI 摘要DeepSeek面对GPU禁运,通过算法创新实现突围。核心成果包括:将KV Cache压缩至1/10,使1M上下文仅需5.48GB HBM;将MoE训练成本降低40-50%。其推出的Engram模块可利用LPDDR内存以O(1)查找换取算力。技术突破还涵盖MLA(KV Cache削减90%)、DSA/CSA/HCA等注意力机制重构,以及GRPO算法。效果显著:在1M上下文显存需求对比中,其V4 Pro(5.48GB)远低于GLM5(60GB)和Qwen3-235B(89GB)。该战略旨在盘活中国NAND与LPDDR资源,降低对HBM依赖,并已开源TileLang以打破CUDA壁垒。其V4 Pro模型1M上下文长缓存价格不足Sonnet 4.6的3%。
DeepSeek的CEO梁文峰,看的从来不是今天卖订阅的几亿美元。
他看的是:用算法创新,把中国记忆体、ASIC、CPU、网络芯片全部盘活,让整个硬件生态不再被CUDA和HBM卡脖子。
他们甚至开源了TileLang,让内核代码一次编写、多硬件运行,直接打破CUDA护城河。
- 面对资源短缺,他们没有抱怨,而是把短缺变成了创新燃料。
- 他们不急着赚钱,而是先把地基打成别人抄都抄不完的壁垒。
- 他们把开源当武器,把"AGI for everyone"写进了战略。
ZAI的GLM抄了MLA+DSA,Moonshot的Kimi也承认架构基于DeepSeek……
DeepSeek今天做的,明天就会变成全行业的标配。
打开DeepSeek官网,试试他们的V4 Pro--1M上下文长持缓存价格不到Sonnet 4.6的3%,还能挂好几个小时。
整个框架100%开源,论文、代码思路、架构细节全在arXiv上。
Big Tech靠封锁和闭源赚快钱,DeepSeek却在用开源+算法,把整个AI硬件的未来重新洗牌。
GDPhttp://x.com/i/article/2057886253249662976
那时全世界都在卷dense模型、卷多模态、卷语音视频。
DeepSeek却反其道而行:他们死磕Mixture of Experts(MoE),一个公认极难训稳的架构。
他们从第一性原理出发,发明了GRPO算法,取代了行业通用的PPO。
他们提出RLVR(Reinforcement Learning from Verified Rewards),让模型真正学会"用正确答案奖励自己"。
他们搞出Multi Token Prediction做推测解码,把训练信号密度直接拉满。
- MLA(V2时期)→ KV Cache直接砍90%
- DSA/CSA/HCA(V3/V4)→ 长上下文下计算量几乎不增长
- mHC(Manifold-Constrained Hyper-Connections)(2025.12)→ 让27B模型在BIG-Bench Hard上直接+7.2分,训练开销却只多了6.7%
Transformer本来没有原生的"知识查找"机制,只能靠暴力计算模拟检索。
DeepSeek直接把经典N-gram升级成O(1)哈希查找,用内存换算力-LPDDR一查就行,比再跑一遍Transformer层便宜太多了。
- DeepSeek V4 Pro → 仅需5.48GB HBM
- GLM5(已抄MLA+DSA)→ 60GB
- Qwen3-235B → 89GB
1️⃣意味着长时序Agent终于能经济地跑了,KV Cache可以轻松offload到SSD,重新计算成本暴降。
2️⃣意味着中国本来就丰富的NAND(YMTC)和LPDDR(CXMT)突然成了AI基础设施的战略级资源。
3️⃣意味着HBM这个最稀缺、最难造的资源,需求被大幅缓解,连GPU/ASIC的压力都跟着降低。
DeepSeek的CEO梁文峰,看的从来不是今天卖订阅的几亿美元。
他看的是:用算法创新,把中国记忆体、ASIC、CPU、网络芯片全部盘活,让整个硬件生态不再被CUDA和HBM卡脖子。
他们甚至开源了TileLang,让内核代码一次编写、多硬件运行,直接打破CUDA护城河。
- 面对资源短缺,他们没有抱怨,而是把短缺变成了创新燃料。
- 他们不急着赚钱,而是先把地基打成别人抄都抄不完的壁垒。
- 他们把开源当武器,把"AGI for everyone"写进了战略。
ZAI的GLM抄了MLA+DSA,Moonshot的Kimi也承认架构基于DeepSeek……
DeepSeek今天做的,明天就会变成全行业的标配。
打开DeepSeek官网,试试他们的V4 Pro--1M上下文长持缓存价格不到Sonnet 4.6的3%,还能挂好几个小时。
整个框架100%开源,论文、代码思路、架构细节全在arXiv上。
Big Tech靠封锁和闭源赚快钱,DeepSeek却在用开源+算法,把整个AI硬件的未来重新洗牌。
GDPhttp://x.com/i/article/2057886253249662976