这篇文章的核心就是这一张图了 deepseek v4 pro 虽然不是最好的模型但是缓存基本不要钱这是所有大模型都需要的技术 opus 用这个技术成本都能下降10倍同时相信 v4.1 有了真实的 harness 数据进行训练之后，一定会很快变好

译DeepSeek v4 Pro 虽然并非最强模型，但其核心优势在于采用了几乎零成本的缓存技术。该技术被视为大模型领域的重要突破，若应用于如 Claude Opus 等顶级模型，可使运营成本下降约10倍。文章认为这是所有大模型都需要的关键技术。此外，随着未来 v4.1 版本使用更真实的训练数据，其性能预计会快速提升。

Rohan Paul@rohanpaul_ai · 5月24日62

Great article here on DeepSeek. Their real story is not cheaper chatbots, but architecture that turns hardware scarcity into strategy. DeepSeek is not trying to sell coding seats, it is trying to make Chinese memory, accelerators, and systems useful for frontier AI. Every recent DeepSeek move attacks a bottleneck that makes frontier models dependent on elite HBM-heavy GPU stacks: MoE activates only parts of a model, DSA reduces long-context attention cost, and V4-Pro’s official card says CSA/HCA cuts 1M-token single-token inference FLOPs to 27% and KV cache to 10% of V3.2. Engram, a separate research line, pushes the same logic from another side: let static knowledge live in scalable lookup memory, then fetch it predictably from host memory instead of forcing every fact through dense computation. That sounds like engineering detail until you see the business consequence. If models need less HBM and less brute-force compute, then second-best chips, abundant LPDDR, NAND, and customized ASICs become less second-best. Reuters has already reported a permanent 75% DeepSeek V4-Pro price cut, while noting Huawei Ascend supply constraints and expected supernode availability, which is exactly the kind of feedback loop that they wanted. DeepSeek is not only optimizing models for benchmarks, it is optimizing AI for a different industrial base. The prize is not the app layer. The prize is making scarcity programmable.

译DeepSeek的核心战略并非开发廉价聊天机器人，而是通过一系列架构创新（如MoE动态激活、DSA优化、CSA/HCA技术）显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势，使次优芯片、LPDDR内存及定制ASIC能支持前沿AI，从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响，如V4-Pro大幅降价并与国产硬件生态形成联动，最终目标是实现“硬件稀缺性可编程”。

宝玉@dotey · 5月24日52

http://x.com/i/article/2058418354415644672 # DeepSeek 的 10 万亿美元大战略【译】作者：GDP (@bookwormengr) 标题：DeepSeek's 10 trillion USD grand strategy 你有没有想过，DeepSeek 到底打算怎么赚钱，而且是赚大钱？他们没有像智谱（GLM）、月之暗面（MoonShot）和 MiniMax 那样推出有竞争力的编程订阅计划。他们没有多模态、语音或视频模型。时至今日，他们甚至连一个评测框架（Harness，用于测试和评估模型性能的基准测试工具）都没有（虽然最近听说他们开始招人做了）。而且，DeepSeek 还长期致力于开源，乐此不疲地分享自己的“独家秘方”。这难道是疯了吗？还是纯粹在烧钱？那些正准备给他们投资 100 亿美元的投资人们，难道是在把钱往水里扔吗？不，在我看来，恰恰相反！！！在这里，我想聊聊我对他们至今所作所为的观察，以及他们似乎正在践行的战略。DeepSeek 创始人梁文锋的眼光显然盯着一个大得多的终极奖杯——他们不仅自己能冲击 1 万亿美元的市值，还能顺便帮中国催生出一个高达 10 万亿美元的产业巨兽！ ## 重新审视 DeepSeek 的“英雄之旅” DeepSeek 总是逆风而行，他们不屑于去卷那种“比别人好一点点”的微调模型，也不急着去卖当下的应用（比如各种编程套餐）。我在 2025 年 1 月 27 日发过一条疯传的推文，谈到了我所看到的景象，而现在的剧情正变得越来越精彩。 - 当大家都在死磕稠密模型（Dense Models，所有参数都参与计算的传统大模型结构）时，DeepSeek 却迎难而上，选择了极难训练的混合专家模型（MoE, Mixture of Experts）。 - 他们从“第一性原理”（First Principles）出发，发明了全新的 GRPO 算法，取代了在强化学习（RL, Reinforcement Learning）中虽然占据统治地位、但实现成本极高的 PPO 算法。 - 他们摸索出了基于验证奖励的强化学习（RLVR, Reinforcement Learning from Verified Rewards），并将其作为提升模型推理能力的杀手锏。 - 他们通过“多 Token 预测”（MTP, Multi-Token Prediction）提出了一种绝妙的投机解码（Speculative Decoding，一种通过预判后续单词来加速大模型生成速度的技术）策略，同时还让训练信号变得更加密集。 - 他们完美打造了“零气泡”（Zero-Bubble）流水线并行技术，把有限的 GPU 资源压榨到了极致。 - 他们开源了专家负载均衡器（Expert Load Balancer），让所有人都能轻松部署混合专家模型。特别是通过“宽专家并行”（Wide Expert Parallel）策略，模型可以在大批次下运行，使得服务成本大幅降低。 - 他们发明了 MLA、DSA、CSA 和 HCA 等一系列魔改注意力机制的技术，极大地缩减了 KV 缓存（KV Cache，大模型推理时用于存储历史对话记忆的显存空间）的需求，让计算需求在面对无限拉长的上下文时几乎保持恒定。 - 他们发明了 Engram（印迹模块），实现了用内存换算力的神奇操作。 - 他们发明了 mHC（修正超连接），解决了模型体量暴增时的训练稳定性难题。这个创新清单还能一直列下去…… 在英雄之旅这个最经典的叙事结构里，主角一开始并不知道自己的终极使命是什么。他是在一路上摸爬滚打，逐渐领悟了伟大的天命，然后排除万难去完成它。在这个过程中，他会遇到无数的冷嘲热讽，但他选择无视；他会遇到不怀好意的对手；他本身也有致命的弱点或短板——但他最终战胜了自我，达成了使命。他直面那些看似无法逾越的难关，却总能巧妙地结盟、精明地整合宝贵的资源。这就是为什么观众会不自觉地为英雄摇旗呐喊。这也是为什么 DeepSeek 在赢得全球无数粉丝狂热追捧和尊敬的同时，也招来了不少争议。接下来我将为你详细拆解，DeepSeek 在这条路上已经走得足够远，并且已经窥见了他们的终极宿命：他们的格局根本不是卖什么编程订阅，而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈，并以此顺理成章地让自己斩获 1 万亿美元的市值。在这个过程中，他们甚至还会顺手帮一把西方硬件生态中的一众新玩家。欢迎大家探讨与指正。 ## 先来算一笔好玩的 KV 缓存账：来看看知名半导体分析机构 @SemiAnalysis_ 发布的这条非常及时的推文：我们先来做点有趣的 KV 缓存数学题。别担心，如果你讨厌数学，我们也只是用最近发布的 KV 缓存计算器，来看看 DeepSeek V4 Pro 到底能省下多少 KV 缓存，并把它跟最新的智谱 GLM 和阿里通义千问（Qwen）模型做个对比。我以 100 万（1M）上下文长度为例进行计算，假设 KV 精度为 8 位（8-bit），索引器精度为 16 位（16-bit）。你自己也可以去这个网站上玩玩： https://kvcache.ai/tools/kv-cache-calculator/ 在 100 万上下文深度下： 1. DeepSeek V4 居然只需要 5.48 GB 的高带宽内存（HBM, High Bandwidth Memory，一种常用于顶尖 AI 显卡的高速显存）。 1. GLM5 需要 60 GB 的 HBM。 1. Qwen3-235B-A22B 则需要高达 89 GB 的显存！请注意，这还是在以下前提下： 1. DeepSeek 是一个拥有 **1.6 万亿（1.6T）**参数的巨无霸模型。 1. GLM5 大约是 7000 亿（700B）参数，而且它已经借鉴了 DeepSeek 的 MLA 和 DSA 技术，只是还没用上最新的压缩注意力机制。 1. Qwen3-235B-A22B 只有 2350 亿参数，使用的是相对传统的 GQA（分组查询注意力机制）。 DeepSeek 在缓解显存压力方面做出了奠基性的贡献。如果这项创新被行业广泛采纳，将让那些需要处理超长任务的长程 AI 智能体（Long-horizon Agents）成本低到难以置信，从而彻底解锁下一代崭新的应用场景。 ## 疯狂背后的精密章法：能够在完全不牺牲模型质量的前提下，把 KV 缓存压缩得如此之小，正是他们敢把长时缓存（Long-held Cache）价格压到白菜价的底气所在——其价格甚至不到 Anthropic 旗下 Claude Sonnet 4.6 缓存命中价格的 3%，而且他们还能帮你免费保留好几个小时！对于长程任务来说，由于缓存体量极小，将其“转存”（Offloading）到固态硬盘（SSD）并在需要时重新加载，就变得极为划算。这就大大降低了对 HBM 的依赖。要知道，HBM 目前全球严重短缺，而且从中国 AI 硬件产业的角度来看，这也是制造难度极高的核心痛点。更绝的是，DeepSeek 还开发了一套能从 SSD 中以极高速度重新加载 KV 缓存的技术，具体细节都在他们的论文里：https://arxiv.org/pdf/2602.21548 ## 谁是这场“KV 缓存压缩战”的直接受益者？谁在大量供应 SSD？别忘了长江存储（YMTC）正在崛起为全球 3D NAND 闪存巨头。闪存技术（NAND）让 DeepSeek 能够直接读取缓存，从而避免了每次都重新计算 KV 的巨大算力浪费。反过来，DeepSeek 正在为 NAND 闪存和固态硬盘创造一个无比庞大的新市场——这不仅让长江存储受益，也让整个产业链所有玩家跟着大赚。 ## 然而，格局绝不仅仅局限于 NAND 和 SSD：低功耗内存（LPDDR）同样蕴藏着巨大的潜力，可以用作存放模型权重（Weights）的“大后方”，并在需要时源源不断地“流式传输”到 HBM 中，从而进一步减轻 HBM 的容量压力。你可以参考这篇博客：https://www.lmsys.org/blog/2025-09-25-gb200-part-2/ 。下面我用一张图来解释这套方案是如何运作的：虽然 DeepSeek 并没有专门针对这一方案做特殊开发，但他们那拥有庞大专家数量、并且支持 4 位（4-bit）权重的混合专家模型架构，完美契合了这套方案，使得其实施起来易如反掌。这种创新配合上他们那堪称逆天的无损超紧凑 KV 缓存技术，让系统对 HBM 的吞吐和容量需求出现了断崖式下跌。中国谁在做 LPDDR？长鑫存储（CXMT）。目前他们在 LPDDR 的速度上仅落后国际顶尖水平半代，在容量密度上仅落后一代。差距非常小！这意味着在不久的将来，除了管够的 NAND 闪存，中国本土生态还将迎来铺天盖地的 LPDDR 内存。那这能缓解算力芯片的压力吗？答案是：绝对能。请接着往下看…… ## 聪明地玩转存储，还能顺手给 GPU 和 ASIC 减负道理很容易理解：用 NAND 闪存来存放 KV 缓存，不仅能延长缓存的保存时间、减轻 HBM 的压力，还能免去重复计算的烦恼，这等于变相给 GPU 和 ASIC（专用集成电路，即各类定制化 AI 算力芯片）的计算单元松了绑。那么，除了作为模型权重的“即时流式传送带”之外，LPDDR 还能以其他方式帮上忙吗？答案同样是：可以。 LPDDR 可以用来存储海量的“Engram”（印迹模块）。DeepSeek 在他们的论文（https://arxiv.org/pdf/2601.07372）中指出，虽然混合专家模型架构可以通过条件计算（Conditional Computation）来扩充模型的容量，但传统的 Transformer 架构缺乏一种天然的知识检索机制，只能笨拙地通过高昂的“计算”去模拟“检索”。为此，他们引入了 Engram 模块，将经典的 N-gram 嵌入技术升级为基于哈希、时间复杂度为 $O(1)$ 的瞬间查找，创造了一个他们称之为“条件内存”（Conditional Memory）的全新稀疏维度。这极大地省下了计算量，但代价是需要巨大的内存空间来存放这个庞大的嵌入表。这是一次经典的“用空间（存储）换时间（计算）”，其高明之处在于，读取“存储”的成本远比进行计算要便宜得多（在 LPDDR 里查一下，可比让大模型整整跑一轮前向传播省钱太多了）。在大规模部署时，这是一笔划算到家了的买卖。这就是他们如何通过狂砸内存来省下算力的秘密！！！这种取舍简直太值了：由于缺乏极紫外光刻机（EUV），无法在单个芯粒（Chiplet）上做到同等的晶体管密度，中国的 GPU 和 ASIC 在纯粹的原始浮点运算能力（FLOPs）上，注定会长期落后于西方顶尖显卡。同时，国内在先进封装技术上也处于追赶状态。因此，如果能利用国内产能充足、成本低廉的 NAND 和 LPDDR 内存来弥补算力的劣势，这种“扬长避短”的打法简直是绝配。 ## 盘点 DeepSeek 的一盘大棋：纵观这些令人眼花缭乱的创新和他们做出的种种抉择（至今不做多模态、不做语音模型，至于视频生成？那是什么东西？），DeepSeek 的野心显然不是眼前那区区几亿美元的蝇头小利。他们正在极有耐心地下一盘 10 万亿美元的大棋，目的是亲手扶持起一套独立于西方之外的“备选硬件生态”。这不仅让中国的存储芯片厂商在全球 AI 硬件舞台上跃升为主力军，更从根本上降低了大模型训练和推理的资源门槛。当运行 AI 模型的成本降下来后，原本性能稍逊的国产 GPU/ASIC 芯片以及网络交换芯片也将全部变成“够用、好用”的切实选项。而且，这些开源创新也将反哺西方的开源社区，并给西方那些试图挑战英伟达的芯片初创企业带来一线生机。所有的蛛丝马迹都对上了。让我们来逐一细数他们抛出的那些震撼行业的创新： 1. 在 DeepSeek V2 中引入混合专家模型（MoE）和 MLA：MoE 让训练一个极度聪明的模型减少了 40% 到 50% 的算力消耗；而多头潜在注意力机制（MLA, Multi-head Latent Attention）更是把 KV 缓存直接砍掉了 90%，使得将缓存转存到 SSD 变得极为高效。这些理念最早在他们 2024 年 5 月的论文（https://arxiv.org/pdf/2405.04434）中提出。正是凭借这些绝活，他们后来才能仅仅用 2048 张被阉割过的 H800 GPU，就硬生生训练出了媲美顶级闭源模型的 DeepSeek V3。 1. DSA（密集跳跃注意力机制）：在论文（https://arxiv.org/pdf/2512.02556）中推出，旨在削减长上下文场景下的计算量，同时缓解 HBM 的带宽压力。它确保了计算量不会随着上下文的拉长而发生爆炸式增长。看看下面的图表——DeepSeek-v3.2 的处理时间在上下文拉长时依然稳如泰山。 1. mHC（修正超连接）：在 2025 年 12 月的论文（https://arxiv.org/pdf/2512.24880）中首次亮相。mHC 是 DeepSeek 在宏观架构上的一大创新，它彻底颠覆了大模型各层之间传统的信号传输方式。过去大家都在用自 ResNet 时代流传下来的标准残差连接（$x + F(x)$），而 mHC 则把这条残差流扩展成了多条并行的“信息高速公路”，并允许模型自主学习如何进行混合。最为关键的是，它通过数学手段（将混合矩阵通过 Sinkhorn-Knopp 投影约束在 Birkhoff 多胞形上）强制让这些混合矩阵满足双随机性，从而在数学上完美确保了信号强度在穿过任意深度的网络层时都不会衰减。 - 这彻底解决了此前困扰无约束超连接（Hyper-Connections，最早由字节跳动发明）的灾难性不稳定难题——此前在 270 亿（27B）参数规模下，信号放大系数会疯狂飙升到 3000 倍，导致整个训练彻底崩盘。 - 而它的计算成本却微乎其微：由于它完全没有改变注意力层或前馈网络（FFN, Feed-Forward Network）层的原始浮点运算量，仅仅改变了输出在各层之间的路由方式，因此它只增加了区区 6.7% 的实际训练时间开销。 - 然而它带来的性能提升却极为震撼：在同等模型大小和几乎完全相同的算力预算下，27B 规模的模型在 mHC 的加持下，在复杂的 BIG-Bench Hard 推理测试中暴涨了 7.2 分，DROP 评测提升 3.2 分，GSM8K 数学测试提升 2.8 分，MMLU 综合学科知识提升 1.4 分。简而言之，mHC 通过给网络赋予一套更丰富、更有表现力的跨层信息路由拓扑结构，在几乎不需要额外多花一丁点算力的情况下，让单位参数发挥出了显著更高的“智商”。 1. CSA 与 HSA：在 2026 年 4 月发布的 DeepSeek V4 Pro 技术文档（https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf）中亮相。它们通过对 KV Token 进行深度压缩，把本来就已经很小的 KV 缓存需求又砍掉了 90%！同时大幅降低了所需的浮点运算量，一举帮 HBM 和 GPU/ASIC 彻底解套。 1. 论文（https://arxiv.org/pdf/2601.07372）于 2026 年第一季度推出，正如前面所说，它在某种意义上实现了“用内存（LPDDR）换算力”。下面的详细图表展示了在总体参数预算完全一致的情况下，Engram 带来的巨大性能跃升。 1. 将计算与通信的重叠压榨到极致：诸如“双路径”（Dual Path）这样的底层魔改，表面上看是为了绕过硬件资源的封锁而被迫进行的闪转腾挪。但 DeepSeek 更进一步，甚至开始反过来对芯片硬件厂商的 ASIC 架构设计指点迷津，告诉他们如何设计芯片才能避免浪费哪怕一丝一毫宝贵的硅片资源。以下截图正是出自 DeepSeek V4 Pro 的官方文档： 1. 对 TileLang 的重度投入：这明确无误地表明，他们的目光早已超越了自家算力紧缺的困境，而是致力于让整个中国硬件生态具备与西方掰手腕的竞争力。有了 TileLang（一种用于编写高性能算力内核的开源编程语言），工程师只需要编写一次算力内核代码，就能在任何适配了 TileLang 后端的不同硬件平台上无缝跑起来。我预计国内其他 AI 实验室很快也会纷纷加入这个阵营——这将合力帮助中国硬件厂商从侧面解围，绕开英伟达坚不可摧的“CUDA 壁垒”（CUDA Moat，英伟达苦心经营数十年的专用并行计算架构生态，是其最宽的护城河）。同时，这也能顺便解放 AMD 等西方的其他硬件厂商。注：国内许多 AI 硬件平台本身也提供 CUDA 兼容性或 CUDA 编译转换层。其中，摩尔线程、沐曦、壁仞和天数智芯是通过转换层实现与 CUDA 兼容度最高的几家中国芯片公司，理论上它们不需要 TileLang 的协助。 ## 大规模强化学习与自动化科学研究：随着计算需求的断崖式下降，以及可供选择的本土硬件变得越来越多，DeepSeek 终于能够放开手脚，去挑战那些此前让人望而却步的宏大训练计划——尤其是强化学习阶段的后训练（Post-training）。强化学习需要生成海量的思考轨迹（Trajectories），动辄就会产生数万亿的 Token，这在过去烧钱速度极其恐怖。此外，要训练出支持 100 万上下文的模型，你就必须生成同样长度的思考轨迹。只有让模型在这种超长轨迹中经受锤炼，才能真正解锁解决复杂长程任务的能力。不仅如此，硬件选择的多元化将让 DeepSeek 拥有富余的算力去冲击“自动化人工智能研究”（RSI, Research on Silicon Intelligence，即让 AI 充当科学家，自己设计并执行算法实验的自主进化技术）。这种让 AI 左右互搏、自主进化的模式伴随着大量的试错，耗资极度高昂。但如果想要彻底探寻整个算法设计的未知空间，RSI 是必经之路。在通往通用人工智能（AGI）乃至超级人工智能（ASI）的道路上，DeepSeek 必须先点亮 RSI 这颗科技树。 ## DeepSeek 今日的试金石，行业明天的教科书：如今，DeepSeek 围绕混合专家模型、MLA、DSA 的一连串疯狂创新，早已被中国乃至全球的各大 AI 实验室奉为圭臬并争相抄作业。比如，打造了 GLM 系列模型的智谱 AI 已经用上了 MLA 和 DSA；月之暗面（Kimi）也大方承认自家的最新架构正是基于 DeepSeek 的演进。作为礼尚往来，DeepSeek 在大规模训练中也采用了 Muon 优化器，而该优化器在超大规模训练中的威力，正是被 Kimi 团队首先发掘并证明的。（注： - 混合专家模型（MoE）架构最早由顶尖学者在 2017 年的经典论文（https://arxiv.org/pdf/1701.06538）中提出，而 DeepSeek 的功劳在于成功将其推向了前所未有的庞大规模，并融入了大量自研的独门绝技。* - Muon（基于牛顿 - 舒尔茨动量正交化）优化器由机器学习研究员 Keller Jordan 于 2024 年底发明，而 Kimi 团队则是全球第一个将其应用到超大规模模型训练中的吃螃蟹者。）* ## 说了这么多，那到底怎么赚大钱呢？我们可以看看 OpenAI 一个非常有趣的经典案例。OpenAI 曾与 AMD 以及 Cerebras（一家挑战英伟达的晶圆级超大芯片初创公司）达成协议：随着 OpenAI 采购并消耗这两家公司的芯片达到特定里程碑，OpenAI 就能以极低的价格获得这两家公司的股票认股权证（Warrants）或期权。这对于 AMD 和 Cerebras 来说是一笔双赢的绝妙交易——有了 OpenAI 这头吞噬算力的巨兽深度绑定，它们在长跑中胜出的概率大增。根据 AMD 官方发布的新闻稿（https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd-and-openai-announce-strategic-partnership-to-d.html）：“作为协议的一部分，为了深度绑定双方的战略利益，AMD 已向 OpenAI 授予了高达 1.6 亿股 AMD 普通股的认股权证。这些股权将随着特定里程碑的达成而逐步解锁。第一阶段将在初始部署达到 1 吉瓦（GW）算力中心时解锁，随后的份额将随着采购规模扩大至 6 吉瓦而陆续解锁……” 我大胆预测，DeepSeek 目前正在与国内一众存储、ASIC 算力芯片、CPU 以及网络协议栈厂商签署类似的对赌与利益绑定协议。通过深度联合调优，DeepSeek 将帮助这些本土硬件在运行全球最顶尖的 AI 核心工作负载时，真正做到平替、甚至超越西方硬件。眼下，西方（包括其东亚盟友）所有 AI 概念股的总市值早已突破了 10 万亿美元。通过这种“用技术换股权、用生态扶持分蛋糕”的精妙商业模式，DeepSeek 不仅能在中国复制出一个同样体量惊人的超级硬件产业，还能在其中切下最肥美的一块蛋糕，进而将自己送入 1 万亿美元市值的超级俱乐部。这不仅能让他们赚到比卖什么订阅软件多得多的真金白银，还能顺便实现他们口中“让通用人工智能惠及每一个人”的宏伟愿景。梁文锋作为传奇量化大师詹姆斯·西蒙斯（Jim Simons）的铁杆粉丝，绝对是一位顶级聪明的资本家，他绝不可能漏掉这盘大棋！只要你回过头把 DeepSeek 至今为止所有的反常举动串联起来，这就是唯一能完美解释一切的底层逻辑…… 关于这些底层技术创新的详细拆解长文将在本周末发布，感兴趣的朋友欢迎关注我的 Substack 专栏：https://polymath707.substack.com/ ...

译DeepSeek的核心战略并非销售应用服务，而是通过一系列底层技术创新，特别是MLA等注意力机制大幅压缩KV缓存需求，来重塑AI硬件生态。其技术能将1.6T参数模型在1M上下文下的内存占用降至5.48GB HBM，远低于同类模型。这直接降低了推理成本，并催生两大机会：一是将KV缓存转存至SSD，利好长江存储；二是其架构适配LPDDR内存进行权重缓存，利好长鑫存储。DeepSeek通过开源这些高效架构，正在构建一个以中国存储产业链为核心的新生态，最终目标是带动一个10万亿美元的AI硬件产业，并自身实现万亿美元市值。

Artificial Analysis@ArtificialAnlys · 5月23日67

DeepSeek has made its temporary 75% price cut on the first-party V4 Pro API permanent, putting V4 Pro on the Pareto frontier of Intelligence Index vs Cost to Run Intelligence Index alongside V4 Flash @deepseek_ai's first-party V4 Pro API is now $0.435/1M input, $0.87/1M output, and $0.0036/1M cached input, down from $1.74/1M and $3.48/1M, with a 7:2:1 (cache input/input/output) blended price of ~$0.18/1M. Running the Artificial Analysis Intelligence Index on V4 Pro (Reasoning, Max Effort) at first-party pricing costs ~$268, ~3x cheaper than Gemini 3.1 Pro Preview ($892), ~12x cheaper than GPT-5.5 (xhigh, $3,357), and ~19x cheaper than Claude Opus 4.7 ($5,117)

译DeepSeek已将其V4 Pro API的临时75%降价转为永久性调价。新定价下，输入、输出及缓存输入价格均大幅降低，混合均价约为每百万token 0.18美元。根据测算，以新价格运行V4 Pro的综合成本仅约268美元，成本优势显著：约为Gemini 3.1 Pro Preview的三分之一，GPT-5.5的十二分之一，以及Claude Opus 4.7的十九分之一。此次调价使V4 Pro在“智能指数”与“运行成本”的帕累托前沿上占据了极具竞争力的位置。

Chubby♨️@kimmonismus · 5月23日63

DeepSeek is moving ahead with a $10.29 billion financing round. Good news: Liang Wenfeng, however, remains focused on building open-source AI models rather than chasing short-term commercialization. Via Bloomberg

译DeepSeek正在进行一轮102.9亿美元的融资。好消息是：梁文锋依然专注于构建开源AI模型，而非追逐短期商业化。 Via Bloomberg

AYi@AYi_AInotes · 5月23日71

Damn！喜大普奔啊铁汁们， V4-Pro 的 75% 折扣，今天宣布永久化了！！感觉DeepSeek 这次不单纯是降价，更像是在打定价权。输出价格 $0.87/M tokens，对比一下主流模型普遍在 15 区间。这不是便宜一点，简直是直接击穿了整个行业的定价体系。再看他们的路径：限时折扣 → 延长一个月 → 今天直接取消期限。三连击，每一步都是精心设计的传播节点，最后一击直接告诉所有人：以后高性能模型就该这个价。但真正值得琢磨的还不是价格数字，是这个词——永久。一句话概括，就是短期促销是战术，永久降价是战略。这意味着AI 模型的商业模式正在从卖服务转向卖基础设施，类似水电煤的逻辑——低单价、高用量、规模经济。我猜DeepSeek 要的不是这几个月的收入，要的是海量真实使用数据、开发者生态、和定价话语权。也就是先规模、后利润，当年字节和拼多多怎么走的路，现在 AI 模型公司就怎么走。以前高性能模型是奢侈品，现在有人把它打成了日用品。下一次别人发定价页的时候，都得先看一眼 DeepSeek 的数字🤣

译DeepSeek将其高性能模型V4-Pro的限时75%折扣宣布为永久性调整，输出价格降至0.87美元/百万tokens，远低于行业主流定价区间。此举不仅是促销，更被视为争夺定价权的战略行动，标志着AI模型的商业模式正从服务转向类似水电煤的基础设施逻辑。DeepSeek通过“永久”降价，意图以低单价换取海量使用数据、开发者生态及行业定价话语权，追求规模优先的路径。

Rohan Paul@rohanpaul_ai · 5月23日78

Bloomberg: DeepSeek prioritizes AGI over commercialization in funding talks They are pushing forward with $10.29 billion financing round, with Liang Wenfeng committing to continue developing open-source AI models rather than pursuing short-term commercialization goals --- bloomberg. com/news/articles/2026-05-22/deepseek-founder-declares-agi-goal-as-10-billion-round-advances

译Bloomberg：DeepSeek在融资谈判中优先考虑AGI而非商业化他们正推进102.9亿美元的融资轮，梁文锋承诺继续开发开源AI模型，而非追求短期商业化目标

🚨 AI News | TestingCatalog@testingcatalog · 5月23日81

DeepSeek permanently reduced pricing for DeepSeek V4 Pro by 75%! > $0.003625 per million input tokens (with cache) > $0.435 per million input tokens. > $0.87 per million output tokens. Cache is almost free 👀

译DeepSeek永久下调DeepSeek V4 Pro定价75%！ > 每百万输入token $0.003625（使用缓存） > 每百万输入token $0.435。 > 每百万输出token $0.87。缓存几乎免费 👀

Chubby♨️@kimmonismus · 5月23日59

Let that sink in for a moment. DeepSeek v4 pro 75% discount. Permanent! In: $0.43 Out: $0.87 If you read the DeepSeek v4 tech paper you know that this model is insanely good when it comes to efficiency. Only 27% compute and only 10% cache compares to v3.2. SemiAnalysis wrote a great article. DeepSeek is now all about cost / token efficiency.

译让我们稍作思考。 DeepSeek v4 pro 降价75%。永久有效！输入：$0.43 输出：$0.87 如果你读过 DeepSeek v4 的技术论文，就会知道这个模型在效率方面表现惊人。相比 v3.2，它仅需 27% 的算力和 10% 的缓存。SemiAnalysis 写了一篇很好的文章。 DeepSeek 现在专注于成本/token 效率。

elvis@omarsar0 · 5月23日67

this is the way. 1/4 of the original price! the agentic stuff you can build with deepseek-v4-pro is already impressive so this like the best news for builders

译这才是正道。价格仅为原价的四分之一！用 DeepSeek-V4-Pro 构建的智能体功能已经令人印象深刻，所以这简直是开发者的最佳消息。

Berryxia.AI@berryxia · 5月23日43

DeepSeek充了值有种用不完的感觉，尤其flash… 这又给你75折优惠来啦…

译DeepSeek充了值有种用不完的感觉，尤其flash… 这又给你75折优惠来啦… [引用 @deepseek_ai]：我们正在将折扣永久化！🎉 享受使用 DeepSeek-V4-Pro 构建的乐趣，将您的创新想法变为现实！🚀

Yuchen Jin@Yuchenj_UW · 5月23日68

Wow. A massive 75% discount from DeepSeek. Either they’ve done some serious inference optimizations, or Huawei chips are just that much cheaper? More open-source AI models, better token economy.

译哇。DeepSeek给出了高达75%的折扣。要么他们做了重大的推理优化，要么华为芯片就是这么便宜？更多开源AI模型，更好的token经济。

DeepSeek@deepseek_ai · 5月23日64

We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀

译我们将优惠永久化！🎉 享受使用 DeepSeek-V4-Pro 构建的乐趣，将您的创新想法变为现实！🚀

宝玉@dotey · 5月22日40

帮转 DeepSeek Harness 团队招人

译DeepSeek旗下Harness团队正面向社会招聘，开放了研发工程师、产品经理及Harness方向研究员的职位。该团队招募全职与实习生，工作地点位于北京。感兴趣的候选人可通过官方招聘链接进行投递申请。

Orange AI@oran_ge · 5月22日65

DeepSeek 那个价格屠夫又回来了... 限时折扣改永久降价比同等水平的其他模型便宜3倍世界不能没有鲸鱼！

Alibaba Cloud@alibaba_cloud · 5月22日56

Looking for the most cost-effective way to deploy DeepSeek V4-Flash? 🚀 We compared the different deployment options on Alibaba Cloud PAI-EAS with real benchmarks & pricing data. Find your best performance per dollar! 📺 Watch now: https://youtu.be/32GdEdEzPs8 #DeepSeek #AlibabaCloud #PAI #AI

译寻找部署 DeepSeek V4-Flash 最具性价比的方式？🚀 我们通过实际基准测试和定价数据，对比了阿里云 PAI-EAS 上的不同部署选项。找到您每美元的最佳性能！ 📺 立即观看：https://youtu.be/32GdEdEzPs8 #DeepSeek #AlibabaCloud #PAI #AI

SiliconFlow@SiliconFlowAI · 5月22日63

@deepseek_ai V4 Flash just hit #1 on @OpenRouter — 3.02T tokens, up 109% this week. If you haven't tried it yet, now's a good time. More Info⬇️

译@deepseek_ai V4 Flash 刚刚登顶 @OpenRouter 榜首——3.02T tokens，本周增长109%。如果你还没试过，现在是个好时机。更多信息⬇️

OpenRouter@OpenRouter · 5月22日65

DeepSeek V4 Flash has topped the weekly leaderboard

译DeepSeek V4 Flash已登顶周排行榜

凡人小北@frxiaobei · 5月20日51

DeepSeek 招聘，帮转，有志青年可以看看。

译DeepSeek 发布招聘信息，计划在北京组建新团队开发 Code Harness 项目（可能称为 DeepSeek Code）。团队将负责从零开始构建该工具，招聘职位包括 Harness Product Manager 和 Harness R&D Engineer，分别侧重于产品管理和研发工作，强调研究与产品的结合。此次招聘面向有志于AI技术领域的青年人才，工作地点位于北京。

宝玉@dotey · 5月20日65

DeepSeek 招做 Agent 的产品经理和研发

译DeepSeek正在招聘Agent方向的产品经理和研发工程师，并为此组建了新的Harness团队。该团队目标是构建名为Code Harness（或类似产品）的代码相关AI工具，招聘地点位于北京。这标志着DeepSeek正投入资源开发AI Agent及开发者工具。

X.PIN@thexpin · 5月20日50

DeepSeek has formed a new internal team: Harness. This team is to build a coding agent aimed squarely at Anthropic's Claude Code. Senior researcher Chen Deli confirmed it: the goal is essentially "DeepSeek Code Harness," a direct answer to Claude Code. They're hiring a PM and an engineer for it, both based in Beijing at their Haidian office near Peking & Tsinghua.

译DeepSeek已成立一个新的内部团队：Harness。该团队旨在打造一个直接对标Anthropic的Claude Code的编程智能体。高级研究员陈德利确认了这一点：目标本质上是“DeepSeek Code Harness”，作为对Claude Code的直接回应。他们正在为此招聘一名产品经理和一名工程师，工作地点均在北京海淀办公室，靠近北京大学和清华大学。

向阳乔木@vista8 · 5月18日71

Hermes 目前值得配置的国内外模型： 1. 订阅ChatGPT plus或以上，用 OpenAI Codex 的Auth 配置 gpt-5.5 2. xAI如果买了Premium，可以配置 grok-4.3 3. 谷歌 Gemini 订阅或免费账号，配置 gemini-3.1-pro-preview 和 gemini-3-flash-preview 4. DeepSeek 官网 API 配置 deepseek-v4-pro 和 deepseek-v4-flash 5. 智谱官网 API 配置 glm-5.1 和 glm-5-turbo 6. Kimi 官网 API 或开发套餐配置 kimi-k2.6 7. 小米官网 API或开发套餐，配置 mimo-v2.5-pro 配置后，Hermes可跟机器人对话切换模型，指令如下： /model gpt-5.5 --provider openai-codex /model grok-4.3 --provider xai-oauth /model gemini-3.1-pro-preview --provider google-gemini-cli /model kimi-k2.6 --provider kimi-coding-cn /model deepseek-v4-pro --provider deepseek /model mimo-v2.5-pro —provider xiaomi

译Hermes 支持配置多种国内外主流 AI 模型，包括 OpenAI GPT-5.5、xAI Grok-4.3、谷歌 Gemini 系列、DeepSeek V4 系列、智谱 GLM-5 系列、Kimi K2.6 以及小米 Mimo V2.5-pro。用户需通过相应服务的订阅或 API 进行配置，完成后可使用 /model 指令指定模型及提供者来切换对话模型，例如输入“/model gpt-5.5 --provider openai-codex”即可切换至对应模型。该功能方便用户根据需求灵活调用不同模型的优势。

宝玉@dotey · 5月16日60

帮转 DeepSeek 招 Agent Harness 产品经理职位描述团队使命 Model + Harness = Agent 我们正在把 DeepSeek 的前沿模型能力，转化为领先的 Agent 产品。这其中除模型本身以外的所有工作，都属于 Harness 的范畴。你将加入 Harness 团队，与工程师、研究员紧密协作，参与 DeepSeek 桌面端 Agent 产品的全过程，定义 DeepSeek 对 Harness 的理解。主要职责 • 规划 DeepSeek Harness 产品路线图，连接研究员、工程师、开源社区和广大用户。 • 理解判断用户的最真实需求，定义与衡量“Agent 是否真的在更多场景下更深入的帮助到更多的人”的指标。 • 与模型训练团队的研究员深度沟通与合作，实现模型与 Harness 的共同进化。 • 帮助 Harness 产品内部落地，以内部真实任务做为 Harness 产品和模型相关能力训练的重要反馈源，持续迭代产品能力。 • 维护 Harness 产品用户社群，从潜在海量用户群体中获取反馈、提取信号，指导产品迭代。 • 协助项目管理相关工作。任职要求 • 2年以上产品经理从业经验，产品逻辑清晰。特别优秀候选人可放宽年限。 • 学历本科及以上。 • 能够使用 vibe coding 写代码，不一定需要技术背景。 • 能够设计系统性的收集数据的方法（包括问卷、访谈、A/B测试、灰度测试等），并使用统计学的工具严谨科学的分析数据。对此有系统性的思考和实践。 • 是 Agent 产品的高强度用户，熟悉 Agent 产品的各种形态，对 Agent 有极大的热情，对模型行为有品味有判断力，对开发者体验及用户体验有强感知。深度使用过 Claude Code、Cowork、Codex、Cursor、OpenCode、GitHub Copilot、Manus、OpenClaw、Hermes 等类似产品，并将相关产品的使用融入到自己的工作和生活中。 • 理解 LLM 以及 Agent 基本机制及其技术原理，包括 LLM API、KV Cache、Agent Loop、Tool Use、Reasoning、Planning、Skills、MCP、Memory、Subagent、Multi-Agent 等相关知识。对 Prompt Engineering、Context Engineering、Harness Engineering 等课题有第一手实践。 • 具备UI/UX设计素养。能够在 AI 辅助下完成产品原型图设计、UI设计等相关的产品设计工作。 • 优秀的中文沟通能力。能用英文与开源社区、用户社群书面沟通。加分项 • AI行业从业经验、AI相关产品经验。 • 作为小团队中的产品经理主导产品路线的经验。 • 与研究员深度协作的经验。 • 深度参与开源社区或维护开源社区关系的经验。 • 其它超乎常人的与此工作相关的才能。团队使命 Model + Harness = Agent 我们正在把 DeepSeek 的前沿模型能力，转化为领先的 Agent 产品。这其中除模型本身以外的所有工作，都属于 Harness 的范畴。你将加入 Harness 团队，与工程师、研究员紧密协作，参与 DeepSeek 桌面端 Agent 产品的全过程，定义 DeepSeek 对 Harness 的理解。主要职责 • 规划 DeepSeek Harness 产品路线图，连接研究员、工程师、开源社区和广大用户。 • 理解判断用户的最真实需求，定义与衡量“Agent 是否真的在更多场景下更深入的帮助到更多的人”的指标。 • 与模型训练团队的研究员深度沟通与合作，实现模型与 Harness 的共同进化。 • 帮助 Harness 产品内部落地，以内部真实任务做为 Harness 产品和模型相关能力训练的重要反馈源，持续迭代产品能力。 • 维护 Harness 产品用户社群，从潜在海量用户群体中获取反馈、提取信号，指导产品迭代。 • 协助项目管理相关工作。任职要求 • 2年以上产品经理从业经验，产品逻辑清晰。特别优秀候选人可放宽年限。 • 学历本科及以上。 • 能够使用 vibe coding 写代码，不一定需要技术背景。 • 能够设计系统性的收集数据的方法（包括问卷、访谈、A/B测试、灰度测试等），并使用统计学的工具严谨科学的分析数据。对此有系统性的思考和实践。 • 是 Agent 产品的高强度用户，熟悉 Agent 产品的各种形态，对 Agent 有极大的热情，对模型行为有品味有判断力，对开发者体验及用户体验有强感知。深度使用过 Claude Code、Cowork、Codex、Cursor、OpenCode、GitHub Copilot、Manus、OpenClaw、Hermes 等类似产品，并将相关产品的使用融入到自己的工作和生活中。 • 理解 LLM 以及 Agent 基本机制及其技术原理，包括 LLM API、KV Cache、Agent Loop、Tool Use、Reasoning、Planning、Skills、MCP、Memory、Subagent、Multi-Agent 等相关知识。对 Prompt Engineering、Context Engineering、Harness Engineering 等课题有第一手实践。 • 具备UI/UX设计素养。能够在 AI 辅助下完成产品原型图设计、UI设计等相关的产品设计工作。 • 优秀的中文沟通能力。能用英文与开源社区、用户社群书面沟通。加分项 • AI行业从业经验、AI相关产品经验。 • 作为小团队中的产品经理主导产品路线的经验。 • 与研究员深度协作的经验。 • 深度参与开源社区或维护开源社区关系的经验。 • 其它超乎常人的与此工作相关的才能。 https://app.mokahr.com/social-recruitment/high-flyer/140576#/job/54f386a9-913b-4626-9bf4-e1709b62fcda

译DeepSeek招聘Agent Harness产品经理，旨在将其前沿模型能力转化为领先的Agent产品。该职位需规划产品路线图，连接研究员、工程师与社区，定义并衡量Agent帮助用户的核心指标，推动模型与Harness共同进化。候选人需是Agent产品高强度用户，熟悉Claude Code、GitHub Copilot等工具，理解LLM与Agent技术原理，并具备数据分析和产品设计能力。

SemiAnalysis@SemiAnalysis_ · 5月16日57

As we've come to expect from a DeepSeek release, DeepSeek V4 comes with more flashy ML systems optimizations. This time? MegaMoE, a 1400 line fused CUDA kernel that computes the entire MoE forward pass. Let's see how it works (1/4) 🧵

译正如我们对DeepSeek发布的期待，DeepSeek V4带来了更多炫目的ML系统优化。这次是MegaMoE，一个1400行融合CUDA内核，可计算整个MoE前向传播。让我们看看它是如何工作的（1/4）🧵

Orange AI@oran_ge · 5月14日47

最近终于把沉浸式翻译的方案换完了陪读蛙+DeepSeek V4 Flash 用用看

OpenCode@opencode · 5月12日49

OpenCode x DeepSeek V4 Flash - free for a limited time DeepSeek V4 Flash is currently our most popular model in Go Give it a try if you haven’t already

译OpenCode x DeepSeek V4 Flash - 限时免费 DeepSeek V4 Flash目前是我们Go中最受欢迎的模型如果还没尝试过，快来体验吧

Artificial Analysis@ArtificialAnlys · 5月11日65

Announcing the Artificial Analysis Coding Agent Index! Our new coding agent benchmarks measure how combinations of agent harnesses and models perform on 3 leading benchmarks, token usage, cost and more When developers use AI to code they’re choosing a model, but also pairing it with a specific harness. It makes sense to benchmark that combination to understand and compare performance. The Artificial Analysis Coding Agent Index includes 3 leading benchmarks that represent a broad spectrum of coding agent use: ➤ SWE-Bench-Pro-Hard-AA, 150 realistic coding tasks that frontier models struggle with, sampled from Scale AI’s SWE-Bench Pro ➤ Terminal-Bench v2, 84 agentic terminal tasks from the Laude Institute and that range from system administration and cryptography to machine learning. 5 tasks were filtered due to environment incompatibility ➤ SWE-Atlas-QnA, 124 technical questions developed by Scale AI about how code behaves, root causes of issues, and more, requiring agents to explore codebases and give text answers Analysis of results: ➤ Opus 4.7 and GPT-5.5 lead the Index: Opus 4.7 in Cursor CLI scores 61, followed closely by GPT-5.5 in Codex and Opus 4.7 in Claude Code at 60. GPT-5.5 in Cursor CLI follows at 58. ➤ Open weights models are competitive, but still trail the leaders: GLM-5.1 in Claude Code is the top open-weight result at 53, followed by Kimi K2.6 and DeepSeek V4 Pro in Claude Code at 50. These are strong results, but still meaningfully behind the top proprietary models. ➤ Gemini 3.1 Pro in Gemini CLI underperforms: Gemini 3.1 Pro in Gemini CLI scores 43, well below where Gemini 3.1 Pro sits on our Intelligence Index, highlighting that Gemini’s performance in Gemini CLI remains a relative weak spot for Google’s offering. ➤ Cost per task (API token pricing) varies >30x: Composer 2 in Cursor CLI is cheapest at $0.07/task, followed by DeepSeek V4 Pro in Claude Code at $0.35/task and Kimi K2.6 in Claude Code at $0.76/task. At the high end, GPT-5.5 in Codex costs $2.21/task, while GLM-5.1 in Claude Code costs $2.26/task. For both models this was contributed to by high token usage, and in GPT-5.5’s case by a relatively higher per token cost. ➤ Token usage varies >3x: GLM-5.1 in Claude Code uses the most tokens at 4.8M/task, followed by Kimi K2.6 at 3.7M/task and DeepSeek V4 Pro at 3.5M/task. GPT-5.5 in Codex uses 2.8M tokens/task, substantially more than Opus 4.7 in Claude Code at 1.7M/task. In GLM-5.1’s case, higher token usage, cost and execution time were partly driven by the model entering loops on some tasks. ➤ Cache hit rates remain high but vary materially: Cache hit rates range from 80% to 96% across combinations. Provider routing, harness prompt structure and cache behavior can materially change the economics of running the same model given cached inputs are typically <50% the API price of regular input tokens. ➤ Time per task varies >7x: Opus 4.7 in Claude Code is fastest at ~6 minutes/task, while Kimi K2.6 in Claude Code is slowest at ~40 minutes/task. This is contributed to by differences in average turns per task, token usage and API serving speed. Opus 4.7 had materially lower amount of turns to complete a task than all other models while Kimi K2.6 had the most. ➤ Cursor made real progress with Composer 2: Composer 2 in Cursor CLI scores 48, near the leading open-weight model results, while being the cheapest combination measured at $0.07/task. Cursor has stated Composer 2 is built from Kimi K2.5, showcasing they have made substantial post-training gains. This is just the start. We are planning to add additional agents (both harnesses and models). Let us know what you would like to see added next.

译人工智能分析发布编码代理基准指数，评估不同模型与执行框架组合在三大编码基准中的表现。Opus 4.7在Cursor CLI中以61分领先，GPT-5.5与Opus 4.7在其它框架中得分60紧随其后。开源模型GLM-5.1在Claude Code中获得53分，表现竞争但仍显著落后顶尖闭源模型。经济性差异悬殊：每任务成本从Composer 2的0.07美元到GLM-5.1的2.26美元不等，后者因任务循环令牌使用高达480万；任务耗时差异超7倍，Opus 4.7仅需6分钟而Kimi K2.6需40分钟。缓存命中率普遍较高，影响实际运行成本。

阿绎 AYi@AYi_AInotes · 5月9日82

Damn，Redis创始人用一个C文件，干翻了大厂烧几十亿的GPU集群。 Antirez，那个写出Redis的传奇黑客，昨天开源了ds4。一个专门为DeepSeek V4 Flash写的原生推理引擎，只有几千行C代码。它做到了一件很多人都觉得不可能的事：把拥有1M上下文窗口、能跑完整coding agent循环的准前沿模型，完整跑在一台普通的128GB MacBook Pro上。 YC CEO Garry Tan看完直接转发，只说了一句话： “正在下载… 1M上下文+可用的coding agent能力，全在一台128GB MacBook上，这太疯狂了🤯” 这已经不是一个普通的量化项目那么简单了铁汁们，属于顶级黑客用极致的系统工程，把闭源实验室烧几十亿才能玩的东西，压到了每个人的笔记本里。他的三个黑客级操作，每一个都颠覆了行业常识： 1. 不对称2-bit量化：只对MoE里占90%体积的专家部分做2-bit压缩，所有关键路径保持全精度。质量损失极小，Antirez本人亲测“coding agent工作良好，能可靠调用工具”。 2. 把KV Cache扔到SSD：很多人都觉得KV Cache必须放内存，1M上下文会直接炸掉128GB内存。他直接把KV Cache搬到了苹果的高速SSD上，用磁盘当扩展内存，彻底突破了硬件天花板。 3. 纯Metal原生优化：没有任何多余的封装，没有通用框架的开销，所有代码只为Apple Silicon写，只为DeepSeek V4 Flash写。实测性能：M3 Max 128GB上稳定27 tok/s。不算快，但对本地跑agent循环来说，完全够用了。你不用再给OpenAI付API费，不用再担心数据泄露，不用再忍受网络延迟。所有的AI能力，完完全全在你自己的电脑里。卧槽，这才是真正的革命，过去AI的权力攥在少数几家大厂手里，他们有GPU集群，定价格，甚至说删就删。现在，一个黑客用几千行C代码，就把这个权力还给了每一个开发者。开源AI真的是不可阻挡的，大厂烧几十亿训练出来的模型，只要权重一开源，全世界的黑客就会用你想象不到的方式，把它优化到每一个能跑的设备上。今天是MacBook，明天是手机，后天是手表，太让人兴奋了！ 2026年5月9日，AI终于从云端的神坛，落到了每个人的笔记本里。或许这一天，会被写进历史！

译Redis创始人Antirez开源了专为DeepSeek V4 Flash设计的原生推理引擎ds4。该引擎仅用几千行C代码，通过三项关键技术：对MoE专家进行不对称2-bit量化、将KV Cache移至高速SSD突破内存限制、为Apple Silicon进行纯Metal原生优化，成功在128GB MacBook Pro上流畅运行具备1M上下文窗口的模型，实测达27 tok/s。此举将原本依赖云端GPU集群的前沿AI能力，通过极致工程优化 democratize 至个人设备，展现了开源社区推动技术平民化的强大潜力。

阿绎 AYi@AYi_AInotes · 5月9日60

卧槽，兄弟们，竟然被孙哥回关了❗ ❗ ❗ 激动的手都在抖，怎么有点热泪盈眶的感jio🥹 AI中转站太火爆了，孙哥和小特朗普都下场了，本来想趁着周末好好写一写孙哥为什么做AI中转站这件事，去他的主页找素材，发现不知道啥时候回关我了😳 平复下情绪说回正题，我搜了下最近的评论发现褒贬不一，大多数人都以为孙宇晨又做了一个卷价格的API中转站，殊不知其实他已经偷偷卡位了AI时代最赚钱的位置。 http://B.AI上线一个月，已经破了160万注册用户。 DeepSeek-V4大幅打折接近1折，接近白送，GPT、Claude、Gemini一个Key全搞定，支持加密钱包直连，无KYC，无审核。也有很多人嘲笑这又是一个卷低价的生意，赚点token差价的辛苦钱。但他们忘了，孙哥这辈子从来不会做低毛利的事，表面看是卷价格，实际上是在做战略卡位。他真正的目标根本就不是卖API，我理解孙哥核心目标是要成为AI Agent时代的中央银行。接下来我分三层讲透这个事，也请@justinsuntron 孙哥指正🫡

译作者因被孙宇晨回关而引发讨论，指出其AI中转站项目B.AI并非简单的低价API竞争。该项目上线一个月注册用户破160万，提供大幅折扣的DeepSeek-V4等模型，并支持加密钱包支付。核心观点认为，孙宇晨的战略目标是通过低价策略抢占入口，最终旨在成为未来AI Agent时代的“中央银行”，而非仅赚取API差价。

阿绎 AYi@AYi_AInotes · 5月9日68

发现个很有意思的事，DeepSeek爆火后最火的用途居然是算命🤣 而且V4的水平直接吊打路边算命先生😆 最全最顶的的deepseek算命提示词分享给大家，老规矩评论区自取👇

译一款名为Tianfu Agent的AI产品在全球算命师大赛中取得50%的截尾均值准确率，接近人类顶尖选手的53.5%，显著优于通用大模型。其核心在于采用工程化思路，构建了200多个专用原子工具处理精准计算，并将各流派技法封装为可调用函数，避免了长链推理中的信息丢失与幻觉问题。这套Agent范式为法律、中医等规则密集型垂直领域的AI化提供了高效、可控且可迁移的新解决方案。产品已开源评测基准并提供试用。

SemiAnalysis@SemiAnalysis_ · 5月9日54

Amazing work from the @sgl_project and @radixark team for their work optimizing DeepSeek V4 inference on B200, B300, and the recent 4x iso-interactivity throughput improvements on GB300 by @ChengWan17! As @elonmusk said, The GB300 is the best AI computer, and software optimizations like this show its true potential!

译@sgl_project 和 @radixark 团队在优化DeepSeek V4推理方面取得了惊人成果，包括在B200、B300上的优化，以及@ChengWan17近期在GB300上实现的4倍等交互吞吐量提升！正如@elonmusk所说，GB300是最佳AI计算机，而此类软件优化正展现其真正潜力！

Rohan Paul@rohanpaul_ai · 5月9日72

DeepSeek is raising a massive $7 billion at a $50 billion valuation, marking China’s largest AI funding round to date. - per The Information Founder Liang Wenfeng is personally contributing $3 billion—40% of the round—while keeping 90% ownership. He originally launched the company inside his own successful hedge fund. The round will secure major compute capacity to accelerate new model releases like V4.1 and fund enterprise products to make the business revenue-positive, following the same path as OpenAI and Anthropic.

译DeepSeek正以500亿美元估值进行高达70亿美元的融资，创下中国AI领域最大单轮融资纪录。创始人梁文锋个人出资30亿美元，占本轮融资的40%，同时仍保留公司90%的所有权。该公司最初诞生于其本人成功的对冲基金内部。本轮融资将主要用于获取大规模计算资源，以加速发布V4.1等新模型，并投资企业级产品，目标是推动公司实现营收转正，其发展路径与OpenAI和Anthropic类似。

OpenCode@opencode · 5月8日43

OpenCode Go is currently experiencing issues with DeepSeek models due to an upstream provider outage. We’re monitoring the situation here: https://status.deepseek.com/

译OpenCode Go 目前因上游供应商中断而遇到 DeepSeek 模型问题。我们正在此处监控情况：https://status.deepseek.com/

SemiAnalysis@SemiAnalysis_ · 5月8日61

POV of @vllm_project maintainers optimizing DeepSeekv4 performance on day 0 and merging their initial model support PR over the weekend. SPEED IS THE MOAT

译@vllm_project 维护者在第0天优化DeepSeekv4性能并在周末合并了他们的初始模型支持PR。速度就是护城河

SemiAnalysis@SemiAnalysis_ · 5月8日21

Dylan Doug and Max stopped by this week to discuss GPT 5.5, Claude Opus 4.7, DeepSeek's delayed return, Mythos, Subq and more hot takes! @dylan522p @fabknowledge @JordanNanos @maxkan_

译Dylan、Doug和Max本周来访，讨论了GPT 5.5、Claude Opus 4.7、DeepSeek的延期回归、Mythos、Subq以及更多热门话题！ @dylan522p @fabknowledge @JordanNanos @maxkan_

SemiAnalysis@SemiAnalysis_ · 5月8日50

Floating point math is not associative! And many of the highest performance kernels split the workload among SMs and accumulate partial results in a nondeterministic order. Many AI labs just accept this, or pay a huge performance penalty for determinism. DeepSeek decided to do neither. (1/4) 🧵

译浮点运算不满足结合律！许多高性能计算核心会将工作负载分配到多个流多处理器上，并以非确定性顺序累加部分结果。许多AI实验室只能接受这一点，或为确定性付出巨大的性能代价。DeepSeek决定两者都不选。(1/4) 🧵

Orange AI@oran_ge · 5月7日21

DeepSeek V4 太笨了，跟他交流我感觉是在浪费自己宝贵的生命。

Nathan Lambert@natolambert · 5月7日76

Visiting the Moonshot office was amazing, right up there with the best vibes of any AI company I’ve visited in the US or China. Deserve this raise.

译作者盛赞访问Moonshot AI（月之暗面）的体验极佳。其旗下产品Kimi正以超200亿美元的投后估值完成新一轮约20亿美元融资，由美团龙珠领投。公司在2025年前六个月融资总额超39亿美元，估值较去年11月增长约4倍，成为中国累计融资额最高的AI初创公司。其年度经常性收入在短期内从1亿美元快速增长至超2亿美元，付费订阅和API使用量均在加速。

SemiAnalysis@SemiAnalysis_ · 5月6日53

Canyon Overlook, @ZionNPS - MI355x on SGLang has achieved >10x improvement on throughput PER GPU since day-0 release for DeepSeekv4 Pro. HUGE W to the 10x engineers at Hai's team from @amd and @sgl_project! @EmadBarsoumPi @AnushElangovan

译锡安国家公园峡谷观景台 - MI355x在SGLang上针对DeepSeekv4 Pro的吞吐量自首发日以来已实现每GPU超过10倍的提升。来自@amd和@sgl_project的Hai团队工程师们取得了巨大胜利！@EmadBarsoumPi @AnushElangovan

Berryxia.AI@berryxia · 5月6日79

我草，国家队直接把DeepSeek估值干到450亿美元了！数周前还200亿，今天大基金领投首轮融资，腾讯也想跟，创始人梁文锋自己掏钱。这不是普通融资，这是大基金第一次公开投本土大模型。相当于官方把AI大模型正式拉进“半导体国家战略”了。普通创业者看完只会想：国产AI的春天，真来了。

译DeepSeek估值在数周内从200亿美元跃升至450亿美元，本轮融资由国家大基金领投，腾讯有意跟投，创始人梁文锋也参与出资。此举标志着国家队首次公开投资本土大模型公司，具有强烈的战略象征意义。这被视为官方将AI大模型正式纳入“半导体国家战略”的关键信号，向市场传递了国家全力支持国产AI发展的明确信息，预示着行业将进入新的发展阶段。