微软 Copilot Cowork 正式 GA，考虑引入 Azure 托管的 DeepSeek V4 作为低成本模型选项，按算力/用量计费 token maxxing 已经被证实商业模式不可行！ Copilot Cowork 等 Agent 无法再用「包月无限用」的模式卖，因为 Agent 会在一个任务里反复调用模型（读文件、写代码、调工具、自我纠错），token 消耗因此急剧放大；用户每周跑几百个任务时，生产力上去了，账单也会失控。简单任务也被丢给最贵的 frontier 模型，进一步推高成本。 DeepSeek 进入 Copilot 栈？ · 正在测试微调版 DeepSeek V4，作为 Anthropic / OpenAI 模型的低成本替代 · 预计数周内公布最终选择 · 若落地：可选、非强制，完全托管在 Azure 上，数据不出 Microsoft 云，走现有企业安全/合规/数据驻留体系 · 已做微调，并加入减少偏见等安全层

译微软 Copilot Cowork 正式全球可用，支持多模型。为控制成本，正评估引入微调版 DeepSeek V4 作为 Anthropic/OpenAI 模型的低成本替代，按算力/用量计费。模型完全托管于 Azure，数据不出微软云，已加入安全层，数周内公布。同时指出，Agent 任务反复调用模型致 token 消耗大幅增加，包月无限用模式已不可行。

Rohan Paul@rohanpaul_ai · 6月17日70

DeepSeek takes the crown as China’s most valuable AI startup after a massive $7.4B raise at a $50B valuation. The unusual part is control: Liang Wenfeng, DeepSeek’s founder, held almost 90% of the company before the financing and invested around $3 B as the biggest contributor. DeepSeek’s bet is to keep pushing open-source models and AGI research, while also helping domestic chipmakers such as Huawei run powerful models despite U.S. chip limits. Other top disclosed investors : Tencent: about $1.5B CATL: about $740M China’s National Artificial Intelligence Industry Investment Fund: about $150M

译DeepSeek完成74亿美元融资，估值达500亿美元，成为中国估值最高的AI初创公司。创始人梁文峰在融资前持股近90%，并以约30亿美元个人出资成为最大投资方。本轮主要投资者包括腾讯（约15亿美元）、宁德时代（约7.4亿美元）以及国家人工智能产业投资基金（约1.5亿美元）。DeepSeek计划继续推进开源模型和AGI研究，同时帮助华为等国内芯片制造商在美国芯片限制下运行强大模型。

Chubby♨️@kimmonismus · 6月17日75

Axios reports that Microsoft is considering a Microsoft-hosted version of DeepSeek V4 as a cheaper model option for Copilot Cowork. Microsoft says Copilot Cowork can’t work on unlimited pricing. “We have users who do hundreds of tasks a week… but the consequence is the costs can go very high,” Charles Lamanna told Axios. So Microsoft is moving Copilot Cowork to usage-based pricing, and exploring cheaper open-source model options. If Microsoft really goes with DeepSeek, it would be optional, fine-tuned, safeguarded, and hosted fully on Azure. Still: Microsoft adding a Chinese AI model to an enterprise Copilot product would be huge.

译微软正考虑为 Copilot Cowork 提供微软托管的 DeepSeek V4 版本，作为更便宜的模型选项。Copilot Cowork 将放弃无限定价，转向按使用量计费，原因是成本过高（用户每周执行数百项任务导致费用激增）。若采用 DeepSeek，该模型将是可选的、经过微调与安全防护，并完全托管于 Azure。Axios 报道称微软已微调了一个可用模型，最终决定待定。

Nathan Lambert@natolambert · 6月16日53

New podcast with @finbarrtimbers! We survey the latest post-training recipes, from GLM 5.1, Kimi K2.6, DeepSeek V4, Xiaomi MiMo V2.5, Nemotron Ultra, etc. and discuss: - Why the industry slowly shifted to multi-teacher on-policy distillation (MOPD). - What an Olmo-style recipe would need improvements in - How post-training works / suits larger organizational efforts - Career advice in the foothills of the singularity - and other topics I heard y'all wanted me to start doing this, so making some time when I'm in funemployment! Chapters: 00:00 Introduction & Olmo reflections 06:28 Post-train recipes review (history) 23:00 2026’s model recipes (MiMo Flash, DeepSeek V4, GLM 5, Kimi K2.6, etc.) 39:05 Open-ended post-training discussions 48:22 Career advice in the LLM race Links below, please follow @interconnectsai and like and subscribe and buy my book?

译Nathan Lambert与Finbarr Timbers合作推出新播客，系统调研GLM 5.1、Kimi K2.6、DeepSeek V4、Xiaomi MiMo V2.5、Nemotron Ultra等模型的最新后训练方法。核心讨论包括：行业转向多教师在线策略蒸馏（MOPD）的原因；Olmo风格配方需改进的方向；后训练如何适配大型组织；以及在AGI早期阶段的职业建议。播客章节涵盖历史回顾、2026年模型配方（MiMo Flash、DeepSeek V4、GLM 5、Kimi K2.6等）及开放式后训练讨论。

Artificial Analysis@ArtificialAnlys · 6月16日60

Announcing Artificial Analysis Intelligence Index v4.1: a shift toward agentic workloads, featuring upgraded benchmarks and new per-task metrics The Artificial Analysis Intelligence Index is our synthesis metric for assessing model intelligence and tracking AI progress. v4.1 marks a broader shift toward agentic workloads, with three main changes: Updated and reweighted evaluations toward agentic tasks: 1. We upgraded three evaluations, removed one, and reweighted the Intelligence Index: ➤ Upgraded Terminal-Bench Hard to Terminal-Bench 2.1 and τ²-Bench Telecom to τ³-Bench Banking. Both move to newer, more robust task sets with harder, more realistic agentic scenarios that better separate frontier models ➤ Upgraded GDPval-AA to GDPval-AA v2. The upgrade re-baselines Elo to human performance at 1000, introduces a rotating panel of frontier-model judges, and raises the turn limit from 100 to 250 for longer-horizon agent trajectories ➤ Removed IFBench due to saturation. The benchmark no longer distinguishes frontier models sufficiently, so we have removed it from the Intelligence Index. We will continue to run it and publish results on new model releases 2. Cost per Task, Time per Task, and Tokens per Task: Three new per-task metrics, reported for every model and based on the Intelligence Index. We take the total cost, total time, and total output tokens for a model to run the Intelligence Index and divide by the number of tasks across its evaluations, giving the average cost, time, and output tokens to complete a single Intelligence Index task 3. Cached input token reporting: We now report cached input tokens and their impact on cost, including the cost to run the Intelligence Index, to better reflect the real cost of running each model Key Results: ➤ Leading models: Claude Fable 5 (with Opus 4.8 fallback, 60) leads the Artificial Analysis Intelligence Index v4.1 by four points but is currently unavailable, leaving Claude Opus 4.8 (max, 56) as the most intelligent available model, ahead of GPT-5.5 (xhigh, 55) ➤ Open weights leading models: Among open weights models, DeepSeek V4 Pro (max, 44) and MiniMax M3 (44) lead, followed by Kimi K2.6 (43) and MiMo-V2.5-Pro (42) ➤Cost per Task: Claude Opus 4.8 (max) is the most expensive available model at $1.78 per task, with Claude Fable 5 the highest overall at $3.25. GPT-5.5 (xhigh) scores within a point of Opus 4.8 on the Intelligence Index at $0.99 per task. DeepSeek V4 Pro (max) stands out on the Intelligence vs Cost per Task chart at $0.04 per task, with other leading proprietary models costing 20x to 45x more ➤Time per Task: time per task (inference decode time) ranges from 1.5 minutes for Grok 4.3 (high) to 13.5 for Claude Sonnet 4.6 (max), a roughly 9x spread. Claude Opus 4.8 (max) completes a task in 6.4 minutes and GPT-5.5 (xhigh) in 3.7, while Gemini 3.1 Pro Preview stands out on the Intelligence vs Time per Task chart at 1.6 minutes for a score of 46

译Artificial Analysis 发布 Intelligence Index v4.1，转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2（Elo 重基线、引入前沿模型评审、回合上限增至250），移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果：Claude Fable 5（60分）领先但不可用；可用模型中 Claude Opus 4.8（max）56分居首，GPT-5.5（xhigh）55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面，Opus 4.8 每任务 $1.78，GPT-5.5 $0.99，DeepSeek V4 Pro 仅 $0.04。时间方面，Grok 4.3 最快（1.5分钟），Opus 4.8 需6.4分钟，GPT-5.5 需3.7分钟，Gemini 3.1 Pro Preview 以1.6分钟得46分。

Artificial Analysis@ArtificialAnlys · 6月13日59

Today we're releasing the first results for AA-AgentPerf, our new agentic inference benchmark: initially covering DeepSeek V4 Pro across NVIDIA Blackwell, Hopper, and AMD. AA-AgentPerf is the first benchmark built for agentic inference. We use real, long-context agentic coding trajectory data as the workload, and inference with real production optimizations such as KV cache reuse and speculative decoding, leading to the most realistic evaluation of inference performance available today. AA-AgentPerf’s lead metric is Agents per Megawatt. In a power-constrained world, this answers the most relevant question for AI infrastructure providers - “how many real agents can I deploy per unit of power available?”. First results for DeepSeek V4 Pro (at the easiest defined service level of 20 tokens/s and 10s TTFT): ➤ GB300 (rack-scale, disaggregated): 61,354 Agents/MW ➤ B300 (single node, disaggregated): 21,053 Agents/MW ➤ MI355X: 3,551 Agents/MW ➤ H200: 2,594 Agents/MW Further AA-AgentPerf details: ➤ Real agent workloads, beyond synthetic queries: AA-AgentPerf replays real coding agent trajectories where our agents used up to 200 turns and worked with sequence lengths >100K tokens - the workloads that matter in 2026 ➤ Production optimizations allowed: KV cache reuse, speculative decoding, and prefill/decode disaggregation are all permitted, with accuracy verification to control for quality loss - we want results to reflect what real deployments actually look like ➤ Lead metric is Agents per Megawatt: simultaneous agents supported at production performance targets (e.g. 20 tokens/s per user, ≤10s TTFT) per megawatt consumed. Agents per TCO and $/hr will be supported soon Key findings: ➤ Rack-scale disaggregated inference (GB300) is ~3× more power-efficient than single-node Blackwell (B300), and similarly ahead in raw agents per GPU ➤ Blackwell represents a large generational step over Hopper in both power efficiency and raw compute per GPU ➤ In this test, NVIDIA's Blackwell systems currently lead AMD MI355X by a clear margin. Important context: our MI355X configs are approximately two weeks older than our Blackwell configs and couldn’t stably use speculative decoding. MI355X power draw under heavy load is also well below TDP, indicating there is much room to improve on DeepSeek V4 Pro, which we will measure and publish in the coming weeks ➤ Config and inference framework version matter enormously - we've seen meaningful improvements daily since the DeepSeek V4 Pro release and look forward to tracking performance over time AA-AgentPerf is a live benchmark and we publish results on a rolling basis as submissions come in. Some of the new features coming in v1.1: more models (gpt-oss-120b), more hardware (GB200, B200, H100, MI300X), better AMD configurations, $/hr and cost-per-task normalization, Agents per TCO, and performance tracking over time.

译Artificial Analysis 发布新基准 AA-AgentPerf，首批结果覆盖 DeepSeek V4 Pro 在 NVIDIA Blackwell（GB300、B300）、Hopper（H200）及 AMD MI355X 上的推理能效。核心指标为每兆瓦承载的并发智能体数（要求 20 tokens/s 且 TTFT≤10s）：GB300（机架级解耦）达 61,354，B300（单节点解耦）21,053，MI355X 3,551，H200 2,594。基准使用真实编码 agent 轨迹（最多 200 轮、序列超 100K tokens），允许 KV cache 复用、推测解码等生产优化并验证精度。测试显示 Blackwell 机架级比单节点能效高约 3 倍，且代际大幅领先 Hopper；MI355X 配置较早且未稳定启用推测解码，仍有优化空间。

elvis@omarsar0 · 6月13日69

How to effectively run autonomous long-running coding agents? This is one of the most exciting discussions on agents I've ever had. I recorded it and am making it freely available. (bookmark it) The idea of autonomous long-running agents is a real thing. We talk about lots of things like /goal, /loop, and dynamic workflows, and what comes next. One interesting discussion was around how to make the agent run for longer while ensuring it stays on track. Most models today will struggle to coordinate work effectively. They sometimes pause the work early. Lots of mistakes happen, and lots of weird shortcuts (reward hacking). What helps is to be extremely clear about the goals it needs to achieve. To clarify the dos and don'ts clearly. Eliminate any assumptions you think the model would make. Deep expertise matters so much in this. But you can get far through careful planning. My formula currently is to use Opus 4.8 for planning carefully and GPT-5.5 for all executions. For the evaluator (via /goal), I am often using something like Deepseek or the latest models from Qwen, Kimi, and MiniMax, etc. Another insight we discussed to enforce goals is to provide strong visual cues for the agent to compare with. I found that a multimodal goal is a much stronger goal than a plain text one. And use agents to help you set clear goals. Watch here: https://academy.dair.ai/events/cmplo7v3b000e04l1pxprat4d

译DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作，会过早暂停、犯错或走捷径（reward hacking）。关键在于明确目标、消除假设，避免模型自行推断。他的实践公式：用Opus 4.8进行细致规划，GPT-5.5执行所有步骤，评估器（通过/goal）则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标，比纯文本目标更强，能更好地约束智能体。完整讨论已录制并免费开放。

karminski-牙医@karminski3 · 6月12日50

魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需要84G显存). 然后我刚看到了FlashMemory这个论文, 直接能把显存占用压到 1.3GB! 甚至输出效果不降反升! 哥们你骗兄弟可以, 骗自己就没意思了, 真的吗? 压缩后反而性能上升? 我赶紧看了论文细节: 咱们先复习一下传统做法: 模型每吐出一个字，都要把之前的几十万字重新看一遍(这就是全局注意力). FlashMemory 的做法是: 预测未来需要什么, 它内置了一个神经内存索引器（Neural Memory Indexer, 其实就是个小模型了），能够主动预判接下来生成内容时需要用到历史文本里的哪些片段. 然后预先准备好这些片段, 接下来只要做到命中率超高, 那么这个提升就绝对有效. 即它的假设是, KVCache里面的东西并不是生成每个字的时候全都需要的, 只需要按需提前加载即可. 很像做作业的时候, 把参考资料摊满桌子, 然后优化了一下就是把参考资料需要用到的部分直接拍照, 用的时候看照片就行了. 那么听上去很简单, 但实际的难点在于, 训练一个专用的索引器小模型, 需要把 DeepSeek-V4模型加载到显存里一起炼. 相当耗费算力. 于是这篇论文第二个亮点来了, 它搞了个解耦训练. 他们把这个索引器当成一个标准的"双编码器（Dual-encoder，类似做搜索推荐的模型）"来单独训练. 在这个过程中，根本不需要把庞大的 DeepSeek-V4 基座模型加载到显存中. 这让训练成本断崖式下降，且兼容标准的检索（Retrieval）训练框架. (简单来讲就是它是通用方法训练的, 通过query预测需要检索哪些长句子. 所以其实是个通用模型) 听上去靠谱, 那也只是显存占用少了, 怎么就性能还提高了呢? 答案是注意力降噪. 因为每次只提取和当前生成最相关的记忆块（Chunks）放入显存，模型在运算时就看不见那些无关的冗余信息了.天然地起到了一种"去噪"作用，这也是为什么显存占用少了，模型准确率反而略微提升的原因.官方测试在长文本评测集（如 LongBench-v2 等）上的准确率平均最终提升了 0.6%. (其实还有数据如何逐出显存和如何预测数据实现预加载, 这部分也很棒, 很有启发性. 建议看原论文, 篇幅原因写不下了) 论文地址: http://arxiv.org/abs/2606.09079 项目地址: http://github.com/libertywing/FlashMemory-Deepseek-V4 #FlashMemory #DeepSeekV4 #FlashMemoryDeepseekV4

译DeepSeek-V4支持1M上下文，显存约10GB（对比DeepSeek-V3.2约84GB）。FlashMemory论文进一步将显存压至1.3GB，并在LongBench-v2等长文本评测上准确率平均提升0.6%。核心是神经内存索引器（小模型），通过预测所需历史片段按需加载，实现注意力降噪。训练采用解耦双编码器架构，无需加载DeepSeek-V4基座模型，训练成本大幅下降。论文：arxiv.org/abs/2606.09079；项目：github.com/libertywing/FlashMemory-Deepseek-V4。

向阳乔木@vista8 · 6月11日29

“Anthropic 最近干了一件让 AI 研究者们后背发凉的事” 这么快就被AI学到了流行语料？！ Deepseek翻译重写居然用了这句。。。

宝玉@dotey · 6月11日57

DeepSeek 招 Agent Harness 研究员，能是世界范围内第一次招聘“Harness研究员” https://app.mokahr.com/su/mCyA8 ● 招聘岗位：Agent Harness 研究员（实习/全职） ● 工作性质：全职 | 实习 ● 工作地点：浙江·杭州市 / 北京市 ================================ 【团队使命】 Model + Harness = Agent 我们正在把 DeepSeek 的前沿模型能力，转化为领先的 Agent 产品。这其中除模型本身以外的所有工作，都属于 Harness 的范畴。你将加入 Harness 团队，与研究员、工程师、产品经理紧密协作，探索 Harness 领域的研究前沿，定义 DeepSeek 对 Harness 的理解。 ================================ 【主要职责】 - 前沿创新：与 Harness 团队的研究员与工程师深度沟通、紧密合作，共同定义和实现 Harness 领域基于模型能力的前沿创新，包括但不限于上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等领域。 - 深度适配：与模型训练团队的研究员与工程师深度沟通与合作，实现模型与 Harness 的共同进化，从 Harness 的角度实现 DeepSeek 的 Harness 与模型的深度适配。 - 评测构建：提出 Harness 领域的基准测试与评测方法，构建评测基准数据和制定数据标注策略，从 Harness 的角度研究并优化 Agent 在各领域的智能水平。 - 真实迭代：以真实世界的任务作为 Harness 研究的重要反馈源，设计相关数据与实验，持续迭代 Agent 能力在真实使用场景下的表现。 - 用户优化：基于团队收集到的用户反馈，从 Harness 的角度研究并优化为最广大用户解决真实场景问题的能力。 ================================ 【任职要求】 - 科研背景：硕士学历及以上，2年以上计算机科学或相关领域的科研经验，水平过硬，眼界广阔，有科研品味；在计算机科学领域具有含金量的论文发表（特别优秀候选人可放宽学历及年限要求）。 - 独立推进：面对问题能够独立分析并提出自己的 idea，具备从 0 到 1 推动研究的能力；能够快速将想法转化为可运行的原型，具备高效的实验迭代能力。 - 全栈开发：熟练使用 AI Agent 工具进行软件开发，在软件开发领域具有极强的学习能力；能够在 AI 辅助下，在没有直接经验的领域（如语言、技术、框架等）进行研究目的的编程工作。 - 重度用户：是 Agent 产品的高强度用户，对 Agent Harness 的开发和研究有极大的热情，对模型行为有品味有判断力；深度使用过代码类及通用类 Agent 产品，并将相关产品的使用融入到自己的工作和生活中。 - 知识储备：熟悉 LLM 以及 Agent 基本机制及其技术原理（包括 LLM API、KV Cache、Agent Loop、Tool Use、Reasoning、Planning、Skills、MCP、Memory、Subagent、Multi-Agent 等）；对 Prompt Engineering、Context Engineering、Harness Engineering 等课题有深入的理解。 - 沟通能力：具备良好的中文沟通能力。 ================================ 【加分项】 - AI 领域相关科研经验，或 AI 行业的研究员任职经验。 - 拥有个人开源作品，或对开源社区有深度贡献。 - 在计算机科学领域、编程领域、或数据科学领域获得过具有含金量的比赛奖项。 - 其它超乎常人的与此工作相关的才能。

译DeepSeek 开放 Agent Harness 研究员岗位（实习/全职），工作地点杭州/北京。团队使命为 “Model + Harness = Agent”，旨在将模型能力转化为 Agent 产品。职责涵盖：上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等前沿创新；实现模型与 Harness 的深度适配；构建 Harness 领域评测基准；基于真实任务与用户反馈迭代 Agent 能力。要求硕士以上学历、2年科研经验、全栈开发能力、Agent 产品重度用户，熟悉 LLM 及 Agent 机制（KV Cache、Tool Use、Reasoning、MCP 等）。

SemiAnalysis@SemiAnalysis_ · 6月11日63

DeepSeek is going heavy-asset. On June 9, the company posted an opening for IDC planning engineers, a role explicitly scoped to the design and delivery of MW-to-GW scale infrastructure. It follows April's hiring of data center O&M engineers in Ulanqab, Inner Mongolia. Taken together, this is the first time DeepSeek has fully shown its hand on owning compute infrastructure rather than just renting it.

译DeepSeek 正走向重资产模式。 6 月 9 日，该公司发布了 IDC 规划工程师的招聘信息，该职位明确涉及兆瓦级到吉瓦级基础设施的设计与交付。这紧随其 4 月在内蒙古乌兰察布招聘数据中心运维工程师。综合来看，这是 DeepSeek 首次完全展露其自持算力基础设施而非仅租赁的意图。

向阳乔木@vista8 · 6月11日32

对比 Fable 5，忽然觉得把大模型变便宜这件事儿真的很重要。真的要夸下DeepSeek，实在是便宜。每月用 v4 flash 翻译不少东西，一看账单才花几十块。把自己的 AI 雷达 Skill 变成网站，支持双语对照翻译和 AI 侧边栏对话。下周开源，本周先上网站，输入DeepSeek API能用 AI 功能，也能人工点评

译作者对比 Fable 5 后强调，把大模型变便宜至关重要。他称赞 DeepSeek 极低的成本——每月使用 v4 flash 翻译大量内容，账单仅几十元。作者将自己的 AI 雷达 Skill 做成网站，支持双语对照翻译和 AI 侧边栏对话。网站本周先上线（输入 DeepSeek API 即可使用 AI 功能，也可人工点评），下周将开源。

向阳乔木@vista8 · 6月10日47

文章提到DeepSeek目前满足于落后美国公司约 6 个月...... 这有点扯吧。中国每家大模型公司都受限于显卡和技术，不是不想追啊，谁想落后，谁安于落后。

译@NikoMcCarty 探访DeepSeek总部称，这家300人、2023年由梁文锋创立的公司脱胎于幻方，位于杭州无标识大楼，2025年1月发布R1模型，团队年轻，目前满足于落后美国约6个月，保持低调。Vista反驳：中国大模型公司并非安于落后，而是受限于显卡和技术条件。

OpenCode@opencode · 6月10日70

DeepSeek V4 Pro is now available in OpenCode Zen

译DeepSeek V4 Pro 现已在 OpenCode Zen 上线。

SemiAnalysis@SemiAnalysis_ · 6月9日65

DeepSeekV4 1.6T Day 0 to Day 43 Performance Over Time - Huawei, GB300 NVL72, MI355X, B200 Day 0 Inference Performance on InferenceX 100x performance improvement in 26 Days Cost per Million Tokens Huawei 950DT Inference Trace Analysis https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance

译DeepSeek V4 1.6T 第0天至第43天性能随时间变化 - 华为, GB300 NVL72, MI355X, B200 第0天在InferenceX上的推理性能 26天内100倍性能提升每百万Token成本华为950DT推理追踪分析 https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance

SiliconFlow@SiliconFlowAI · 6月9日61

V4-Pro (quality) + V4-Flash (speed) 2 lines of config to bring the Best price/perf DeepSeek combo in your terminal @goodhunt's CodeWhale — the terminal coding agent built for @deepseek_ai V4 — now includes SiliconFlow as a built-in provider🔥 Here's what you're actually getting: → Stream Reasoning: See the thinking, not just the answer. → Auto-Routing: Switches model + thinking depth by task complexity. → Zero Drift: A written Constitution ranks authority for each turn, keeps V4 oriented. → Self-Improving: V4 helped write its own harness, and as the harness improves, every session is stronger. Step-by-step guide 🧵👇

译硅基流动宣布，通过V4-Pro（质量）与V4-Flash（速度）两行配置，即可在终端获得DeepSeek V4的最佳性价比组合。专为DeepSeek V4构建的终端编码智能体CodeWhale现已内置SiliconFlow。CodeWhale具备流式推理（显示思考过程）、自动路由（根据任务复杂度切换模型与思考深度）、零漂移（通过书面宪法为每轮排序权威，保持V4定向）以及自我改进（V4协助编写框架，框架提升后每个会话更强大）等特性。

X.PIN@thexpin · 6月9日63

DeepSeek just posted a new job: IDC Design & Planning Engineer — covering the full lifecycle of data center buildouts, from site selection and layout to construction drawings and supporting infrastructure. Core role for whoever leads the early-stage technical work on a new facility. The listing is open to candidates with no minimum experience, with a separate senior track for 7+ years. The pitch: you'll help plan and build infrastructure scaling from MW to GW. Translation: DeepSeek, like OpenAI, is going to build its own data centers.

译DeepSeek 发布招聘，寻找 IDC 设计与规划工程师，负责数据中心全生命周期建设（选址、布局、施工图纸、支撑基础设施）。该职位是新建设施早期技术工作的核心角色，对候选人不设最低经验要求，另有 7 年以上高级岗。岗位描述将建设规模从 MW 级扩展到 GW 级。这意味着 DeepSeek 将像 OpenAI 一样自建数据中心。

AYi@AYi_AInotes · 6月9日37

梁文锋的DeepSeek的问世成功颠覆了什么？

X.PIN@thexpin · 6月8日58

DeepSeek just took its first bite out of the US enterprise market, hitting #1 on Ramp’s leaderboard for first-time corporate buyers. But it’s still early days. As of April, DeepSeek’s adoption rate is just 0.1%.

译DeepSeek刚刚首次涉足美国企业市场，在Ramp针对首次企业买家的排行榜上登顶。但为时尚早。截至4月，DeepSeek的采用率仅为0.1%。

数字生命卡兹克@Khazix0918 · 6月8日64

http://x.com/i/article/2063827681960235009 # 今年高考，我让12个顶级AI一起考了语文和数学，结果有点意外。一年一度的高考季又到了。从上上周开始，就有很多朋友来问我，今年高考还测不测大模型考试了。测，肯定测。但是肯定要跟去年要有一些区别对吧，去年我只测了部分的数学题，今年要是还这么玩，那就太无聊了。所以，我想了想，今年不如整个大一点的活，让所有的顶级AI一起，来全面的考一下语文和数学，这两个，全都考。在所有AI都在发力代码和Agent能力的情况下，究竟谁的语文能力最高，我还是非常好奇的。这次的参赛模型呢，基本市面上主流的大模型我也都拉来了，基本都是大家的旗舰模型。国外基本就是大家熟悉的御三家，Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。国内这边，我也尽量选了各家现在最能打的。千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3这些都有。让这些大模型，一起做了这两套卷子。而我肯定没有对语文和数学高考题目阅卷的能力，所以这次，我想了想，找身边的朋友们化了下缘，终于，也邀请到了4位有过类似阅卷经历的高中老师们，来跟我们一起整这个活。因为语文会稍微主观一点点，并且我们也不像真的高考一样有一些打分细则，所以我们邀请了3位语文老师来共同阅卷，让他们充分发挥，最后取平均分，这样会公平一点，所以最终是3位语文老师和1位数学老师。但是真的非常非常感谢几位老师，陪我们一直干到了凌晨，每个人几乎都认真批改了十二份的卷子。。。真的，无以为报。。。而卷子的挑选上，虽然也都是选用的全国一卷，这次会稍微有点特殊。因为语文这次比较可惜，等到晚上8点也没有等到完整版的卷子，所以只能最终使用中国考试官方发布的部分试题和参考答案上进行测试，满分大概是100分，最终分数会基于比例，再换算至150分。数学则是完整的真题试卷，就比较简单了。然后呢，为了保证这次AI高考的公平性，我们还是下了不少功夫做平衡的，限制了不少规则： 1. 使用API调用各个模型，都开thinking，不限制最长的token数，所有的工具调用都强行禁止，像什么代码推理、网页搜索什么的都关掉了。 2. 除了讯飞星火、百度，其他10家统一走OpenRouter调用，这样可以保证最公平公正。 3. 模型的输入，语文和数学都采取了通过LaTeX格式纯文本输入的方式。数学本来我们打算是分成多模态和纯文本赛道的，但是真题一出来之后，发现只有一道题，也就是立体几何那道题带图形。但题干其实就完全包含了这个图形的所有信息，没有必要，所以就改成了全部都通过LaTeX格式输入。虽然PDF转LaTeX格式这一步是AI做的，但是让它转了之后，我也同样写了一个LaTeX编译器的脚本，它会在左边放上原本的题目，右边是LaTeX数据编译后的最终题目，方便我和老师们进行核对，在准确性上，我们还是花了一些力气的。然后我们也开发了一个自己的考试脚本，我们只需要把题目丢进去，脚本就会自动调 API，自动让模型作答，自动把客观题判掉，主观题再送到我搭的在线阅卷平台里，让真人老师盲评。考试的Prompt按照下面的设置给模型。客观题只是单纯限制它的格式输出，方便我的脚本对客观题进行打分，不做任何的引导。主观题就直接把裸题给模型丢过去让他作答。以及在数学的填空题上面，也是让它根据数值打分，不是根据格式打分。因为填空题容易出现，在分数或者说有根号的情况下，会有不同的写法，同一个数值会有不同的写法。所以这次在脚本中也是有格外注意这一点。反正作答上我们尽量确保要公平、公平再公平，客观、客观再客观。最后，模型输出的所有的结果，我们又开发了一个阅卷网站，供我们的4位老师们进行阅卷和评分。老师使用自己的名字，登进去之后，看到的每份卷子上面只有一个代号。卷ABCD巴拉巴拉。这样的话，老师并不知道这道卷子是哪一个模型做的答，也会避免一些前置的刻板印象带来一些阅卷上的影响。老师可以随意选择一套卷子开始阅卷，然后里面的打分界面是这样的。直接在里面逐题批改。还可以写上自己的评语。真的，老师们特别辛苦，因为语文的卷子迟迟不出最终版，所以我们最后只能用部分版来考试，几位老师都生生的阅卷到晚上11点以后了。向老师们致敬。最后，在经历了将近12个小时的奋战之后，我们的12位大模型的考试分数，终于出炉了。他们，是这样的。这里我提前叠个甲，这个分数和排名，只是我们基于自己的体系做题出来并且由老师们主观评选出来的，而且只跟语文和数学做题有关，跟大家现在讨论的代码和Agnet能力无关，且可能会展示部分的人类偏好，排名与分数仅供娱乐参考，不代表任何指向。这里面有几个让我挺意外的地方。先看总分，第一名MiMo v2.5 Pro，256.3分。第二名Kimi k2.6，256.29分。差了0.01分。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的。要知道我们测评的语文卷子只有一道客观选择题，其他全是主观题，再加上有作文的存在，换算到实际评分上，可能就是某位语文老师在某道主观题上多给了1分的区别。往下看从第三名到第九名，Claude Opus 4.8，一直到GLM 5.1和Gemini 3.1 Pro并列的252.78，7个模型之间的差距仅仅在2分。可以说，至少在这两套高考卷子上的表现，前面这9个顶级的AI大模型模型几乎真的都拉不开差距了，分差极小。看完了总分，再来看看单科的成绩。你会发现，我们的语文状元在3位老师盲测中，由GLM5.1和Gemini 3.1 Pro共同摘夺桂冠，但是在数学上又有点偏科，而且几乎都是兄弟肩并肩，我的脑子里已经出现了中学班上某一个同学的样子了。。。反过来的例子也有，DeepSeek V4 Pro，和MiMo、ERNIE 5.1三家并列数学最高分，但语文又奇低。。。坦率的讲，这其实不太符合我对DeepSeek强世界知识的印象。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的发现DeepSeek的作文，属于拉完了。最后一位老师手比较松，虽然打出的分数是49分，但是在他过去的打分中，其实也不算高了。他们的评语其实也都非常的有意思。所以他们一改完卷，我也去认真看了看他们所有的评语。其实三位老师从给分上看，是能看出来他们有各自的偏好，但是在他们的评语有一个共同点。他们很在意高考作文的可评分结构。评语里会高频出现文体不清，文章结构不够清晰，观点不够清晰明确，论证不充分，时代关联不足等等评语。比如这一篇所有模型中得分最高的，由GLM 5.1写的作文，就有两位老师都提出了文章结构不够清晰的毛病。作文原文我也放在这里了，大家可以在评论区评一评。语文大概就是这样，我们再看看数学的得分明细。你会发现几乎所有的模型，其实没啥大的分差。我也从数学老师那里得到了非常积极的反馈，刚改完前面几个大题，他就在很兴奋的跟我说，发现正确率挺高的，基本都是满分。不过唯一一道让大家全军覆没的，就是填空题的最后一题。懂的人可以来说一说这是个什么难度，反正我不太懂= = 还有一个有意思的就是，我在让Opus 4.8跑数学最后一道大题的时候，他莫名其妙的卡死了很多很多轮。。。不太有意思的就是，我忘记它一直在重试，导致我OpenRouter上为数不多的余额全给耗光了。。。不过最后好歹还是搞出来了。以上，大概就是这次AI高考的结果，跟我最开始预期的，还真的是有点区别。我又做了一下各家的位置图，大家可以看看。真的是情理之中，又是预料之外。还挺好玩的。忽然又想起，2023年，我第一次拿高考题去测AI。当时是让ChatGPT去写高考作文。那会儿GPT-4还是最能打的，国产模型甚至都还没有几个。 2024年，国产也开始卷起来了，但还是有很多哭笑不得的翻车。去年2025那次测完，有几个模型的数学水平已经够上一本线了。今年是2026。四年了。也算是见证了那好多好多个模型的浮沉。我们自己也在变，23年的时候，只会写个作文，去年测试，还是人工复制粘贴到十几个大模型的官网里面去测试，不断的roll。今年，写批量脚本，写LaTeX转译，请高考阅卷老师们助阵，又为他们徒手开发了阅卷网站。我当然也可以随手测一下整个活，但是想了想，这几年，在这个选题上，我觉得还是要尽可能的保证客观和公平。因为，这是高考。这两个字，在中国，承载的东西太多也太厚重了。做阅卷网站的时候，我一直在纠结用什么主意象，最后选了凤凰花。六月的凤凰花开得正盛，每年都准时赶在这个节点上，送走一届又一届的人。最后。我想用最近一段对我非常有感触的话来结尾，它来自《燕云十六声》最近更新的青州地图的最后的任务，当一众学子即将毕业之时，文津馆文元林险生对大家说： “你们，自天南地北负笈而来，今日散去，又是去往天南地北，此后山长水远，很多人将不复相见了。此去，必有风霜凛冽之时，愿诸君，乾坤既大，草木尤青，本心择路，笃志前行。各位，一路顺风。

译今年高考，12个国内外旗舰大模型（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3）参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入，4位高中老师盲评阅卷。总分第一：MiMo v2.5 Pro（256.3分），第二Kimi k2.6（256.29分），仅差0.01分。语文最高：GLM5.1和Gemini 3.1 Pro并列；数学最高：DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分，数学主观题正确率高，唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。

SiliconFlow@SiliconFlowAI · 6月5日64

DeepSeek at #1 on @OpenRouter token share — 4 weeks running And we're proud to be powering a big slice of it You can find the complete @deepseek_ai lineup on @SiliconFlow: → V4 Pro & Flash ( best price/performance 🔥) → V3.2 · V3.2 Exp · V3.1 · V3.1 Terminus · V3 0324 · R1 0528

译DeepSeek 在 @OpenRouter 的 token 份额位列第一——已连续四周我们很自豪为其提供了很大一部分支持你可以在 @SiliconFlow 上找到完整的 @deepseek_ai 模型阵容： → V4 Pro & Flash（最佳性价比 🔥） → V3.2 · V3.2 Exp · V3.1 · V3.1 Terminus · V3 0324 · R1 0528

OpenRouter@OpenRouter · 6月4日67

DeepSeek has now topped our token share rankings 4 weeks in a row: https://openrouter.ai/rankings

译DeepSeek 现已连续四周在我们平台的 token 份额排行榜上位居第一: https://openrouter.ai/rankings

StepFun@StepFun_ai · 6月4日44

Great demo by @atomic_chat_hq. Step 3.7 Flash was designed for real-world agentic coding tasks — not just generating code fast, but keeping logic, visuals, and execution coherent across complex outputs. Love seeing builders test it in creative ways!

译阶跃星辰（StepFun）称其 Step 3.7 Flash 在与 DeepSeek V4-Flash 的物理编程测试中全面胜出。测试要求在不使用库的情况下，生成一个包含高尔顿板、旋转六边形弹球和同步节拍器三个场景的自包含 HTML5 canvas 动画，并实现真实物理。Step 3.7 Flash 输出 59.6k tokens（耗时 9分57秒），DeepSeek V4-Flash 输出 52.5k tokens（耗时 6分21秒）。尽管 DeepSeek 更快，但 StepFun 模型在物理模拟、视觉效果和逻辑渲染上均占优。主推文指出 Step 3.7 Flash 专为真实世界 agentic 编码任务设计，能保持复杂输出中逻辑、视觉和执行的一致性。

X.PIN@thexpin · 6月3日66

DeepSeek is launching a massive initial funding round! And the most surprising figure doesn't come from Tencent. According to Reuters, the company aims to raise ~$7.4B, bringing its post-money valuation to between $52B to $59B. This would mark the largest AI funding round in China to date. Among the investors: 🔹 Founder Liang Wenfeng contributes ~$3B personally 🔹 Tencent invests ~$1.5B 🔹 Battery manyfacturer CATL invests ~$0.7B as it expands into supplying power for AI data centers 🔹 NetEase, http://JD.com, and China's national AI fund are in talks to join 🔹 Hong Kong's IDG Capital and Cornerstone Capital are also among the intended investors The deal is expected to close in about two weeks. After operating as a self-funded research lab for years, DeepSeek is finally accepting outside capital, though Liang remains the largest single investor.

译DeepSeek启动首轮大规模融资，目标募资约74亿美元，投后估值520亿至590亿美元，创中国AI行业融资纪录。创始人梁文锋个人出资约30亿美元，腾讯投资约15亿美元，宁德时代投资约7亿美元（同时布局AI数据中心供电）。网易、京东、中国国家人工智能基金等也在洽谈中。交易预计两周内完成。长期自筹资金的DeepSeek首次接受外部资本，梁文锋仍是最大单一股东。（来源：Reuters报道）

OpenRouter@OpenRouter · 6月3日68

⚡ New provider drop: AI-Native Cloud from @digitalocean is now live on OpenRouter. High performance inference across popular open-weight models. #1 on output speed and latency for DeepSeek V3.2 by @ArtificialAnlys. See their stats and try the models: https://openrouter.ai/provider/digitalocean

译⚡ 新增服务商：DigitalOcean 的 AI-Native Cloud 现已在 OpenRouter 上线。提供高性能推理，覆盖热门开源权重模型。在 DeepSeek V3.2 的输出速度和延迟方面排名第一（数据来自 @ArtificialAnlys）。查看其数据并试用模型：https://openrouter.ai/provider/digitalocean

Berryxia.AI@berryxia · 6月2日65

有朋友问我这个翻译工具是什么。我用的视频翻译工具主要是 Memo 软件，它是一个免费开源的软件，功能非常强大。目前我日常主要在两个场景中使用转录+剪辑+翻译工具： 1. Memo 软件 (a) 场景：主要用于处理下载到本地的视频。 (b) 流程：这软件可以下载了 Whisper 的本地大模型，下载完视频后先进行转录，不再烧Token。 (c) 翻译：虽然也可以用本地模型翻译，但速度和效果可能没有 API 快，所以我接入了 DeepSeek-V4 -Flash 来进行翻译，价格便宜又好用。 (d) 体验：Memo就可以完成烧录字幕，编辑，导出整个片子的剪辑其实都挺快的，但在 X 上发布时速度贼慢，搞了一整晚才上传完毕。 2. 沉浸式翻译 (a) 场景：主要用于网页、YouTube 视频以及一些图书的翻译。 (b) 优点：它能保持比较不错的格式，方便后面做分享。我觉得这两个工具都挺好的，自由度比较高。你可以接入自己订阅的 API 模型，自由切换，非常方便。此外，Memo的这个时间戳总结关键内容的功能还挺不错的。

译推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件（免费开源）：用于处理本地视频。流程为下载视频后，使用Whisper本地模型进行转录以节省成本，再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出，但在X平台上传速度慢。2. 沉浸式翻译：主要用于网页、YouTube视频及图书翻译，优点是格式保持较好。两者均支持接入用户自定义的API模型。

Berryxia.AI@berryxia · 6月1日54

兄弟们，这数据太离谱了！智谱直接遥遥领先DeepSeek！我们国内前5家纯LLM公司总估值已经高达2260亿美元，大概是Anthropic最新一轮估值的四分之一。但它们的收入运行率，只有Anthropic的1/40。国内开放权重模型一边拿大量VC资金，一边在真实产生收入。这和海外主流的闭源高定价模式，走的是完全不同的路。这个估值和收入之间的巨大差距，把AI行业当前最核心的矛盾摆在了桌面上：市场到底在为AI的什么部分支付溢价？当模型能力被快速商品化、价格被大幅拉低之后，估值逻辑要怎么变？是继续只盯短期收入，还是要认真评估它对整个行业价格体系的破坏力？你们怎么看？国内这种低价+开放权重的打法，只是短期现象，还是会成为未来全球AI竞争的主流模式？

译国内五家纯LLM公司的总估值已高达2260亿美元，约Anthropic最新一轮估值的四分之一，但其收入运行率仅为Anthropic的四十分之一。这一数据凸显了国内厂商普遍采用的“低价+开放权重”融资与商业模式，与海外主流的闭源高定价模式形成鲜明对比。该现象将AI行业的核心矛盾——市场究竟为何为模型支付溢价以及估值逻辑在模型能力商品化后如何演变——直接摆上台面。

OpenCode@opencode · 6月1日63

DeepSeek V4 Flash is now available in OpenCode Zen

译DeepSeek V4 Flash 现已在 OpenCode Zen 上线。

宝玉@dotey · 5月31日51

Kimi Code、DeepSeek Harness 最好尽早做 GUI，尽早支持好办公任务，做通用 Agent。卷 TUI 卷 Coding 没前途，当然 Coding 是基础能力，如果 Coding 都做不好其他任务也不会做得好。

译推文呼吁 Kimi Code、DeepSeek Harness 等 AI 编程工具应尽早提供图形界面（GUI），并拓展对通用办公任务的支持，以进化为通用 Agent。作者认为，仅在终端界面（TUI）和单一编程能力上竞争没有前途，尽管编程是核心基础。同时，推文引用并关注了另一个新选手 Grok Build，指出其更新迅速、潜力较大。

Berryxia.AI@berryxia · 5月29日59

http://x.com/i/article/2044264645683539968 # 「马嘉祺」和Anthropic让全网知道的技术问题，这家初创公司的CEO在洗澡的时候就解决了。大家还在拼命把Prompt写得文雅、专业、结构严密，以为这样模型就会更听话、输出更准。结果正好相反。从一个二次元AI弹幕产品里冒出来的FaceMind研究，直接用100种语言、四大核心任务的实验证明：语义不变的前提下，用预训练语料里出现频率更高的表达方式，不管是Prompting还是Fine-tuning，模型表现都会显著提升。这就是Adam's Law（文本频率定律）。后面详细展开说。它把当前数据工程的“质量-规模-难度”铁三角直接补上了缺失的第四维度——频率。 Anthropic的Claude Opus 4.7用新分词器间接验证了这一点，DeepSeek、Qwen、GPT-4o、o1这些模型在实际使用中也默默吃这一套。高频表达不是“简化”，而是让模型在它最熟悉的概率空间里干活，效果直接起飞。 ## 在展会上遇到一个让人上头的二次元小产品今年4月份去参加 Let‘s Vision 展会，在一堆 XR 眼镜和空间计算的展台中间，我被一个画风完全不一样的摊位吸引了，屏幕上跑着游戏，旁边飘着一层二次元角色的 AI 弹幕，角色还在根据游戏画面实时吐槽。这个产品叫叠叠社（Danmaku Chan）。简单说就是一个「AI 二次元伴侣」。它会以弹幕的形式悬浮在你的屏幕上层，不管你在刷网页、看视频还是打游戏，都会有一个二次元角色在旁边陪着你，根据你屏幕上的内容实时做出反应、发弹幕、跟你互动。你可以自定义角色的性格和人设，它的回应是上下文感知的——它「看得懂」你屏幕上在发生什么。我当时还挺好奇的，就跟摊位上的小姐姐聊了一阵。然后脸皮厚的香鱼直接坐下来玩了半小时的鬼泣。怎么说呢，打鬼泣的时候旁边一直有个二次元角色在弹幕里给你加油助威、吐槽你被 boss 打飞、你打出连击的时候还会发「好帅！」，这种体验确实挺上头的。 AI 的反应速度和准确度也比我预想的好不少，不像是那种答非所问的套壳聊天机器人。后来我查了一下，叠叠社背后的公司叫 FaceMind Corporation（上海脸谱心智智能科技），创始人是 Adam 博士（Hongyuan Adam Lu），港中文博士毕业，曾在微软亚洲研究院负责模型预训练，拿过 EACL Outstanding Paper Award 一作，还当过 ACL、EMNLP 这些 NLP 顶会的领域主席。这个学术背景，做一个二次元弹幕产品？我当时就觉得这团队有点意思。 ## 叠叠社背后的秘密：一条被忽视的语言规律回去之后我就去查了这个团队，然后发现了一个比产品本身更有意思的东西。叠叠社的 AI 对话之所以反应又快又准，跟一项 FaceMind 自己做的基础研究有很深的关系。 Adam 博士联合香港中文大学发了一篇论文，提出了一个叫 Adam’s Law 的发现——文本频率定律（Textual Frequency Law）。核心观点一句话就能说清楚：语义不变的前提下，你用预训练语料里出现频率更高的那种说法，模型在 Prompting 和 Fine-tuning 上的表现就会显著提升。这篇论文并不是第一次触碰这个问题。其实早在 2025 年，脸谱心智就已经在顶级学术会议 EMNLP 主会上作为第一作者、第一机构发表了名为 SLoW 的先驱性论文，首次系统性揭示了大模型的低频 token 退化现象，并提出了轻量级的词典 Prompting 方案——无需额外训练，插入一个词典就能显著缓解问题。 2026 年 4 月 2 日，Adam's Law（文本频率定律）作为后续深化研究正式公开预印版，随后被顶级学术会议 ACL 2026 收录。叠叠社在角色对话的训练和 Prompt 设计中，就应用了这套理论。同样是让 AI 角色对屏幕内容做反应，用更「常见」的表达方式去组织指令和训练数据，模型的理解力和反应质量就是比用精雕细琢的文案好。你可以把它想象成跟一个在中国生活了二十年的外国人聊天——你用成语他可能愣半天，但换成日常口语，他立马就明白了。你说的是同一个意思，但他的反应完全不一样。这就解释了为什么叠叠社的角色互动感觉比同类产品「灵」很多——不是模型本身更强，而是跟模型「说话」的方式更对路。我觉得这个发现比产品本身还有意思，于是把论文翻出来完整读了一遍。读完之后我发现，这个东西的影响范围，远不止一个二次元弹幕应用。学术先行，工业验证——像 DiT 之于 Sora 在聊 Prompt 工程和数据工程之前，我想先说一个最近才在业界引发讨论的背景。 2026 年 5 月 9 日，一场因「马嘉祺」掀起的技术讨论，让「大模型低频 token 退化」这个学术圈早已在研究的话题，第一次被大众视野广泛关注。但如果你去追源头，会发现这件事其实已经有了明确的先行者和跟随验证者。脸谱心智是最早的研究者：2025 年 EMNLP 主会论文（SLoW）发现问题、提出方案； 2026 年 4 月 Adam's Law 进一步量化规律，被 ACL 2026 收录。 Anthropic 是最早的生产级验证者：2026 年 4 月下旬，Claude Opus 4.7 正式上线，官方迁移指南写明：「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」业界普遍解读为 Anthropic 缩减或重组了低频退化 token——与脸谱心智的减法策略高度一致，时间比脸谱心智晚了将近一年。这让人想到 DiT（扩散 Transformer）与 Sora 的关系，学术界率先提出架构，工业界在商业产品中完成大规模生产级验证。脸谱心智之于 Anthropic，就是这样的关系。 ## 你精心打磨的 Prompt，模型可能根本不领情过去两年，AI 行业在一件事上砸了天文数字的钱：让数据变得更「好」。更干净的标注，更严格的筛选，更复杂的去重管线。 Prompt 工程师们则在另一端较劲，打磨措辞、设计思维链、雕琢每一个指令的语法结构。所有人都在追求同一件事：说得更「准确」，写得更「高级」。但 Adam‘s Law 用横跨 100 种语言、覆盖四大核心任务的实验，证明了一件让人有点不舒服的事实：大语言模型的表现，和你说的话「对不对」关系没那么大，和你说的话「常不常见」关系大得多。这个发现之所以让人不舒服，是因为它直接动摇了 AI 工程界几乎所有人默认的一个前提。 ## 行业正在优化的三个维度，和一个被集体忽略的。当前大模型训练的主流思路，围绕三个核心变量旋转：维度核心逻辑代表工作数据质量垃圾进垃圾出，高质量标注才有好模型LIMA、Alpaca数据规模越多越好，Scaling Law 说了算Chinchilla、LLaMA训练难度从易到难，课程学习提升泛化能力Curriculum Learning 这三个维度各有各的道理，也各有各的研究山头。它们构成了今天数据工程的「铁三角」。但问题来了：如果你已经有了高质量、大规模、按难度排好序的数据，模型的表现就到顶了吗？ Adam‘s Law 的回答是：远没有。核心论点：数据工程存在被集体忽视的第四个维度：文本频率。质量、规模、难度构成的「铁三角」并不完整。 ## 「常见」不等于「简单」，这是最关键的区分。读到这里，你很可能在想：这不就是说大白话吗？用简单的句子，降低 Flesch-Kincaid 可读性等级？这恰恰是最容易掉进去的思维陷阱。论文做了一个很硬的验证：他们计算了文本频率和多种传统复杂度指标之间的相关性，包括句法树深度、Flesch-Kincaid 可读性等级等。结果是，Pearson 相关系数接近 0。换个说法：一句话可以语法复杂、用词专业，但同时是高频的，因为这种表达方式在互联网上大量出现。反过来，一句话可以很短很简单，但用了一个罕见的搭配，在模型眼里它就是「生僻」的。回到叠叠社的例子。你给 AI 角色设定一条指令：「当用户在游戏中遭遇挫败性事件时，以富有同理心的方式进行情感支持。」这句话语法没毛病，意思很清楚，但它的表达方式在互联网上几乎不会出现。换成「用户打游戏被打死了，安慰一下他」，意思完全一样，但这种说法模型在训练时见过无数次，理解起来毫无压力。频率是一个独立于「难度」「质量」「长度」之外的全新维度。它描述的不是文本好不好，而是模型见过多少次。 ## 四大任务，100 种语言：数据说了什么？理论再漂亮，得拿实验说话。Adam‘s Law 的验证覆盖面在 NLP 领域算得上少见的全面。先看数学推理。研究团队在 GSM8K 数据集上测了三个模型，同一道数学题，同一个意思的 Prompt，只是换了一种更高频的表达方式：题目没变，数字没变，逻辑关系没变，仅仅是换了一种说法，准确率平均涨了 8 个百分点。不是微调，不是换模型，就是改了几个词。再看机器翻译。这组实验的规模更吓人，在 DeepSeek-V3 上测了 100 种语言到英语的翻译，99/100 种语言对在 BLEU 指标上获得提升，100/100 在 chrF 指标上全部提升，最高单语言对 BLEU 涨了超过 5 个点。在机器翻译领域，1 个 BLEU 点的提升就算有统计显著性了，5 个点是很大的跳跃。更有意思的是频率-性能相关分析。在老挝语、缅甸语、卡比尔语等语言上，频率和翻译质量的 Pearson 相关系数达到了 1.0——完美正相关。频率排序和翻译质量排序完全一致，频率越高翻译越好，没有例外。常识推理和 Agent 工具调用的方向也一样，高频文本分区的表现一致地优于低频分区。三个模型，四个任务，100 种语言，箭头全都指向同一个方向。 ## 最反直觉的是：原始标注数据不是最优数据如果前面的实验只是让人惊讶，接下来这个发现就是直接挑战信仰了。在微调实验中，研究团队做了一件很「冒犯」的事：他们把原始标注数据（ground truth）用高频表达改写了一遍，然后用改写版数据去训练模型。发现：高频改写版数据训练出的模型，效果超过了用原始标注数据训练的模型。在 Kabuverdianu 语言对上，改写版 BLEU 为 5.25，原始数据 BLEU 为 4.68，相对提升 +12.17%。「原始数据就是最好的数据」这个行业默认假设，被实验数据打了脸。你想想看，每个做微调的团队，花大量时间和金钱标注数据、清洗数据、筛选数据。他们从来没有想过，把这些数据「翻译」成模型更熟悉的表达方式，效果可能更好。就像一个老师备课备了半天高级教案，结果发现，用学生最熟悉的语言讲一遍，他们学得更快。那怎么知道哪种表达频率更高呢？尤其是面对 GPT-4、DeepSeek 这些闭源模型，你根本看不到它们的训练数据。论文提出了一个叫 TFD（Textual Frequency Distillation，文本频率蒸馏）的方法：让模型去续写故事。故事续写是个开放式任务，模型不会被特定提示引导，而是自然地用它最「顺手」的词汇和句式来写。收集这些输出，统计里面不同表达的出现频率，就能反推模型内部的频率偏好。你不需要知道它读过什么书，只需要让它自由聊五分钟，从用词习惯就能猜个八九不离十。 ## 把频率变成课表：一个排序就值 30% 的提升有了频率估算工具，下一步自然是把它塞进训练流程里。论文提出的做法叫 CTFT（Curriculum Textual Frequency Training）—按文本的句子频率从低到高排列训练数据，让模型先学「生僻」的表达，再学「常见」的。这借鉴了课程学习的思路，但排序的维度从「难度」换成了「频率」。为什么是从低频到高频，而不是反过来？你可以这样理解：先让模型接触那些它不太「熟」的表达方式，强迫它建立更稳健的语义理解；然后用高频数据收束能力，让它在最熟悉的概率空间里巩固。就像学外语，先啃生词再大量阅读日常文章，比一直泡在简单材料里进步快得多。效果？在 Pangasinan 语言对上，CTFT 带来了 +29.96% 的 BLEU 提升。论文实验的全部 8/8 个评估指标上，CTFT 都拿到了最优。就改了个训练数据的排列顺序。 ## 不只是实验碰巧，背后有数学上的必然到这里你可能会问：这是不是只是某些数据集上的巧合？论文在附录中给了完整的理论证明。核心逻辑是这样的：大语言模型靠最大似然估计训练，模型在预训练阶段读了海量文本，学的是词与词之间的条件概率分布。一个表达方式在训练语料中出现越多，模型对它的概率估计就越准确，置信度就越高。你用高频表达跟它说话，等于在它最熟练的概率空间里操作，输出自然更稳、更可靠。论文从 Zipf 定律出发，证明了高频句子在交叉熵损失函数中产生更低的负对数似然损失。翻译成人话：模型处理高频文本的时候，内部表示更精确，犯错的空间更小。有意思的是，人脑也有类似的特性。神经语言学研究（Desai et al., 2020; Alexandrov et al., 2011）发现，高频词汇在人类大脑中激发更强的神经响应，反应更快，理解更准。人脑如此，用海量文本喂出来的语言模型也如此。「说模型听得懂的话」，不是修辞，是神经网络层面的物理现实。 Anthropic 的跟进，让这件事有了工业级背书就在 Adam's Law 发表后不到一个月，一件事给这套理论加了一个意想不到的注脚。 2026 年 4 月下旬，Anthropic 发布 Claude Opus 4.7，官方迁移说明写道：「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」社区开发者实测发现，同样文本在新版中 token 消耗增加约 1.20–1.47 倍（英文/代码），而 CJK 字符仅增加约 1.01 倍。业界普遍解读是：Anthropic 缩减或重组了词表，剔除了低频、容易退化的 token，与脸谱心智从 2025 年 EMNLP 开始倡导的「减法策略」方向完全一致，时间比脸谱心智晚了将近一年。学术先行一年，工业落地验证。就像 DiT 架构和 Sora 的关系——研究者先在论文里验证路线，商业公司用产品规模证明其价值。 ## 从一个弹幕产品到数据工程的第四维度回过头来看叠叠社这个产品，就会觉得有意思。一个港中文博士、微软亚研院出来的 NLP 研究者，做了一个二次元弹幕伴侣。乍一看画风不搭，但仔细想想，这恰恰是 Adam‘s Law 最好的试验场——实时互动场景对模型的反应速度和理解准确度要求极高，你打游戏被 boss 秒了，AI 角色得在半秒内给出一句贴切的吐槽，而不是两秒后蹦出一句文不对题的客套话。高频表达在这种场景里的优势被放到了最大：同样的安慰、吐槽、欢呼，用模型最熟悉的说法来组织，反应就是更快、更准、更有人味。而论文的影响范围远不止于此。如果文本频率确实是影响 LLM 表现的基础性变量，那么当前整个数据工程的工作流都需要被重新审视。数据清洗时，要不要把低频表达替换成高频同义表达？数据排序时，频率维度是否应该和难度维度一起考虑？Prompt 优化时，是不是应该先查一下这个表达在互联网上有多常见？这些问题，在 Adam‘s Law 之前，几乎没人想过要问。而当 Anthropic 用 Claude Opus 4.7 的 tokenizer 改造间接证明了这条路线的正确性，学术圈的先行探索也就有了最好的工业级注脚。「数据质量」「数据规模」「训练难度」，这三个词你在每一篇 AI 论文的 Related Work 里都能看到。但「文本频率」？在这篇论文之前，它甚至不在大多数研究者的词汇表里。在 Let‘s Vision 展会上玩了半小时鬼泣之后，我以为自己只是发现了一个有趣的二次元产品。结果顺藤摸瓜，摸到了一篇可能改变大模型数据工程范式的论文。所以下次写 Prompt 的时候，别急着堆术语、秀复杂句式。先问自己一个问题：这句话，是我想说的方式，还是模型最熟的方式？大模型不挑你说得好不好。它只挑你说得熟悉不熟悉。你说它熟的话，它就给你靠谱的答案。你说它没怎么见过的话，它也只能用它没什么把握的概率去猜。跟人打交道是这样，跟模型打交道也是这样。叠叠社：nijigen.com.cn · 论文：arxiv.org/abs/2604.02176 · 代码：GitHub

译脸谱心智（FaceMind）的研究发现，在保持语义不变的前提下，使用大模型预训练语料中出现频率更高的表达方式，能显著提升模型表现。该规律被命名为Adam’s Law（文本频率定律）。核心实验显示：在数学推理任务中，仅换用高频表述可使准确率平均提升；在机器翻译任务中，使用DeepSeek-V3测试100种语言到英语的翻译，绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器，被业界视为对低频token退化问题的间接验证。

ginobefun@hongming731 · 5月29日50

刚看了下 BestBlogs 最近的模型消耗，有点惊喜。一万多个订阅源，每天处理接近 5000 万 token，用 deepseek-v4-flash 跑低优先级内容，deepseek-v4-pro 跑高优先级内容，整体一天大概 20 多块钱。关键是缓存命中率很高，成本被压得非常舒服。目前看下来，deepseek 可能是我用过性价比最高的一组模型了。之前用 Gemini，成本压力明显大很多。

译作者使用DeepSeek V4 Flash处理低优先级内容，DeepSeek V4 Pro处理高优先级内容，日均处理接近5000万token，整体一天成本约20元人民币。关键在于缓存命中率很高，显著降低了使用成本。相比此前使用的Gemini，DeepSeek的性价比表现更为突出。

X.PIN@thexpin · 5月28日77

Exclusive: DeepSeek plans to file for a STAR Market (A-share) IPO immediately after closing its current ~$50B (¥350B) funding round. Source: a large fund manager involved in this round.

译独家：DeepSeek计划在完成当前约500亿美元（3500亿人民币）融资轮后，立即申请科创板（A股）IPO。来源：参与本轮融资的一位大型基金经理。

Rohan Paul@rohanpaul_ai · 5月28日63

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/chinas-huawei-reveals-a-new-chip 🗞️ China’s Huawei reveals a new chip design breakthrough which can close its gap with TSMC and Intel 🗞️ New Alibaba + Nanjing Univ paper shows standard LLMs can handle very long context faster by making attention selectively sparse. 🗞️ Deep Dive on DeepSeek: Their real story is not cheaper chatbots, but architecture that turns hardware scarcity into strategy. 🗞️ New Meta + Stanford + Illinois survey paper argues that AI agents work better when code becomes their main working layer. 🗞️ Anthropic billionaire cofounder backs Pope Leo, warning that AI job losses will create a historic moral crisis 🗞️ xAI just Dropped ‘Grok Build’: The Terminal-Native Agentic AI for all all SuperGrok and X Premium+ users.

译华为披露新的芯片设计突破，旨在缩小与台积电及英特尔的差距。阿里巴巴与南京大学的论文提出，标准大语言模型可通过选择性稀疏注意力机制更高效地处理长上下文。对DeepSeek的深度分析指出，其核心价值并非提供更廉价的聊天机器人，而是将硬件稀缺性转化为战略优势的架构设计。Meta、斯坦福及伊利诺伊大学的调查论文主张，当代码成为AI智能体的主要工作层时，其效能会更高。Anthropic联合创始人警示AI导致的失业将引发历史性道德危机。xAI为SuperGrok与X Premium+用户推出了终端原生的智能体AI产品“Grok Build”。

Chubby♨️@kimmonismus · 5月27日65

DeepSeek just made its 75% price cut on V4-Pro permanent. Xiaomi's MiMo slashed V2.5 pricing by up to 99%, effective today. Most coverage frames this as a price war. The more interesting part is the engineering that makes these numbers sustainable. DeepSeek's V4 paper describes a *hybrid attention architecture* that attacks the core bottleneck of long-context inference: the KV cache. Traditional transformers store key-value pairs for every token in the context. At 1 million tokens, this cache alone can fill an entire GPU's memory. V4 introduces two interleaved attention types. Compressed Sparse Attention (CSA) compresses every 4 tokens into a single KV entry, then selects only the top-k most relevant compressed blocks per query. Heavily Compressed Attention (HCA) goes further, compressing 128 tokens into one entry and running dense attention over the result. The compressed sequence is short enough that dense attention stays cheap. V4-Pro's KV cache at 1M tokens is 10% (!!) of V3.2's. Single-token inference FLOPs drop to 27% (!!). The model has 1.6 trillion total parameters but only activates 49 billion per token through Mixture-of-Experts routing, the knowledge capacity of a massive model at the compute cost of one thirty times smaller. MiMo's approach is different but lands in the same place. Xiaomi's team implemented Sliding Window Attention via SGLang HiCache, reducing KV cache data transfer across GPU memory, CPU memory, and SSD to roughly 1/7 (!!) of previous volume. Cacheable tokens expanded by 5x (!!). Combined with expert parallelism optimization and input length bucketing, per-token serving cost dropped enough to make permanent pricing at these levels viable. V4-Pro now sits at $0.87 per million output tokens. MiMo V2.5-Pro at roughly $3/M output, with Flash variants far below that. A year ago, sub-dollar output pricing meant you were using a small distilled model with real capability tradeoffs. These are frontier-class reasoners with million-token context windows. Both companies can commit to permanent cuts because the reductions come from the architecture itself. When your attention mechanism physically processes fewer FLOPs per token and your cache occupies a fraction of the memory, the cost to serve is structurally lower. The price follows the cost curve.

译DeepSeek V4-Pro宣布永久降价75%，小米MiMo V2.5降价高达99%。此次降价核心是架构革新带来的成本结构性降低。DeepSeek V4通过混合注意力架构大幅压缩了长上下文推理的KV缓存，使其在100万token时仅为V3.2的10%，单token推理FLOPs降至27%。小米MiMo团队则通过SGLang HiCache实现滑动窗口注意力，将KV缓存跨内存数据传输量减少至约1/7。这些架构优化使V4-Pro定价降至$0.87/百万输出token，MiMo V2.5-Pro约为$3/百万，两者均为拥有百万上下文窗口的前沿级模型。降价源于推理与缓存成本的实质性下降。

Rohan Paul@rohanpaul_ai · 5月26日50

Bloomberg: China is now treating its strongest private-sector AI researchers as strategic assets, with top Alibaba and DeepSeek staff reportedly needing state approval before overseas travel. The policy pulls company engineers closer to state security rules, treating some employees as holders of sensitive national technology. --- bloomberg .com/news/articles/2026-05-26/china-expands-travel-curbs-to-top-ai-talent-at-private-firms

译Bloomberg：中国正将最强私营部门AI研究人员视为战略资产，据报道，阿里巴巴和DeepSeek的顶尖员工出国旅行前需获得国家批准。该政策将公司工程师更紧密地纳入国家安全规则，将部分员工视为敏感国家技术的持有者。 --- bloomberg .com/news/articles/2026-05-26/china-expands-travel-curbs-to-top-ai-talent-at-private-firms

Nathan Lambert@natolambert · 5月26日58

China begins restricting travel for top AI talent at key orgs (was previously rumored for deepseek only).

译中国开始限制关键机构顶尖AI人才出境（此前仅传闻针对DeepSeek）。

meng shao@shao__meng · 5月25日40

DeepSeek 真的是充满了长期主义和大道至简的代表了国内各大厂和 AI 小龙们，各种 Coding Plan、Token Plan 价格设计一个比一个复杂，又是限购又是拉新返利，折腾了大半年，其实真的不如一个足够低价的 API 价格，和低到几乎可忽略的缓存命中价格。把模型训练和推理的底层技术做扎实、不追求短期业绩表现、为长期的 DeepSeek Code 和 Harness 积累更多用户使用和反馈数据。刚刚看到 @bearliu 发的 AI 界对 Anthropic 的态度，那只每个人都讨厌但又害怕的黄鼠狼，可谓天下苦 A 厂久已，不管 DeepSeek 是不是那只大鹅，都希望能把这只黄鼠狼尽快甩飞！

译推文赞扬 DeepSeek 践行长期主义与大道至简，指出其通过提供足够低价的 API 及几乎可忽略的缓存命中价格来赢得用户，而非像国内其他厂商那样设计复杂的套餐与促销策略。这被视作将底层技术做扎实、积累长期用户反馈的体现。推文还引用观点，将 Anthropic 描述为“每个人都讨厌但又害怕的黄鼠狼”，并希望 DeepSeek 能改变这一行业格局。

Rohan Paul@rohanpaul_ai · 5月25日62

Reuters: DeepSeek just made its V4-Pro price cut permanent, pushing the price down to 25% of its original API cost. DeepSeek has not confirmed that better Ascend 950 supply caused the permanent cut, but the timing points to a cost curve moving downward as China’s AI stack shifts from restricted Nvidia chips toward Huawei hardware. --- reuters. com/world/china/chinas-deepseek-make-permanent-75-price-cut-flagship-v4pro-ai-model-2026-05-23/

译路透社报道，深度求索宣布其旗舰模型V4-Pro的API价格永久下调75%，但未直接确认这是由于华为昇腾芯片供应改善。报道分析，此举时机恰逢中国AI算力栈从受限的Nvidia芯片向华为昇腾硬件迁移带来的成本下降。据引述分析，DeepSeek的核心战略是通过架构创新（如MoE、DSA，以及V4-Pro的CSA/HCA技术）大幅降低对高端HBM GPU的依赖，其技术指标显示1M-token推理FLOPs和KV cache显著降低。其目标在于优化模型，使更多样的硬件（如LPDDR、NAND、定制ASIC）能够运行前沿AI，以适应不同的工业基础。

Berryxia.AI@berryxia · 5月25日48

当初美国最后悔没有封杀的中国这家公司，没有之一。中国古话说得好：拳怕少壮啊！一个中国小团队，面对美国GPU全面禁运，却没有选择“堆算力”，而是花了两年时间，发明了一堆连OpenAI都没想到的黑科技。他们把KV Cache压缩到原来的1/10，让1M上下文只需要5.48GB显存。他们把MoE玩到极致，把训练成本砍掉40-50%。他们甚至发明了“Engram”模块，用LPDDR内存直接换算力…… 而这一切，不是为了今天卖几个coding plan，而是为了悄悄打造一个10万亿美元的AI硬件新生态，顺便让自己估值冲到1T美元。他们叫DeepSeek。故事得从2024年开始讲。那时全世界都在卷dense模型、卷多模态、卷语音视频。 DeepSeek却反其道而行：他们死磕Mixture of Experts（MoE），一个公认极难训稳的架构。他们从第一性原理出发，发明了GRPO算法，取代了行业通用的PPO。他们提出RLVR（Reinforcement Learning from Verified Rewards），让模型真正学会“用正确答案奖励自己”。他们搞出Multi Token Prediction做推测解码，把训练信号密度直接拉满。更狠的是，他们把注意力机制彻底重构： - MLA（V2时期）→ KV Cache直接砍90% - DSA/CSA/HCA（V3/V4）→ 长上下文下计算量几乎不增长 - mHC（Manifold-Constrained Hyper-Connections）（2025.12）→ 让27B模型在BIG-Bench Hard上直接+7.2分，训练开销却只多了6.7% 最骚的是Engram（2026 Q1）： Transformer本来没有原生的“知识查找”机制，只能靠暴力计算模拟检索。 DeepSeek直接把经典N-gram升级成O(1)哈希查找，用内存换算力—LPDDR一查就行，比再跑一遍Transformer层便宜太多了。这些创新加在一起，产生了核聚变般的效果：用KV Cache计算器测1M上下文： - DeepSeek V4 Pro → 仅需5.48GB HBM - GLM5（已抄MLA+DSA）→ 60GB - Qwen3-235B → 89GB 差距大到离谱。这意味着什么？ 1️⃣意味着长时序Agent终于能经济地跑了，KV Cache可以轻松offload到SSD，重新计算成本暴降。 2️⃣意味着中国本来就丰富的NAND（YMTC）和LPDDR（CXMT）突然成了AI基础设施的战略级资源。 3️⃣意味着HBM这个最稀缺、最难造的资源，需求被大幅缓解，连GPU/ASIC的压力都跟着降低。 DeepSeek的CEO梁文峰，看的从来不是今天卖订阅的几亿美元。他看的是：用算法创新，把中国记忆体、ASIC、CPU、网络芯片全部盘活，让整个硬件生态不再被CUDA和HBM卡脖子。他们甚至开源了TileLang，让内核代码一次编写、多硬件运行，直接打破CUDA护城河。这才是真正的“英雄之旅”： - 面对资源短缺，他们没有抱怨，而是把短缺变成了创新燃料。 - 他们不急着赚钱，而是先把地基打成别人抄都抄不完的壁垒。 - 他们把开源当武器，把“AGI for everyone”写进了战略。而现在，整个行业都在吃他们两年前埋下的果实： ZAI的GLM抄了MLA+DSA，Moonshot的Kimi也承认架构基于DeepSeek…… DeepSeek今天做的，明天就会变成全行业的标配。你今晚就可以感受到这个长局的威力。打开DeepSeek官网，试试他们的V4 Pro——1M上下文长持缓存价格不到Sonnet 4.6的3%，还能挂好几个小时。这不是营销，这是他们用真实技术堆出来的降维打击。整个框架100%开源，论文、代码思路、架构细节全在arXiv上。 Big Tech靠封锁和闭源赚快钱，DeepSeek却在用开源+算法，把整个AI硬件的未来重新洗牌。而你，现在已经知道了。

译DeepSeek面对GPU禁运，通过算法创新实现突围。核心成果包括：将KV Cache压缩至1/10，使1M上下文仅需5.48GB HBM；将MoE训练成本降低40-50%。其推出的Engram模块可利用LPDDR内存以O(1)查找换取算力。技术突破还涵盖MLA（KV Cache削减90%）、DSA/CSA/HCA等注意力机制重构，以及GRPO算法。效果显著：在1M上下文显存需求对比中，其V4 Pro（5.48GB）远低于GLM5（60GB）和Qwen3-235B（89GB）。该战略旨在盘活中国NAND与LPDDR资源，降低对HBM依赖，并已开源TileLang以打破CUDA壁垒。其V4 Pro模型1M上下文长缓存价格不足Sonnet 4.6的3%。

Rohan Paul@rohanpaul_ai · 5月24日54

🇨🇳 🇺🇸 China's Huawei’s new 122TB SSD shows how export controls can move innovation sideways instead of simply stopping it. Huawei just built a 122.88TB AI SSD by changing the package around the memory, not by matching Samsung’s most advanced 400+ layer 3D NAND. And a 245TB version discussed as a future step. High-capacity SSDs usually grow by stacking more NAND layers inside each chip, but Huawei’s access to those chips is blocked because its Entity List status restricts items tied to US technology. So it is not trying to win only by making taller 3D NAND stacks, where Samsung has already shown 400-plus-layer V-NAND work. Instead, Huawei is shifting the contest from the chip itself to the way chips are packed together. Huawei’s workaround is Die-on-Board, which puts NAND dies directly onto the circuit board, cuts out some normal chip packaging, and raises board-level density by packing more lower-density memory into the same device. Direct die placement creates heat and signal problems, but it shows how packaging can recover some of the capacity lost when a company cannot buy the best memory chips.

译华为在先进NAND芯片受限的背景下，未直接追赶三星主导的高层数堆叠技术，而是采用“Die-on-Board”封装方案，通过将NAND裸片直接安装在电路板上提升存储密度，推出122.88TB AI SSD并计划推出245TB版本。与此同时，DeepSeek通过MoE、CSA/HCA等架构优化，大幅降低模型对HBM和算力的依赖，使国产硬件更适配前沿AI需求。两者路径形成呼应：华为从封装层面绕过芯片性能差距，DeepSeek从算法层面缓解硬件稀缺压力，共同体现了在外部限制下通过底层技术创新开辟新赛道的战略思维。