DeepSeek 最新动态与精选 · AI HOT

Topic · 主题全部主题 →

DeepSeek

DeepSeek（深度求索）的模型发布、开源权重与技术报告——开源大模型价格与性能双卷的风向标。

514条收录

68条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

6月28日

01:06

MarkTechPost（RSS）

精选79

DeepSeek 开源 DSpark 投机解码框架，加速 DeepSeek-V4 生成速度 60-85%

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型，而是在 DeepSeek-V4 权重上附加草稿模块，通过半自回归生成（并行骨干 + 轻量级顺序头）实现无损加速。生产环境下，DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中，接受长度比 Eagle3 高 26–31%，比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。

DeepSeek 推理论文/研究部署/工程

推荐理由：DeepSeek 开源的这个投机解码框架让 V4 生成提速 60% 以上，关键在于不换模型就能加速，对用 API 做产品的人是立即可用的性能提升。代码和权重都给了，值得一试。

6月27日

16:59

IT之家（RSS）

精选70

AI 账单失控后 DeepSeek 成"香饽饽"，部分美国企业已 100% 切换

美国企业面临 AI 账单失控，开始转向 Token 最小化策略。旧金山公司 Lindy 此前主要调用 Anthropic 的 Claude 模型，每月 AI 账单超支甚至超过员工工资。该公司 CEO 弗洛·克里维洛表示，本月初已将 100% 流量切换到 DeepSeek，预计未来几个月可节省数百万美元。企业开始采用按任务匹配模型的“模型路由”，不再将最贵的前沿模型用于所有场景。部分客户已决定暂停 AI 投入，待证明投资回报率后再继续。

DeepSeek 开源生态现象/趋势

推荐理由：一家初创把AI调用从Claude全切到DeepSeek，省下的钱超过工资总额，企业客户开始用模型路由压成本，这个趋势比任何benchmark都更能说明价格战的影响。

6月20日

15:01

AYi@AYi_AInotes

精选75

微软双向转售GPT与DeepSeek成全球最大AI中间商

彭博社报道，微软已成为全球最大AI模型中转站，既将ChatGPT卖给中国企业，也反向将DeepSeek模型卖给西方客户。报道称微软正在测试DeepSeek-R1和DeepSeek-V4，计划向西方客户提供这些中国模型。这一模式构建起跨中美AI模型的双向贸易网络。

DeepSeek Microsoft 开源生态行业动态

推荐理由：微软做起了跨中美模型的双向经销商，这事比表面看起来意义大——它可能绕过限制，把最先进的模型分发到原本接触不到的市场，全球 AI 供应链要改写了。

6月19日

12:19

AYi@AYi_AInotes

精选76

DeepSeek研究员开源AutoResearch：AI自主跑通285B模型RL研究闭环

DeepSeek研究员Deli Chen将AutoResearch协议开源，并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环——从实验设计、写代码、提交GPU任务、debug到结论总结，全程零人工干预。系统调用了GRPO工具，被视为持续学习研究的开端。

Deli Chen: 🧵 Deli AutoResearch SKILL is now officially open source! 🎉 https://victorchen96.github.io/auto_research/framework.html...

智能体 DeepSeek 开源/仓库

推荐理由：Deli Chen 开源的不是模型，是能让 AI 自己跑通 RL 研究全流程的「后厨系统」，从实验设计到 debug 全自动，五个工程思路可以直接抄作业。

08:00

OpenRouter：Announcements（RSS）

精选73

DeepSeek V4 智能体 token 份额持续增长

DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示，V4 发布后其 token 份额从年初的9%增长至6月初的18%，自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型，到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18，远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型，DeepSeek 是主要驱动力。

智能体 DeepSeek 开源生态现象/趋势

推荐理由：OpenRouter 独家数据展示了代际转折：DeepSeek V4 靠性价比吃下代理负载，中国模型 token 份额首次超过美国，这个信号比任何 benchmark 排名都真实，做应用选型的人该重新算账了。

6月18日

16:14

IT之家（RSS）

精选72

DeepSeek 识图模式正式上线 App 和网页端

DeepSeek 识图模式于6月18日在网页和 App 端正式上线，与快速模式、专家模式并列。开启后用户可直接上传图片让 DeepSeek 识别图像，能力超越简单文字提取。目前 App 端仍显示“图片理解功能内测中”，网页端无此提示。该模式背后的多模态模型技术细节于今年4月公开，核心框架为“Thinking with Visual Primitives（以视觉原语思考）”。

DeepSeek 产品更新多模态

推荐理由：DeepSeek的识图模式终于从内测进了正式版，虽然是补课而非破圈，但对中文用户来说，让AI直接看图比打字描述常用太多，日常工作和内容处理都更顺手了。

6月17日

02:24

Chubby♨️@kimmonismus

精选75

微软考虑为 Copilot Cowork 集成 DeepSeek V4

微软正考虑为 Copilot Cowork 提供微软托管的 DeepSeek V4 版本，作为更便宜的模型选项。Copilot Cowork 将放弃无限定价，转向按使用量计费，原因是成本过高（用户每周执行数百项任务导致费用激增）。若采用 DeepSeek，该模型将是可选的、经过微调与安全防护，并完全托管于 Azure。Axios 报道称微软已微调了一个可用模型，最终决定待定。

Ina Fried: New @axios: Microsoft eyes DeepSeek for Copilot Cowork as it also joins the shift to usage based pricing. Says final dec...

DeepSeek Microsoft 开源生态行业动态

推荐理由：微软考虑在 Copilot Cowork 中引入 DeepSeek V4 作为便宜选项，同时转向按用量计价。如果落地，这不仅是成本策略的转向，更可能打破企业 AI 对开源模型的信任壁垒，定价变革也会给全行业施加压力。

6月9日

00:41

Tomer Tunguz 博客（VC 分析）

精选56

AI 替代浪潮：三大力量重塑成本结构

三大力量重塑 AI 成本：前沿闭源模型持续涨价，开源模型在多数场景已足够好，买家开始替代。Coinbase 将提示词路由至更便宜模型，成本持平但 token 用量指数增长。Lindy 全切至 DeepSeek v4，节省数百万美元且多项核心性能提升。Harvey 在 Legal Agent Benchmark 上通过 SFT 使 Kimi 2.6 all-pass 率达 15%，超越 Opus 的 14%，同一 100 任务成本 $84 vs $954（约 11 倍价差）。Cursor 后训练 Kimi K2.5 得到 Composer 2.5，称其“性能优异且效率高达同类模型 10 倍”。闭源越来越贵，开源平价且性能接近，选择决定企业单位经济学的斜率。

Anthropic DeepSeek 开源生态推理

推荐理由：Tunguz 用 Coinbase、Lindy 等真实案例，把「用开源/便宜模型替代昂贵前沿模型」的趋势讲透了，做 AI 应用的人该重新算一下单位经济账。

6月4日

22:34

OpenRouter@OpenRouter

精选67

DeepSeek 现已连续四周在我们平台的 token 份额排行榜上位居第一： https://openrouter.ai/rankings

DeepSeek 行业动态

推荐理由：OpenRouter 作为风向标级的 API 聚合器，这个四连冠的数据比任何 benchmark 都实在，对还在犹豫选哪个模型的产品人来说，是个明确的信号。

6月3日

00:29

OpenRouter@OpenRouter

精选68

⚡ 新增服务商：DigitalOcean 的 AI-Native Cloud 现已在 OpenRouter 上线。提供高性能推理，覆盖热门开源权重模型。在 DeepSeek V3.2 的输出速度和延迟方面排名第一（数据来自 @ArtificialAnlys）。查看其数据并试用模型：https://openrouter.ai/provider/digitalocean

DeepSeek 产品更新推理部署/工程

推荐理由：OpenRouter 新上线的 DigitalOcean 推理服务，把 DeepSeek V3.2 的延迟压到了全场最低，比官方还快，做实时应用的值得立刻切过去试一下。

5月25日

02:27

Hacker News 热门（buzzing.cc 中文翻译）

精选74

DeepSeek将对其旗舰AI模型实施永久性75%折扣

DeepSeek 开源生态行业动态

推荐理由：DeepSeek把API价格永久砍掉75%，这是对OpenAI和Anthropic的直接价格战，做应用的该重新算算成本账了。

5月22日

13:09

IT之家（RSS）

精选78

DeepSeek 推进 700 亿元融资，梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标

DeepSeek正推进700亿元人民币的巨额融资，估值约450亿美元。创始人梁文锋承诺将继续开源开发AI模型，不追求短期商业化，目标是技术升级与通用人工智能。腾讯、IDG资本等接近参投，梁文锋个人可能注资200亿元。若成功将创下中国科技初创公司首轮融资纪录。

DeepSeek 开源生态行业动态

关联讨论 4 条

推荐理由：700 亿元首轮融资创下纪录，梁文锋明确表态不追求短期商业化、继续死磕开源，国家队和腾讯都在这轮里，对国内开源生态是个强心针。

5月9日

23:32

阿绎 AYi@AYi_AInotes

精选82

Redis创始人用C语言引擎将大模型"装进"个人电脑

Redis创始人Antirez开源了专为DeepSeek V4 Flash设计的原生推理引擎ds4。该引擎仅用几千行C代码，通过三项关键技术：对MoE专家进行不对称2-bit量化、将KV Cache移至高速SSD突破内存限制、为Apple Silicon进行纯Metal原生优化，成功在128GB MacBook Pro上流畅运行具备1M上下文窗口的模型，实测达27 tok/s。此举将原本依赖云端GPU集群的前沿AI能力，通过极致工程优化 democratize 至个人设备，展现了开源社区推动技术平民化的强大潜力。

Garry Tan: Downloading now... 1M token context window with supposedly usable coding agent capability all on a 128GB Macbook Pro is ...

DeepSeek 开源/仓库推理端侧

推荐理由：Antirez用几千行C代码把DeepSeek V4 Flash塞进128G Mac，本地跑1M上下文coding agent，这才是真正的AI民主化时刻，开发者必试。

5月8日

03:06

Hacker News 热门（buzzing.cc 中文翻译）

精选74

DeepSeek 4：适用于 Metal 的 Flash 本地推理引擎

DeepSeek 4 Flash 本地推理引擎正式发布，这是一个专为苹果 Metal 框架优化的开源项目。它允许开发者在配备 Apple Silicon 芯片的 Mac 上高效运行 DeepSeek 4 模型，实现本地离线推理。引擎通过 Metal Performance Shaders 显著提升了计算性能，降低了延迟与内存占用。该项目已在 GitHub 开源，并在 Hacker News 上获得了关注。

DeepSeek 开源/仓库推理端侧

推荐理由：antirez 写的引擎让 DeepSeek 4 在 Mac 本地跑出近乎 Flash 的速度，而且代码极其精简，做本地推理的开发者应该立刻克隆下来跑一下。

5月7日

01:06

Nathan Lambert@natolambert

精选76

作者盛赞访问Moonshot AI（月之暗面）的体验极佳。其旗下产品Kimi正以超200亿美元的投后估值完成新一轮约20亿美元融资，由美团龙珠领投。公司在2025年前六个月融资总额超39亿美元，估值较去年11月增长约4倍，成为中国累计融资额最高的AI初创公司。其年度经常性收入在短期内从1亿美元快速增长至超2亿美元，付费订阅和API使用量均在加速。

Manqi Cheng 程曼祺: Just published an exclusive on LatePost. A few highlights: - Kimi (Moonshot AI) is closing a new $2B funding round at a ...

DeepSeek 推理行业动态

推荐理由：月之暗面这轮融资直接把国内AI格局拉到了新高度，AR从三个月1亿跳到2亿美金，加上Nathan Lambert站台，这家公司不再是“中国另一家大模型”了。

5月6日

19:20

Berryxia.AI@berryxia

精选79

国家队领投DeepSeek估值飙升至450亿美元

DeepSeek估值在数周内从200亿美元跃升至450亿美元，本轮融资由国家大基金领投，腾讯有意跟投，创始人梁文锋也参与出资。此举标志着国家队首次公开投资本土大模型公司，具有强烈的战略象征意义。这被视为官方将AI大模型正式纳入“半导体国家战略”的关键信号，向市场传递了国家全力支持国产AI发展的明确信息，预示着行业将进入新的发展阶段。

DeepSeek 行业动态

推荐理由：大基金第一次押注大模型就给了 DeepSeek，这等于官方把大模型升格为半导体级国家战略，对整个赛道是强心针，但其他玩家的融资故事恐怕得换个讲法了。

5月1日

03:14

karminski-牙医@karminski3

精选72

DeepSeek-V4 API推理内容字段缺失导致报错问题

用户在使用DeepSeek-V4 API或集成该模型的终端编码代理（如Claude Code、Kimi CLI）和AI IDE（如Cursor）时，频繁遇到HTTP 400报错。错误信息指出，在思考模式下必须将reasoning_content字段回传给API。核心问题在于，当任务步骤的tool_call过于简单直接时，DeepSeek-V4返回的reasoning_content可能为空字符串。许多开发工具默认会过滤掉空值字段，导致该字段未被回传，从而触发API报错，致使编码任务或代理中断。经测试，在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传，不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具，使用DeepSeek-V4的代理项目也需注意此问题。

DeepSeek 推理教程/实践

推荐理由：如果你在用 DeepSeek-V4 写代码，这个坑迟早会踩到，作者把问题和解法都讲清楚了，不用等 IDE 修，看完就能自己改。

4月30日

23:10

IT之家（RSS）

精选72

DeepSeek 公布多模态模型技术报告

DeepSeek发布了多模态大模型及技术报告，提出创新的“基于视觉原语的思考”框架。该框架将点、边界框等视觉元素作为推理的基本单元，旨在解决多模态模型在空间参照任务中存在的“参照鸿沟”核心问题，使模型能将抽象认知锚定到图像的具体坐标上。尽管模型规模紧凑且图像标记预算较低，其在多项挑战性计数和空间推理基准测试上的性能，可与GPT-5.4等前沿模型相媲美。

DeepSeek 多模态推理论文/研究

推荐理由：DeepSeek 把视觉概念直接变成推理单元，绕开了语言描述空间的先天模糊，在空间推理上把自家紧凑模型拉到和 GPT-5.4 一个水平，做多模态应用的人值得细读。

4月27日

00:53

DeepSeek@deepseek_ai

精选62

🔥DeepSeek 输入缓存价格下调！即刻起，整个 DeepSeek API 系列的输入缓存命中价格降至原价的十分之一！以更少成本，更高效地构建。 📌提醒：DeepSeek-V4-Pro 七五折优惠活动持续有效至 2026 年 5 月 5 日 15：59（UTC 时间）。

DeepSeek 产品更新部署/工程

推荐理由：输入缓存命中价格直接打一折，对高频调用 API 的开发者来说是实打实的成本减负，配合 V4-Pro 的七五折促销，DeepSeek 在用价格战抢开发者心智。

4月26日

03:51

swyx 🇸🇬@swyx

精选70

DeepSeek团队正式推出并开源了DeepSeek-V4预览版模型，标志着高性价比的百万上下文长度时代到来。该系列包含两个模型：DeepSeek-V4-Pro拥有1.6万亿总参数和490亿活跃参数，性能媲美顶级闭源模型；DeepSeek-V4-Flash则拥有2840亿总参数和130亿活跃参数，主打快速、高效与经济。模型现已在官方平台通过专家模式和即时模式开放试用，API也已同步更新。完整的技术报告和模型权重已在Hugging Face平台发布，供社区研究和应用。

DeepSeek: 🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 Dee...

DeepSeek 开源生态模型发布

推荐理由：DeepSeek-V4 把 MoE 推到 1.6T 总参、49B 活跃，百万上下文 + 开源权重，这是开源阵营第一次在旗舰级闭源模型面前不落下风，做长上下文应用的团队该认真测一下了。

4月25日

23:59

DeepSeek@deepseek_ai

精选60

🔥DeepSeek-V4-Pro API 限时75折优惠，截止至2026年5月5日15：59（UTC时间）！切勿错过此次大幅折扣。 🛠️集成更新： 🔹Claude Code：将模型设置为 deepseek-v4-pro【1m】即可解锁100万上下文！ 🔹OpenCode：请更新至 v1.14.24+ 🔹OpenClaw：请更新至 v2026.4.24+ 查看最新官方API文档获取完整详情：https://api-docs.deepseek.com/quick_start/pricing

DeepSeek 产品更新部署/工程

推荐理由：DeepSeek-V4-Pro 限时 75% off，配合 Claude Code 1M 上下文接入，对正在跑 coding agent 的开发者来说是真金白银的省钱窗口，错过这波下次不知道什么时候。

21:36

歸藏(guizang.ai)@op7418

精选79

DeepSeek推出V4模型限时2.5折优惠，其Pro版百万Token输出成本仅6元。模型分为Pro版（总参数1.6T）和Flash版（总参数284B），预训练数据均为32T。在应用中，专家模式对应Pro版，快速模式对应Flash版。测评显示其性能与Claude Opus 4.6持平，Agent能力与世界知识显著增强，并采用新注意力机制以降低计算需求。

歸藏(guizang.ai): DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...

DeepSeek 推理模型发布

推荐理由：DeepSeek V4-Pro 百万 token 输出只要 6 块，这个定价直接把 Opus 4.6 级别的能力拉到了白菜价，做 Agent 和长上下文应用的产品人该重新算账了。

02:08

AK@_akhaliq

精选74

DeepSeek-V4 论文已在 Hugging Face 发布 paper： https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek 推理模型发布

关联讨论 1 条

推荐理由：DeepSeek-V4 论文终于落地，这是今年开源阵营最被期待的模型之一，做推理和开源部署的同行值得花时间啃一遍技术细节。

4月24日

08:00

Hugging Face：Blog（RSS）

精选78

DeepSeek-V4：智能体可实际使用的百万token上下文

DeepSeek发布新一代模型DeepSeek-V4，其核心突破在于实现了长达百万token的上下文窗口，并确保智能体能够有效利用这一扩展的上下文能力。该模型延续了通过开源与开放科学推动人工智能发展与普及的使命，标志着大模型在长上下文理解和实际应用方面迈出重要一步。

智能体 DeepSeek 开源生态模型发布

关联讨论 3 条

推荐理由：DeepSeek 把上下文窗口推到百万 token 不稀奇，关键是「agent 能实际用」这六个字。如果实测成立，RAG 的很多工程妥协可以扔掉了，做长文档和复杂 agent 的人该第一时间跑一遍。

2月3日

23:03

Hugging Face：Blog（RSS）

精选80

全球开源AI生态系统的未来：从 DeepSeek 到 AI+

Hugging Face 在其官方博客发布文章，展望了全球开源人工智能生态系统的发展路径与未来趋势。文章以 DeepSeek 等代表性开源模型为例，探讨了开源社区如何推动技术民主化与创新加速。核心观点指向一个更加开放、协作的“AI+”未来生态，其中开源框架、模型和工具将深度融入各行各业，降低开发门槛并促进多样化应用场景的涌现。

DeepSeek Hugging Face 开源生态现象/趋势

推荐理由：开源AI核心平台对生态走向的判断，直接影响开发者技术选型和投资方向

1月27日

23:01

Hugging Face：Blog（RSS）

精选83

中国开源AI生态中的架构选择：构建超越DeepSeek的未来

Hugging Face发布博客文章，探讨中国开源人工智能生态系统的核心架构选择与发展路径。文章聚焦于如何构建一个超越现有模型（如DeepSeek）的可持续技术体系，分析了中国开发者在模型架构、训练框架、部署工具和社区协作等方面的关键决策。文中指出，中国开源社区正致力于打造独立且互操作的技术栈，以应对大规模模型训练与推理的独特挑战，并推动全球AI生态的多元化发展。

DeepSeek 开源生态现象/趋势

推荐理由：揭示中国开源AI架构演进，帮助开发者把握生态趋势与选型方向。

8月21日

14:25

公众号：DeepSeek（深度求索）

精选63

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

DeepSeek-V3.1 以混合推理模型形式开源，用户可一键切换思考模式，同时 Agent 智能体支持性能得到增强。

智能体 DeepSeek 开源生态推理

推荐理由：DeepSeek V3.1 不是小修小补，混合推理和 Agent 支持让它从‘对话模型’转向‘行动模型’，开源这一步让 Agent 开发有了新底座。

5月29日

20:11

DeepSeek@deepseek_ai

精选68

🚀 DeepSeek-R1-0528 现已发布！ 🔹 基准测试性能提升 🔹 前端能力增强 🔹 减少幻觉现象 🔹 支持 JSON 输出与函数调用 ✅ 立即试用：https://chat.deepseek.com/ 🔌 API 使用方式不变 - 文档在此：https://api-docs.deepseek.com/guides/reasoning_model 🔗 开源权重：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

DeepSeek 开源生态推理模型发布

关联讨论 1 条

推荐理由：DeepSeek-R1 的常规迭代，幻觉降低和 JSON 输出是实用改进，但距离代际跃迁还差得远。开源权重直接可用，做推理链产品的团队值得花半小时跑一下。

2月18日

15:04

DeepSeek@deepseek_ai

精选

NSA：硬件对齐的稀疏注意力新机制

NSA是一种硬件对齐且原生可训练的稀疏注意力机制，专为超快速长上下文训练与推理设计。其核心采用动态分层稀疏策略，结合粗粒度token压缩与细粒度token选择。通过针对现代硬件的优化，NSA在加速推理、降低预训练成本的同时不损失性能，在通用基准、长上下文任务及指令推理中匹配或超越Full Attention模型。