全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 164 条

全部一手资讯 X 论文

标签「DeepSeek」清除

7月1日周三

18:03IT之家（RSS）59瑞银：约六成企业收紧 AI 开支，DeepSeek 等开源大模型有望受益

14:03IT之家（RSS）49英伟达刷新 DeepSeek V4 推理纪录：单 Token 成本降至 1/5，AI 吞吐量最高提升 20 倍

6月30日周二

16:38The Decoder：AI News（RSS）67Deepseek发布DSpark推理框架，AI响应速度最高提升85%

6月29日周一

18:10公众号：蚂蚁百灵（Ling）51如何优雅地给 MLA 加上 QK-Norm？

18:01IT之家（RSS）53DeepSeek V4 正式版 7 月中旬上线，API 引入峰谷定价

6月28日周日

20:40The Decoder：AI News（RSS）65Coinbase 转向中国 AI 模型，西方实验室面临定价压力测试

08:00IT之家（RSS）30DeepSeek成美国企业AI账单失控下的"香饽饽"，阿里千问输入法macOS版上线

01:06MarkTechPost（RSS）79精选DeepSeek 开源 DSpark 投机解码框架，加速 DeepSeek-V4 生成速度 60-85%

6月27日周六

18:32Hacker News 热门（buzzing.cc 中文翻译）51DeepSeek 开源推理优化方案 DeepSpec，生成速度提升 60% 至 85%

16:59IT之家（RSS）70精选AI 账单失控后 DeepSeek 成"香饽饽"，部分美国企业已 100% 切换

15:59IT之家（RSS）66DeepSeek 联合北大发布 DSpark 推理加速框架，速度提升 60% 至 85%

6月26日周五

23:39The Decoder：AI News（RSS）51AI初创公司Lindy弃用Claude全面改用DeepSeek，节省数百万美元

01:01Hacker News 热门（buzzing.cc 中文翻译）42开放权重模型的难以忍受的廉价感

6月25日周四

22:30公众号：DeepSeek（深度求索）38DeepSeek 寻找闪亮发光的你

15:58IT之家（RSS）69百度开源 Unlimited OCR 模型，基于 DeepSeek OCR 架构，30亿参数仅激活5亿

09:58IT之家（RSS）542025 中国开源年度报告：OpenHarmony 登顶全球，7 年后中国开发者贡献度有望超过美国

6月23日周二

14:07IT之家（RSS）48DeepSeek Harness团队负责人回应"不招外国人"质疑：需能用中文工作，无此规定

13:13HuggingFace Daily Papers（社区热门论文）60Unlimited OCR：长序列OCR显存与速度问题的解决方案

6月20日周六

20:30The Decoder：AI News（RSS）56NYU教授Damodaran：AI回调冲击或超互联网泡沫

16:27Hacker News 热门（buzzing.cc 中文翻译）72同事件精选GPT-5.5幻觉率达86%，GLM-5.2仅28%--大模型越大越不可靠同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

6月19日周五

08:16IT之家（RSS）39IT早报 0619：宁德时代利润超7家车企总和；首部L3/L4自动驾驶国标公示；DeepSeek识图模式上线

08:00OpenRouter：Announcements（RSS）73精选DeepSeek V4 智能体 token 份额持续增长

6月18日周四

22:14IT之家（RSS）59DeepSeek 首次融资估值超 500 亿美元，传创始人向投资人提"不挖人"要求

20:14IT之家（RSS）63DeepSeek 识图模式正式上线，无法识别创始人梁文锋

16:14IT之家（RSS）72精选DeepSeek 识图模式正式上线 App 和网页端

03:06Hacker News 热门（buzzing.cc 中文翻译）67美国暂未将DeepSeek列入黑名单，逾100家企业被认定为安全风险

6月17日周三

23:07IT之家（RSS）74同事件精选DeepSeek 以 4000 亿元估值完成首轮外部融资：510 亿元到账，投资方含梁文锋、腾讯、宁德时代等同一事件，精选展示《DeepSeek 推进 700 亿元融资，梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标》

11:03IT之家（RSS）57Anthropic 和 OpenAI 模型太贵，微软智能体考虑使用 DeepSeek V4 微调版

08:03IT之家（RSS）29IT早报：DeepSeek完成超70亿美元融资，英伟达员工考公上岸，央视关注运营商不同权

03:35The Decoder：AI News（RSS）50微软 Copilot Cowork 转向按用量计费，考虑采用 DeepSeek V4

6月16日周二

22:01Nathan Lambert：Interconnects（RSS）52前沿大模型后训练配方回顾：与 Finbarr Timbers 对谈

18:00IT之家（RSS）43腾讯云 DeepSeek-V3.2 模型 7 月 16 日下线，官方建议迁移至 V4 系列

17:57The Decoder：AI News（RSS）72同事件精选DeepSeek 完成首轮外部融资，估值超 500 亿美元同一事件，精选展示《DeepSeek 推进 700 亿元融资，梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标》

16:00IT之家（RSS）69OpenRouter 发布 Fusion API，多模型协同以一半成本接近 Claude Fable 5 性能

15:00IT之家（RSS）68DeepSeek 完成超 70 亿美元融资，腾讯、宁德时代等参投但无投票权

13:00IT之家（RSS）66谷歌更新Android Bench榜单：Gemini 3.5 Flash成本最贵，约为DeepSeek V4 Flash的17.5倍

6月14日周日

00:17OpenRouter：Announcements（RSS）73同事件精选OpenRouter融合预算模型面板超越GPT-5.5和Claude Opus 4.8同一事件，精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》

6月13日周六

21:30公众号：数字生命卡兹克59实测GLM-5.2，国产Coding模型的又一座新高峰。

6月11日周四

21:31IT之家（RSS）48DeepSeek API 缓存计费系统出故障后主动向用户退款，赠金已到账

09:30IT之家（RSS）31DeepSeek梁文锋高考状元照片曝光：超过清华线选择浙大

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

7月1日

18:03

IT之家（RSS）

59

瑞银：约六成企业收紧 AI 开支，DeepSeek 等开源大模型有望受益

瑞银分析师调研十余家企业IT负责人后发现，约六成企业已出台管控措施收紧AI开支。token调用成本是核心顾虑，Uber运营总监坦言AI投入回报微薄。DeepSeek等开源模型与中国本土大模型有望受益，尤其适合非代码类业务。短期内OpenAI、Anthropic等闭源厂商承压最大。谷歌推出Gemini 3.5 Flash，Anthropic发布Claude Sonnet 5以降低成本。瑞银称这一趋势为“良性调整阵痛”，无企业彻底叫停AI落地。

DeepSeek 开源生态现象/趋势

14:03

IT之家（RSS）

49

英伟达刷新 DeepSeek V4 推理纪录：单 Token 成本降至 1/5，AI 吞吐量最高提升 20 倍

英伟达 6 月 30 日发布博文，宣布在 Blackwell 平台上通过全栈推理优化，使 DeepSeek V4 模型的单 Token 成本降至 1 个月前的五分之一，达到行业最低水平。优化涵盖生产运营、应用加速和基础设施访问三层，采用分离式服务、大规模专家并行、NVLink 并行通信、NVFP4 精度及多 token 预测等技术，单 GPU 的 token 吞吐量最高提升 20 倍。

DeepSeek 推理行业动态部署/工程

6月30日

16:38

The Decoder：AI News（RSS）

67

Deepseek发布DSpark推理框架，AI响应速度最高提升85%

Deepseek推出DSpark推理框架，采用推测解码技术，由小模型生成候选答案、大模型批量验证，并一次生成多个token而非单个，使每用户响应速度提升60–85%。系统基于置信度动态调整验证深度，减少无效计算。DSpark与Deepseek-V4-Pro模型（与北京大学联合开发）已在HuggingFace和GitHub以MIT许可证开源。高效推理降低对高端芯片需求，有助于中国与欧盟在芯片受限下获取更多AI性能，短期构成战略优势。

DeepSeek 开源/仓库开源生态推理

6月29日

18:10

公众号：蚂蚁百灵（Ling）

51

如何优雅地给 MLA 加上 QK-Norm？

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache，但 QK-Norm 需归一化高维 Key，若缓存归一化结果则打破低维优势。文章提出数学等效变换：将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧，推理时每个 token 只需额外缓存一个逆 RMS 标量，即可严格等价实现 QK-Norm，不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中，QK-Normed MLA 相比 QK-clipping loss 更低（1B 模型 gap ~0.02），训练更稳定且收敛更快。

DeepSeek 推理教程/实践数据/训练

18:01

IT之家（RSS）

53

DeepSeek V4 正式版 7 月中旬上线，API 引入峰谷定价

DeepSeek 团队 6 月 29 日宣布，DeepSeek V4 正式版计划于 7 月中旬上线，届时 API 定价将引入峰谷机制，高峰时段（每日 9:00-12:00、14:00-18:00）价格为平时的 2 倍。此前 DeepSeek-V4 预览版已于 4 月 24 日上线并同步开源，拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上实现国内与开源领域领先，按大小分为两个版本。另外，DeepSeek-V4-Pro API 已永久降价至原定价的 1/4。

DeepSeek 开源生态推理模型发布

6月28日

20:40

The Decoder：AI News（RSS）

65

Coinbase 转向中国 AI 模型，西方实验室面临定价压力测试

Coinbase CEO Brian Armstrong 已将公司迁移至中国 AI 模型，采用智谱 GLM 5.2 和月之暗面 Kimi 2.7，token 用量攀升但支出减半。91% 的开发者从未触及旧用量上限。初创公司 Lindy 近期转向 DeepSeek V4，Snowflake 也在测试中国模型作为廉价替代品。Coinbase 部署自动路由系统，根据任务、价格和缓存潜力选择模型，缓存命中率从 5% 提升至 60%。开发者被要求保持上下文精简并开启新会话。公司让每位开发者用量透明但不设上限，Armstrong 表示“AI 支出越多，预期影响越大”。这些举措使 AI 总支出减半。同时，OpenAI 的 GPT-5.6-Sol 与 GPT-5.5 定价相同但更省 token，并推出两个廉价变体，加剧与 Anthropic 的价格战。

DeepSeek OpenAI 行业动态部署/工程

08:00

IT之家（RSS）

30

DeepSeek成美国企业AI账单失控下的"香饽饽"，阿里千问输入法macOS版上线

AI账单失控背景下，越来越多的美国企业转向Tokenminimizing策略，部分企业已100%切换使用DeepSeek以降低Token消耗。阿里千问输入法macOS版正式上线，主打最快300字/分的语音输入和AI自动润色功能，支持9种方言且无广告；官方预告iOS、Android、Windows版将于近日发布。

DeepSeek 开源生态推理行业动态

01:06

MarkTechPost（RSS）

精选79

DeepSeek 开源 DSpark 投机解码框架，加速 DeepSeek-V4 生成速度 60-85%

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型，而是在 DeepSeek-V4 权重上附加草稿模块，通过半自回归生成（并行骨干 + 轻量级顺序头）实现无损加速。生产环境下，DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中，接受长度比 Eagle3 高 26–31%，比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。

DeepSeek 推理论文/研究部署/工程

推荐理由：DeepSeek 开源的这个投机解码框架让 V4 生成提速 60% 以上，关键在于不换模型就能加速，对用 API 做产品的人是立即可用的性能提升。代码和权重都给了，值得一试。

6月27日

18:32

Hacker News 热门（buzzing.cc 中文翻译）

51

DeepSeek 开源推理优化方案 DeepSpec，生成速度提升 60% 至 85%

DeepSeek 在 GitHub 上开源了推理优化方案 DeepSpec，并发布了配套论文 DSparkpaper.pdf。该方案可将模型生成速度提升 60% 至 85%，具体实现细节见论文。

DeepSeek 开源生态推理论文/研究

16:59

IT之家（RSS）

精选70

AI 账单失控后 DeepSeek 成"香饽饽"，部分美国企业已 100% 切换

美国企业面临 AI 账单失控，开始转向 Token 最小化策略。旧金山公司 Lindy 此前主要调用 Anthropic 的 Claude 模型，每月 AI 账单超支甚至超过员工工资。该公司 CEO 弗洛·克里维洛表示，本月初已将 100% 流量切换到 DeepSeek，预计未来几个月可节省数百万美元。企业开始采用按任务匹配模型的“模型路由”，不再将最贵的前沿模型用于所有场景。部分客户已决定暂停 AI 投入，待证明投资回报率后再继续。

DeepSeek 开源生态现象/趋势

推荐理由：一家初创把AI调用从Claude全切到DeepSeek，省下的钱超过工资总额，企业客户开始用模型路由压成本，这个趋势比任何benchmark都更能说明价格战的影响。

15:59

IT之家（RSS）

66

DeepSeek 联合北大发布 DSpark 推理加速框架，速度提升 60% 至 85%

DeepSeek 联合北京大学发布 DSpark 推理加速框架，已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版。DSpark 采用半自回归架构与置信度调度验证机制，在同等吞吐量下将单用户生成速度提升 60% 至 85%。在 Qwen3 系列和 Gemma4-12B 的离线测试中，DSpark 平均每轮接受长度优于 Eagle3 和 DFlash。生产环境下，V4-Flash 引擎在 80 token/s SLA 下吞吐量提升 51%，120 token/s 时提升 661%。相关论文、训练代码已在 GitHub 开源。

DeepSeek 开源/仓库推理部署/工程

6月26日

23:39

The Decoder：AI News（RSS）

51

AI初创公司Lindy弃用Claude全面改用DeepSeek，节省数百万美元

AI初创公司Lindy已完全弃用Anthropic的Claude，转而使用中国公司DeepSeek的模型（在美国境内托管）。CEO Flo Crivello向CNBC表示，其25人公司的AI成本此前“不可持续”，甚至超过人员开支；切换后成本曲线“直接跌到地面”，节省了数百万美元。Crivello称若Anthropic降价会考虑换回，因为“这关乎企业生存”。Snowflake CTO分析显示，GLM-5.2等中国模型虽未完全达到Claude水平，但在性价比上具有竞争力。OpenAI CEO Sam Altman也指出，AI成本已成为企业的“巨大问题”。

Anthropic DeepSeek 行业动态

01:01

Hacker News 热门（buzzing.cc 中文翻译）

42

开放权重模型的难以忍受的廉价感

DeepSeek V4 定价极低，仅基于 token 费用就比 Anthropic 和 OpenAI 的前沿模型便宜近 50 倍，未计入思考类模型额外 token 消耗。文章指出对方陷入高成本困境，难以降价 20–50 倍竞争。开放权重模型低成本源于硬件压力测试还是亏本引流，尚存争议。担忧美国可能借“中国恐惧”推动限制开放权重模型。Google 于 2026 年 4 月发布 Gemma 4，Meta Llama 无新版本，OpenAI 最后开放权重停留在 2025 年 GTP，Anthropic 从未发布。真正开源（含训练数据管道）模型正流行，但数据截止 2024 年 12 月。美国 NSF 与 Nvidia 合作支持 Allen AI 开发完全开源 AI。

Anthropic DeepSeek OpenAI 开源生态

6月25日

22:30

公众号：DeepSeek（深度求索）

38

DeepSeek 寻找闪亮发光的你

DeepSeek 行业动态

15:58

IT之家（RSS）

69

百度开源 Unlimited OCR 模型，基于 DeepSeek OCR 架构，30亿参数仅激活5亿

百度于6月22日开源 Unlimited OCR 模型，总参数量30亿，推理时仅激活5亿。模型延续 DeepSeek OCR 架构，编码端采用两级视觉编码并执行16倍 token 压缩，将1024×1024 PDF 图像压缩为256个视觉 token，缓解长文档解析越生成越慢问题。训练基于 DeepSeek OCR 检查点，冻结 DeepEncoder 后继续4000步，使用约200万份文档在8×16 A800 GPU上完成，单页与多页数据配比约9:1。在 OmniDocBench v1.5 上整体得分93.23（DeepSeek OCR 87.01，DeepSeek OCR 2 89.17），文本编辑距离0.038，公式 CDM 92.61，表格 TEDS 90.93，读序编辑距离0.045；v1.6 得分93.92。GitHub 已获 6.8K Star。

DeepSeek 多模态开源生态模型发布

09:58

IT之家（RSS）

54

2025 中国开源年度报告：OpenHarmony 登顶全球，7 年后中国开发者贡献度有望超过美国

开源社发布《2025中国开源年度报告》。GitHub平台中国活跃开发者超210万，全球第三。OpenHarmony以60089 OpenRank值登顶全球开源项目影响力榜首。中美贡献度增速差超10%，按当前态势7年后中国开发者贡献度有望超过美国。中国OpenRank贡献度254963，全球第二。AI大模型相关仓库年均增长率超210%，vLLM进入全球项目Top15。10亿以上参数模型中Meta下载量占23.2%，阿里Qwen系列占20%，DeepSeek占3.8%，其R1训练成本仅550万美元。开源企业影响力微软居首，华为第二。

DeepSeek GitHub 开源生态行业动态

6月23日

14:07

IT之家（RSS）

48

DeepSeek Harness团队负责人回应"不招外国人"质疑：需能用中文工作，无此规定

DeepSeek Harness团队负责人崔添翼6月21日发文称，新成立的Harness团队目标宏大、工作繁重，人员紧缺，正招聘Harness研究员、工程师、产品经理三个岗位。针对网友“不招外国人”的评论，崔添翼回应称，公司招人需要能用中文工作，如同美国公司要求能用英语，并无不招外国人的规定。知情人士透露，DeepSeek已在内部组建Harness团队，主攻代码智能体产品，内部对标Anthropic的Claude Code。

智能体 DeepSeek 编码行业动态

13:13

HuggingFace Daily Papers（社区热门论文）

60

Unlimited OCR：长序列OCR显存与速度问题的解决方案

针对长序列转录中KV缓存累积导致显存增加和速度下降的问题，研究团队提出Unlimited OCR。该模型以DeepSeek OCR为基线，用提出的Reference Sliding Window Attention（R-SWA）替换解码器所有注意力层，在保持恒定KV缓存的同时降低注意力计算成本。结合DeepSeek OCR编码器的高压缩率，Unlimited OCR在32K标准最大长度下单次前向可转录数十页文档。R-SWA是一种通用解析注意力机制，同样适用于ASR、翻译等任务。代码和模型权重已开源。

DeepSeek 多模态论文/研究

6月20日

20:30

The Decoder：AI News（RSS）

56

NYU教授Damodaran：AI回调冲击或超互联网泡沫

纽约大学金融教授Aswath Damodaran在播客中警告，AI行业若发生回调，冲击可能比2000年互联网泡沫破裂更痛苦。他指出AI需巨额物理基础设施投资且多依赖债务融资，损失将波及社会。Damodaran质疑AI商业模式能否规模化，因AI每次使用都消耗算力，规模经济弱于Netflix、更像Spotify；中国Deepseek等对手带来价格侵蚀，利润率本已很低。他还警告，若AI实现替代整个岗位的愿景，将导致一半白领失业，带来巨大社会成本。科技巨头因重注AI进入不熟悉的资本密集型领域，苹果的谨慎态度在他看来更明智。

DeepSeek 现象/趋势

16:27

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选72

GPT-5.5幻觉率达86%，GLM-5.2仅28%--大模型越大越不可靠

GLM-5.2（MIT开源，753B参数，约40B活跃）在AA Intelligence Index上仅比GPT-5.5低4分、比Claude Fable 5低9分，但其幻觉率仅28%，远低于GPT-5.5的86%和DeepSeek V4 Pro（1.6T参数，49B活跃）的94%。后者在AA-Omniscience基准上仅6%的问题会承认不知道。实际代码测试中，GLM-5.2用12秒和800个推理token识别出技术悖论，而DeepSeek V4 Pro耗费3分26秒和近10倍推理token后仍给出错误答案。模型规模增长正导致幻觉率飙升而非智力提升。

DeepSeek OpenAI 数据/训练现象/趋势

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：这篇实测对比揭示了大型模型的致命幻觉问题，GPT-5.5 幻觉率高达 86% 远超 GLM-5.2 的 28%，模型选型不能只看 Benchmark 排名，「会不会不懂装懂」才是真分水岭。

6月19日

08:16

IT之家（RSS）

39

IT早报 0619：宁德时代利润超7家车企总和；首部L3/L4自动驾驶国标公示；DeepSeek识图模式上线

DeepSeek识图模式在网页和App端正式上线。阿里千问团队将推出“千问输入法”独立App。宁德时代单季净利润207亿元，超过奇瑞、吉利、比亚迪等7家车企利润总和（约175亿元）。工信部公示我国首部L3/L4自动驾驶强制性国标，要求从证明能力转向论证安全，2027年7月起实施。此外，开发者测试发现一句“你好”消耗约5万Token（约0.125元），15元套餐不到1小时见底；DeepSeek向投资人提出“不挖人”要求；市场监管总局督导货拉拉整改，退还不合理费用1.2亿元。

DeepSeek 行业动态

08:00

OpenRouter：Announcements（RSS）

精选73

DeepSeek V4 智能体 token 份额持续增长

DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示，V4 发布后其 token 份额从年初的9%增长至6月初的18%，自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型，到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18，远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型，DeepSeek 是主要驱动力。

智能体 DeepSeek 开源生态现象/趋势

推荐理由：OpenRouter 独家数据展示了代际转折：DeepSeek V4 靠性价比吃下代理负载，中国模型 token 份额首次超过美国，这个信号比任何 benchmark 排名都真实，做应用选型的人该重新算账了。

6月18日

22:14

IT之家（RSS）

59

DeepSeek 首次融资估值超 500 亿美元，传创始人向投资人提"不挖人"要求

DeepSeek 本周完成首次外部融资，估值超 500 亿美元。公司此前拒绝外部融资，因部分核心人才流失后启动融资。有传闻称，创始人梁文锋今年 5 月在投资者线上会议中向潜在资方提出要求：投资 DeepSeek 的前提之一是承诺不挖走其员工、不鼓励另起炉灶。该消息尚未核实。去年底，开发 DeepSeek V3 的罗福莉转投小米负责 MiMo AI 团队，该团队后续 AI 模型在基准测试中已超越 DeepSeek。此外，腾讯挖来曾在 OpenAI 工作的姚顺雨担任首席 AI 科学家。

DeepSeek 行业动态

20:14

IT之家（RSS）

63

DeepSeek 识图模式正式上线，无法识别创始人梁文锋

DeepSeek 识图模式于 6 月 18 日在 App 和网页端上线。IT之家测试发现，该模式无法正确识别创始人梁文锋的照片，多次将其识别为董宇辉、张雪峰或雷军；而雷军照片可正常上传并准确识别。原因可能是梁文锋网络公开照片和信息较少，模型难以形成稳定识别特征，说明 DeepSeek 未针对自家老板做特殊识别优化。

DeepSeek 产品更新多模态

16:14

IT之家（RSS）

精选72

DeepSeek 识图模式正式上线 App 和网页端

DeepSeek 识图模式于6月18日在网页和 App 端正式上线，与快速模式、专家模式并列。开启后用户可直接上传图片让 DeepSeek 识别图像，能力超越简单文字提取。目前 App 端仍显示“图片理解功能内测中”，网页端无此提示。该模式背后的多模态模型技术细节于今年4月公开，核心框架为“Thinking with Visual Primitives（以视觉原语思考）”。

DeepSeek 产品更新多模态

推荐理由：DeepSeek的识图模式终于从内测进了正式版，虽然是补课而非破圈，但对中文用户来说，让AI直接看图比打字描述常用太多，日常工作和内容处理都更顺手了。

03:06

Hacker News 热门（buzzing.cc 中文翻译）

67

美国暂未将DeepSeek列入黑名单，逾100家企业被认定为安全风险

据路透社报道，美国政府目前未将中国AI公司DeepSeek列入黑名单，但同时有超过100家企业被认定构成安全风险。这一决定显示了美方在出口管制上的谨慎态度，但目前仍保留了其他企业的大量限制措施。

DeepSeek 政策/监管

6月17日

23:07

IT之家（RSS）

同事件精选74

DeepSeek 以 4000 亿元估值完成首轮外部融资：510 亿元到账，投资方含梁文锋、腾讯、宁德时代等

企查查数据显示，DeepSeek 于 2026 年 6 月 16 日完成首轮外部融资，规模约 510 亿元，估值近 4000 亿元。投资方包括创始人梁文锋、腾讯、宁德时代、网易、京东、Monolith 砺思资本、IDG 资本、正心谷投资、拾象科技及国家人工智能产业投资基金。DeepSeek 成立于 2023 年 7 月，主营大语言模型及多模态 AI 技术研发，此前由幻方量化全资支持。本轮融资将用于扩展 AI 基础设施、加强研发、提供股权激励及加快商业化。国家人工智能产业投资基金直接入股并享有投票权，其余投资者均不享有投票权且设有五年锁定期。

DeepSeek 开源生态行业动态

同一事件，精选展示《DeepSeek 推进 700 亿元融资，梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标》

推荐理由：DeepSeek 首轮融资估值 4000 亿，腾讯、宁德时代、京东及国资等入局，但梁文锋设了五年锁定期且不给投票权，这种资本条款在头部 AI 公司里很少见，值得一看。

11:03

IT之家（RSS）

57

Anthropic 和 OpenAI 模型太贵，微软智能体考虑使用 DeepSeek V4 微调版

微软将 Copilot Cowork 智能体转为基于使用量的定价，并考虑使用 DeepSeek V4 微调版或另一种开源模型，作为 Anthropic 和 OpenAI 模型的更低成本替代方案。该模型完全托管在 Azure 上，客户数据留在微软云端，受企业级安全与合规控制。价格方面，Anthropic Fable 5 输出定价 50 美元/百万 token，DeepSeek V4 Pro 输出定价 0.87 美元/百万 token（永久 25 折后），价差约 57 倍。微软预计未来几周内推出更低成本模型。

智能体 DeepSeek Microsoft 行业动态

08:03

IT之家（RSS）

29

IT早报：DeepSeek完成超70亿美元融资，英伟达员工考公上岸，央视关注运营商不同权

DeepSeek完成超70亿美元融资，投资方包括腾讯、宁德时代、京东、网易，但无投票权，梁文峰仍掌控公司。英伟达上海员工考公上岸引热议。央视关注三大运营商新老用户不同权问题，更换套餐困难。中国移动将陆续上线通话字幕、可视菜单等升级。鸿蒙智行引入中创新航、国轩高科作为电池二供。宁德时代曾毓群称2030年前固态电池百万级装车可能性很小。

DeepSeek 行业动态

03:35

The Decoder：AI News（RSS）

50

微软 Copilot Cowork 转向按用量计费，考虑采用 DeepSeek V4

微软正考虑采用自托管微调版 DeepSeek V4 作为 Copilot Cowork 的更廉价模型选项，同时将 Cowork 改为按使用量计费。Cowork 基于 Anthropic 的 Claude 技术。Copilot EVP Charles Lamanna 表示固定费率因高频用户推高成本而不可持续。微软已在 GitHub Copilot 上实施类似调整。DeepSeek 将作为可选模型，完全托管于 Azure 并配备偏见防护，客户数据不出微软云。最终决定预计数周内做出。CEO Satya Nadella 此前发文支持企业可挑选并微调的多模型生态。

DeepSeek Microsoft 产品更新部署/工程

6月16日

22:01

Nathan Lambert：Interconnects（RSS）

52

前沿大模型后训练配方回顾：与 Finbarr Timbers 对谈

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变：从 InstructGPT 的 SFT→奖励模型→RL 三阶段，到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL，再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation（MOPD）：训练 N 个领域专家（经 SFT 和领域 RL），再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入，DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突，而专家模型易于并行训练，在线蒸馏技术日趋成熟。

DeepSeek 大佬观点开源生态推理

18:00

IT之家（RSS）

43

腾讯云 DeepSeek-V3.2 模型 7 月 16 日下线，官方建议迁移至 V4 系列

腾讯云今日公告，DeepSeek-V3.2 模型将于 2026 年 7 月 16 日 00:00 正式下线，届时不再提供接入服务，推荐迁移至能力更优的 DeepSeek-V4 系列。未完成迁移的用户，系统将自动切换至最新模型。此前 6 月 3 日，腾讯云对 DeepSeek-V4 系列大幅降价：V4-Pro 推理输入与输出价格降幅达 75%，缓存命中价格降幅高达 97.5%；V4-Flash 缓存命中价格降幅达 90%。

DeepSeek 行业动态

17:57

The Decoder：AI News（RSS）

同事件精选72

DeepSeek 完成首轮外部融资，估值超 500 亿美元

中国 AI 初创公司 DeepSeek 完成首轮外部融资，募资超 500 亿元人民币（约 74 亿美元），估值超 500 亿美元。投资结构特殊：多数投资者将资金投入 CEO 梁文锋管理的有限合伙企业，无投票权且锁定期五年；仅国资 AI 基金直接投资并保留投票权。创始人梁文锋个人投入约 200 亿元，腾讯和宁德时代为主要外部投资者。梁文锋表示优先基础 AI 研究与 AGI 开发，将继续开源。DeepSeek 去年初凭 V3、R1 模型获全球关注，今年 4 月发布运行于华为芯片的最大开源权重模型 V4，并将 V4 Pro 永久折扣 75%，输入价格约为 OpenAI GPT-5.5 的 1/11，输出价格约为 1/35。

DeepSeek 开源生态行业动态

同一事件，精选展示《DeepSeek 推进 700 亿元融资，梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标》

推荐理由：DeepSeek 首次外部融资估值冲到 500 亿美元，交易结构却排除了投资人话语权，看得出梁文锋仍把控制权抓得很紧，开源路线和极致性价比是最大的筹码。

16:00

IT之家（RSS）

69

OpenRouter 发布 Fusion API，多模型协同以一半成本接近 Claude Fable 5 性能

AI 模型 API 聚合平台 OpenRouter 于 6 月 14 日推出 Fusion API，将用户请求并行发送至多个模型，经审查模型分析后由调用模型生成统一回答。官方测试显示，Claude Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro 组合得分 68.3%，超过单独 Claude Fable 5 的 65.3%；双 Claude Opus 4.8 组合得 65.5% 同样高于 Fable 5。低成本组合 Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 得分 64.7%，以约 Claude Fable 5 一半的成本将分数差距控制在 1% 以内。

DeepSeek OpenAI 产品更新推理

15:00

IT之家（RSS）

68

DeepSeek 完成超 70 亿美元融资，腾讯、宁德时代等参投但无投票权

DeepSeek 完成超 70 亿美元（约 474 亿元）融资，估值超 500 亿美元，创中国 AI 行业单轮融资纪录。投资者获经济权益但无投票权，面临五年锁定期且不获董事会席位；国家人工智能产业投资基金例外，直接注资 10 亿元并享投票权。腾讯、宁德时代、京东、网易及 IDG 资本参与。据路透社此前报道，创始人梁文峰自掏 200 亿元，腾讯拟投 100 亿元，宁德时代拟出资 50 亿元。DeepSeek 凭 V3 与 R1 模型成中国 AI 标杆。

DeepSeek 行业动态

13:00

IT之家（RSS）

66

谷歌更新Android Bench榜单：Gemini 3.5 Flash成本最贵，约为DeepSeek V4 Flash的17.5倍

谷歌更新Android Bench榜单，GPT-5.5以74分居首，GPT-5.4与Gemini 3.1 Pro Preview并列第二（72.4分），Claude Opus 4.7（68.7分）和Opus 4.6（66.6分）分列第四、第五。谷歌自家Gemini 3.5 Flash仅获63.7分排第六，平均Token消耗3.559亿，单次运行成本147.1美元，为榜单最贵模型。成本仅为其约1/3的Gemini 3.1 Pro Preview性价比更高。DeepSeek V4 Flash以52.7分排第12，单次运行成本仅8.4美元，后者成本仅为前者的1/17.5。

DeepSeek Google 编码评测/基准

6月14日

00:17

OpenRouter：Announcements（RSS）

同事件精选73

OpenRouter融合预算模型面板超越GPT-5.5和Claude Opus 4.8

通过OpenRouter融合的一组预算模型，在100个复杂研究任务上得分超过GPT-5.5和Claude Opus 4.8。

Anthropic DeepSeek OpenAI 产品更新

同一事件，精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》

推荐理由：OpenRouter 的 Fusion API 用多个模型合成输出，基准测试里预算模型组合能接近前沿，这个思路对有质量要求又在意成本的开发者挺实用。

6月13日

21:30

公众号：数字生命卡兹克

59

实测GLM-5.2，国产Coding模型的又一座新高峰。

在Anthropic的Fable 5因美国商务部要求全面关停当日，智谱发布GLM 5.2并宣布继续开源。该模型上下文长度增至1M，在编码和智能体任务上表现突出：10万行代码的监控BUG排查耗时21分钟，结果与Claude Opus 4.8一致（后者fast模式仅需6分钟）；400-500k长上下文下准确性和指令遵循接近Claude。GLM 5.2为纯文本模型，无多模态能力，已通过Coding Plan订阅开放（限额需抢），下周将提供API并开源。

智能体 Anthropic DeepSeek 编码

6月11日

21:31

IT之家（RSS）

48

DeepSeek API 缓存计费系统出故障后主动向用户退款，赠金已到账

2026年5月13日至6月9日期间，DeepSeek开放平台缓存计费系统出现数据错误，部分API用户计费受影响。DeepSeek团队将相应金额以赠金形式自动返还至受影响账户，并明确优先从赠金账户扣款。此前DeepSeek于4月24日发布DeepSeek-V4-Pro和V4-Flash两个版本，均支持1M超长上下文，后续推行了降价策略。

DeepSeek 行业动态

09:30

IT之家（RSS）

31

DeepSeek梁文锋高考状元照片曝光：超过清华线选择浙大

随着2026高考在即，DeepSeek创始人梁文锋的高考往事被网友挖出。一张2002年广东省湛江市高考状元颁奖典礼照片显示，梁文锋以806分成为湛江市高考状元。父亲是教导副主任，母亲是教师。报道称梁文锋初中偏爱理科（尤其物理、数学），兴趣广泛，爱好足球、乒乓球、下棋，初中便学电脑。高考成绩超过清华录取分数线，但第一志愿选择了浙江大学电子信息工程专业。

DeepSeek 行业动态

‹ 上一页

12 3 4 5