7月2日

23:39

Deedy@deedydas

2020 年以来按网站流量排名的前 20 家初创公司

Deedy Das 列出 2020 年以来按网站流量排名前 20 的初创公司：DeepSeek、Perplexity、Suno 领衔。仅 25%（Polymarket、Supabase、Fanvue、ShopMy、Whop）非 AI；20% 已被收购；未上榜的知名公司包括 Kalshi（2018 年成立）、Mistral（1000 万月访问量）、OpenEvidence（1140 万）、Cognition；除 GPTZero 和 Fanvue 外均为独角兽，其中 7 家为十角兽，但流量与估值无明显关联。

DeepSeek 现象/趋势

07:37

SemiAnalysis@SemiAnalysis_

本周 InferenceX 团队讨论了将 DeepSeek V4 部署到 InferenceX 所需的工作、模型架构的变化、什么是 MegaKernel，以及在包括华为昇腾 NPU 在内的各种加速器上的初始性能。

DeepSeek 推理评测/基准部署/工程

7月1日

18:03

IT之家（RSS）

瑞银：约六成企业收紧 AI 开支，DeepSeek 等开源大模型有望受益

瑞银分析师调研十余家企业IT负责人后发现，约六成企业已出台管控措施收紧AI开支。token调用成本是核心顾虑，Uber运营总监坦言AI投入回报微薄。DeepSeek等开源模型与中国本土大模型有望受益，尤其适合非代码类业务。短期内OpenAI、Anthropic等闭源厂商承压最大。谷歌推出Gemini 3.5 Flash，Anthropic发布Claude Sonnet 5以降低成本。瑞银称这一趋势为“良性调整阵痛”，无企业彻底叫停AI落地。

DeepSeek 开源生态现象/趋势

14:03

IT之家（RSS）

英伟达刷新 DeepSeek V4 推理纪录：单 Token 成本降至 1/5，AI 吞吐量最高提升 20 倍

英伟达 6 月 30 日发布博文，宣布在 Blackwell 平台上通过全栈推理优化，使 DeepSeek V4 模型的单 Token 成本降至 1 个月前的五分之一，达到行业最低水平。优化涵盖生产运营、应用加速和基础设施访问三层，采用分离式服务、大规模专家并行、NVLink 并行通信、NVFP4 精度及多 token 预测等技术，单 GPU 的 token 吞吐量最高提升 20 倍。

DeepSeek 推理行业动态部署/工程

6月30日

16:38

The Decoder：AI News（RSS）

Deepseek发布DSpark推理框架，AI响应速度最高提升85%

Deepseek推出DSpark推理框架，采用推测解码技术，由小模型生成候选答案、大模型批量验证，并一次生成多个token而非单个，使每用户响应速度提升60–85%。系统基于置信度动态调整验证深度，减少无效计算。DSpark与Deepseek-V4-Pro模型（与北京大学联合开发）已在HuggingFace和GitHub以MIT许可证开源。高效推理降低对高端芯片需求，有助于中国与欧盟在芯片受限下获取更多AI性能，短期构成战略优势。

DeepSeek 开源/仓库开源生态推理

16:29

Rohan Paul@rohanpaul_ai

花旗研究：中国模型token价格低至18美分，企业转向成本控制引AI定价压力

花旗研究数据显示，中国模型每百万token收费低至18美分，而顶级模型均价4美元。OpenRouter上开源模型处理占比从1月34%升至6月65%，DeepSeek等中国模型因低价受关注。Gartner预测AI编码成本2028年将超普通开发者薪资。按用量付费使企业从“选最强模型”转向成本控制，OpenAI和Anthropic面临逐任务比价压力。前Meta PM及Perplexity CEO指出，中国能更快建设数据中心，电力、许可、人力、专业能力均不成问题，进一步压低成本。

Rohan Paul: Opinion from a former Meta PM. And this is from Aravind Srinivas of Perplexity "China can build data centers a lot faste...

DeepSeek 开源生态现象/趋势

06:05

karminski-牙医@karminski3

DeepSeek DSpark：推测性解码技术详解

DeepSeek推出的DSpark是一种推测性解码技术，通过在Final RMSNorm后接入3层MTP微型Transformer堆叠，让大模型在输出前并行猜5个token，经置信度头剪裁后，送回大模型用prefill验证，正确则一次性吐出多个token。相比外挂小模型更高效，不降智，速度提升60%-85%。目前SGLang已有相关PR（#29538），DeepSeek已在HuggingFace发布多款DSpark魔改版小模型。

DeepSeek 推理教程/实践部署/工程

6月29日

18:10

公众号：蚂蚁百灵（Ling）

如何优雅地给 MLA 加上 QK-Norm？

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache，但 QK-Norm 需归一化高维 Key，若缓存归一化结果则打破低维优势。文章提出数学等效变换：将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧，推理时每个 token 只需额外缓存一个逆 RMS 标量，即可严格等价实现 QK-Norm，不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中，QK-Normed MLA 相比 QK-clipping loss 更低（1B 模型 gap ~0.02），训练更稳定且收敛更快。

DeepSeek 推理教程/实践数据/训练

18:01

IT之家（RSS）

DeepSeek V4 正式版 7 月中旬上线，API 引入峰谷定价

DeepSeek 团队 6 月 29 日宣布，DeepSeek V4 正式版计划于 7 月中旬上线，届时 API 定价将引入峰谷机制，高峰时段（每日 9:00-12:00、14:00-18:00）价格为平时的 2 倍。此前 DeepSeek-V4 预览版已于 4 月 24 日上线并同步开源，拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上实现国内与开源领域领先，按大小分为两个版本。另外，DeepSeek-V4-Pro API 已永久降价至原定价的 1/4。

DeepSeek 开源生态推理模型发布

13:34

karminski-牙医@karminski3

Flash系列模型横评：Gemini-3.5-Flash、Step-3.7-Flash、DeepSeek-V4-Flash

推文对三款Flash级模型（Gemini-3.5-Flash、Step-3.7-Flash、DeepSeek-V4-Flash）进行横评。这些模型定位为多智能体系统和RAG系统的驱动模型。评测维度包括Agent Loop迭代能力、Agent能力、前端/后端、空间理解、美学、性价比等。Gemini-3.5-Flash更适合前端页面、建模等“漂亮活”。Step-3.7-Flash极具性价比，在Agent测试中Token效率极高（用最少Token完成最多任务），适合作为OpenClaw、Hermes等Agent框架的驱动模型。DeepSeek-V4-Flash后端能力出色，适合写脚本或驱动ClaudeCode用于AI-Ops。

智能体 DeepSeek Google 评测/基准

08:24

ginobefun@hongming731

BestBlogs早报：OpenAI Codex谈品味策展、Cloudflare机器人流量超人类、陪伴机器人"小伴"、DSpark推测解码等

OpenAI Codex负责人称，代码实现成本趋近于零后，产品瓶颈转向品味与策展。Cloudflare CEO预测2026上半年机器人流量超人类，五年后或达千倍，广告模式难以为继，公司已裁20%团队并扩管理幅度至12:1。陪伴机器人“小伴”采用端侧1.7B+7B模型，延迟压至0.4秒。Grok 4.5在SpaceX/特斯拉私测，基于1.5T参数V9模型，性能接近Opus。DeepSeek发布DSpark推测解码框架，DeepSeek-V4单用户生成速度提升60-85%。路由层降AI成本60%但质量损失代价为节省额4-5倍。2000人次6000多次提示词注入攻击下，Claude Opus 4.6成功保护secrets.env文件。

ginobefun: http://x.com/i/article/2071376452755587072

DeepSeek OpenAI 行业动态

00:23

Berryxia.AI@berryxia

DeepSeek 开源 DSpark 投机解码框架

DeepSeek 开源 DSpark，一个面向生产环境的投机解码框架。核心解决传统投机解码中 draft 模型猜测后期 token 错误率高、浪费算力的问题。DSpark 采用并行 backbone + 顺序 Markov head 混合架构，消除后缀衰减；并引入置信度 head 和负载感知调度器，动态控制验证数量。在 DeepSeek-V4 生产系统中，单用户生成速度比 MTP-1 基线快 60-85%，吞吐提升 1.5x 至 5x。开源内容包括基于 V4 权重的 DeepSeek-V4-Pro-DSpark/Flash-DSpark checkpoint，以及 MIT 协议的 DeepSpec 训练代码，与北京大学联合开发。

Dmytro Dzhulgakov: DSpark from @deepseek_ai ingeniously integrates many speculative decoding ideas to achieve 1.5x to 5x higher throughput ...

DeepSeek 开源/仓库推理部署/工程

6月28日

23:40

Chubby♨️@kimmonismus

中国开源权重模型 GLM-5.2 发布，被评价为继 DeepSeek 之后的第二次"DeepSeek 时刻"。有评论指出，其性能已可与 OpenAI 和 Anthropic 当前可用模型媲美。白宫 AI 负责人 David Sacks 就此警告，美国若继续将自身模型置于"炼狱"（指过度监管或限制），世界将转向中国技术，美国公司将在竞赛中落后。该言论呼应了此前 DeepSeek 开源模型的全球影响，凸显中美 AI 开源竞争进入新阶段。

Innovation Council: "We now have a Chinese open-weight model that is as good as the currently available models from OpenAI and Anthropic." @...

DeepSeek 大佬观点开源生态

20:40

The Decoder：AI News（RSS）

Coinbase 转向中国 AI 模型，西方实验室面临定价压力测试

Coinbase CEO Brian Armstrong 已将公司迁移至中国 AI 模型，采用智谱 GLM 5.2 和月之暗面 Kimi 2.7，token 用量攀升但支出减半。91% 的开发者从未触及旧用量上限。初创公司 Lindy 近期转向 DeepSeek V4，Snowflake 也在测试中国模型作为廉价替代品。Coinbase 部署自动路由系统，根据任务、价格和缓存潜力选择模型，缓存命中率从 5% 提升至 60%。开发者被要求保持上下文精简并开启新会话。公司让每位开发者用量透明但不设上限，Armstrong 表示“AI 支出越多，预期影响越大”。这些举措使 AI 总支出减半。同时，OpenAI 的 GPT-5.6-Sol 与 GPT-5.5 定价相同但更省 token，并推出两个廉价变体，加剧与 Anthropic 的价格战。

DeepSeek OpenAI 行业动态部署/工程

08:00

IT之家（RSS）

DeepSeek成美国企业AI账单失控下的"香饽饽"，阿里千问输入法macOS版上线

AI账单失控背景下，越来越多的美国企业转向Tokenminimizing策略，部分企业已100%切换使用DeepSeek以降低Token消耗。阿里千问输入法macOS版正式上线，主打最快300字/分的语音输入和AI自动润色功能，支持9种方言且无广告；官方预告iOS、Android、Windows版将于近日发布。

DeepSeek 开源生态推理行业动态

05:56

Rohan Paul@rohanpaul_ai

中国AI模型价格仅为美国1/50，UBS称60%企业转向更便宜模型

J.P. Morgan报告显示，中国AI模型每token比美国便宜50倍，Qwen、DeepSeek、Kimi施压OpenAI和Anthropic定价。到2026年4月，中国公司在OpenRouter流量占比将从不足2%升至超45%。报告还指出企业AI token将商品化，多数任务无需前沿模型；AI已驱动标普500回报的65%-80%；NVIDIA仍主导AI加速器，但定制芯片可降总成本30%-40%；中国GPU自给率提升。UBS调查发现，60%监控AI预算的企业已转向更便宜模型，通过模型路由将简单任务分流至Qwen、DeepSeek、MiniMax等开源模型，以应对最高$35K/月账单及团队超配额200%的压力。

Rohan Paul: UBS says 60% of companies now watching AI budgets are moving to cheaper models and open-source Chinese models The pressu...

DeepSeek 开源生态现象/趋势

02:55

Rohan Paul@rohanpaul_ai

DeepSeek 发布 DSpark：半并行推测解码推理优化方法

DeepSeek 提出 DSpark，一种半并行推测解码系统，使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证：草稿模型并行生成多个候选 token，再由一个小型马尔可夫头根据前一个 token 微调每个猜测，弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器基于接受概率和 GPU 负载，动态决定每个请求需验证的 token 数量，避免无效计算。

DeepSeek 推理论文/研究

02:00

Yuchen Jin@Yuchenj_UW

DeepSeek 是 GOAT。🐳 他们刚刚发布了 DSpark，一种新的推测解码方法，将吞吐量提升 51% 到 400%。他们还开源了背后的训练框架 DeepSpec。这才是真正的开放 AI。

DeepSeek GitHub 开源生态推理

01:06

MarkTechPost（RSS）

精选79

DeepSeek 开源 DSpark 投机解码框架，加速 DeepSeek-V4 生成速度 60-85%

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型，而是在 DeepSeek-V4 权重上附加草稿模块，通过半自回归生成（并行骨干 + 轻量级顺序头）实现无损加速。生产环境下，DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中，接受长度比 Eagle3 高 26–31%，比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。

DeepSeek 推理论文/研究部署/工程

推荐理由：DeepSeek 开源的这个投机解码框架让 V4 生成提速 60% 以上，关键在于不换模型就能加速，对用 API 做产品的人是立即可用的性能提升。代码和权重都给了，值得一试。

6月27日

20:43

凡人小北@frxiaobei

DeepSeek V4 进行了一次更新。新推出了投机解码（Speculative Decoding）框架 DSpark，推理速度提升 80%。 DSpark 已被部署在 DeepSeek-V4（Flash 和 Pro）的真实线上流量中。报告：《DSpark： Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》 https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

DeepSeek 产品更新推理论文/研究

18:32

Hacker News 热门（buzzing.cc 中文翻译）

DeepSeek 开源推理优化方案 DeepSpec，生成速度提升 60% 至 85%

DeepSeek 在 GitHub 上开源了推理优化方案 DeepSpec，并发布了配套论文 DSparkpaper.pdf。该方案可将模型生成速度提升 60% 至 85%，具体实现细节见论文。

DeepSeek 开源生态推理论文/研究

16:59

IT之家（RSS）

精选70

AI 账单失控后 DeepSeek 成"香饽饽"，部分美国企业已 100% 切换

美国企业面临 AI 账单失控，开始转向 Token 最小化策略。旧金山公司 Lindy 此前主要调用 Anthropic 的 Claude 模型，每月 AI 账单超支甚至超过员工工资。该公司 CEO 弗洛·克里维洛表示，本月初已将 100% 流量切换到 DeepSeek，预计未来几个月可节省数百万美元。企业开始采用按任务匹配模型的“模型路由”，不再将最贵的前沿模型用于所有场景。部分客户已决定暂停 AI 投入，待证明投资回报率后再继续。

DeepSeek 开源生态现象/趋势

推荐理由：一家初创把AI调用从Claude全切到DeepSeek，省下的钱超过工资总额，企业客户开始用模型路由压成本，这个趋势比任何benchmark都更能说明价格战的影响。

15:59

IT之家（RSS）

DeepSeek 联合北大发布 DSpark 推理加速框架，速度提升 60% 至 85%

DeepSeek 联合北京大学发布 DSpark 推理加速框架，已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版。DSpark 采用半自回归架构与置信度调度验证机制，在同等吞吐量下将单用户生成速度提升 60% 至 85%。在 Qwen3 系列和 Gemma4-12B 的离线测试中，DSpark 平均每轮接受长度优于 Eagle3 和 DFlash。生产环境下，V4-Flash 引擎在 80 token/s SLA 下吞吐量提升 51%，120 token/s 时提升 661%。相关论文、训练代码已在 GitHub 开源。

DeepSeek 开源/仓库推理部署/工程

05:53

Orange AI@oran_ge

GLM 5.2、DeepSeek v4 Pro、GPT 5.5 反直觉使用现状

推文分享了三个反直觉的模型观察：GLM 5.2 正在取代 Claude Sonnet 和 Opus 成为付费用户最爱；DeepSeek v4 Pro 仍是大众最受欢迎模型；GPT 5.5 虽然强大但几乎无人使用。数据来源为 cola 的 token 消耗统计，侧面说明 cola 和 codex（GPT 5.5 用户）画像完全不同。

DeepSeek OpenAI 大佬观点开源生态

6月26日

23:39

The Decoder：AI News（RSS）

AI初创公司Lindy弃用Claude全面改用DeepSeek，节省数百万美元

AI初创公司Lindy已完全弃用Anthropic的Claude，转而使用中国公司DeepSeek的模型（在美国境内托管）。CEO Flo Crivello向CNBC表示，其25人公司的AI成本此前“不可持续”，甚至超过人员开支；切换后成本曲线“直接跌到地面”，节省了数百万美元。Crivello称若Anthropic降价会考虑换回，因为“这关乎企业生存”。Snowflake CTO分析显示，GLM-5.2等中国模型虽未完全达到Claude水平，但在性价比上具有竞争力。OpenAI CEO Sam Altman也指出，AI成本已成为企业的“巨大问题”。

Anthropic DeepSeek 行业动态

23:23

Rohan Paul@rohanpaul_ai

DeepSeek被Anthropic Mythos震慑，融资74亿并计划全员翻倍

The Information报道，Anthropic的Mythos预览版让DeepSeek感到震惊，CEO梁文峰意识到需要更大现金储备来竞争。DeepSeek随即启动74亿美元融资，并计划将所有部门员工数量翻倍，招聘覆盖AI核心研发、算法、深度学习、全栈开发和产品岗位，表明DeepSeek正从仅调模型转向构建完整系统。AI竞争已变为计算储备、人才密度、基础设施、产品表面积和现金储备的综合较量。

Rohan Paul: Reuters: DeepSeek is going on a hiring sprint, aiming to double every department. The hiring spans AI core R&D, algorith...

Anthropic DeepSeek 行业动态