瑞银分析师调研十余家企业IT负责人后发现,约六成企业已出台管控措施收紧AI开支。token调用成本是核心顾虑,Uber运营总监坦言AI投入回报微薄。DeepSeek等开源模型与中国本土大模型有望受益,尤其适合非代码类业务。短期内OpenAI、Anthropic等闭源厂商承压最大。谷歌推出Gemini 3.5 Flash,Anthropic发布Claude Sonnet 5以降低成本。瑞银称这一趋势为“良性调整阵痛”,无企业彻底叫停AI落地。
瑞银分析师调研十余家企业IT负责人后发现,约六成企业已出台管控措施收紧AI开支。token调用成本是核心顾虑,Uber运营总监坦言AI投入回报微薄。DeepSeek等开源模型与中国本土大模型有望受益,尤其适合非代码类业务。短期内OpenAI、Anthropic等闭源厂商承压最大。谷歌推出Gemini 3.5 Flash,Anthropic发布Claude Sonnet 5以降低成本。瑞银称这一趋势为“良性调整阵痛”,无企业彻底叫停AI落地。
英伟达 6 月 30 日发布博文,宣布在 Blackwell 平台上通过全栈推理优化,使 DeepSeek V4 模型的单 Token 成本降至 1 个月前的五分之一,达到行业最低水平。优化涵盖生产运营、应用加速和基础设施访问三层,采用分离式服务、大规模专家并行、NVLink 并行通信、NVFP4 精度及多 token 预测等技术,单 GPU 的 token 吞吐量最高提升 20 倍。
Deepseek推出DSpark推理框架,采用推测解码技术,由小模型生成候选答案、大模型批量验证,并一次生成多个token而非单个,使每用户响应速度提升60–85%。系统基于置信度动态调整验证深度,减少无效计算。DSpark与Deepseek-V4-Pro模型(与北京大学联合开发)已在HuggingFace和GitHub以MIT许可证开源。高效推理降低对高端芯片需求,有助于中国与欧盟在芯片受限下获取更多AI性能,短期构成战略优势。
DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache,但 QK-Norm 需归一化高维 Key,若缓存归一化结果则打破低维优势。文章提出数学等效变换:将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧,推理时每个 token 只需额外缓存一个逆 RMS 标量,即可严格等价实现 QK-Norm,不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中,QK-Normed MLA 相比 QK-clipping loss 更低(1B 模型 gap ~0.02),训练更稳定且收敛更快。
DeepSeek 团队 6 月 29 日宣布,DeepSeek V4 正式版计划于 7 月中旬上线,届时 API 定价将引入峰谷机制,高峰时段(每日 9:00-12:00、14:00-18:00)价格为平时的 2 倍。此前 DeepSeek-V4 预览版已于 4 月 24 日上线并同步开源,拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上实现国内与开源领域领先,按大小分为两个版本。另外,DeepSeek-V4-Pro API 已永久降价至原定价的 1/4。
Coinbase CEO Brian Armstrong 已将公司迁移至中国 AI 模型,采用智谱 GLM 5.2 和月之暗面 Kimi 2.7,token 用量攀升但支出减半。91% 的开发者从未触及旧用量上限。初创公司 Lindy 近期转向 DeepSeek V4,Snowflake 也在测试中国模型作为廉价替代品。Coinbase 部署自动路由系统,根据任务、价格和缓存潜力选择模型,缓存命中率从 5% 提升至 60%。开发者被要求保持上下文精简并开启新会话。公司让每位开发者用量透明但不设上限,Armstrong 表示“AI 支出越多,预期影响越大”。这些举措使 AI 总支出减半。同时,OpenAI 的 GPT-5.6-Sol 与 GPT-5.5 定价相同但更省 token,并推出两个廉价变体,加剧与 Anthropic 的价格战。
AI账单失控背景下,越来越多的美国企业转向Tokenminimizing策略,部分企业已100%切换使用DeepSeek以降低Token消耗。阿里千问输入法macOS版正式上线,主打最快300字/分的语音输入和AI自动润色功能,支持9种方言且无广告;官方预告iOS、Android、Windows版将于近日发布。
DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型,而是在 DeepSeek-V4 权重上附加草稿模块,通过半自回归生成(并行骨干 + 轻量级顺序头)实现无损加速。生产环境下,DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中,接受长度比 Eagle3 高 26–31%,比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。
DeepSeek 在 GitHub 上开源了推理优化方案 DeepSpec,并发布了配套论文 DSparkpaper.pdf。该方案可将模型生成速度提升 60% 至 85%,具体实现细节见论文。
美国企业面临 AI 账单失控,开始转向 Token 最小化策略。旧金山公司 Lindy 此前主要调用 Anthropic 的 Claude 模型,每月 AI 账单超支甚至超过员工工资。该公司 CEO 弗洛·克里维洛表示,本月初已将 100% 流量切换到 DeepSeek,预计未来几个月可节省数百万美元。企业开始采用按任务匹配模型的“模型路由”,不再将最贵的前沿模型用于所有场景。部分客户已决定暂停 AI 投入,待证明投资回报率后再继续。
DeepSeek 联合北京大学发布 DSpark 推理加速框架,已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版。DSpark 采用半自回归架构与置信度调度验证机制,在同等吞吐量下将单用户生成速度提升 60% 至 85%。在 Qwen3 系列和 Gemma4-12B 的离线测试中,DSpark 平均每轮接受长度优于 Eagle3 和 DFlash。生产环境下,V4-Flash 引擎在 80 token/s SLA 下吞吐量提升 51%,120 token/s 时提升 661%。相关论文、训练代码已在 GitHub 开源。
AI初创公司Lindy已完全弃用Anthropic的Claude,转而使用中国公司DeepSeek的模型(在美国境内托管)。CEO Flo Crivello向CNBC表示,其25人公司的AI成本此前“不可持续”,甚至超过人员开支;切换后成本曲线“直接跌到地面”,节省了数百万美元。Crivello称若Anthropic降价会考虑换回,因为“这关乎企业生存”。Snowflake CTO分析显示,GLM-5.2等中国模型虽未完全达到Claude水平,但在性价比上具有竞争力。OpenAI CEO Sam Altman也指出,AI成本已成为企业的“巨大问题”。
DeepSeek V4 定价极低,仅基于 token 费用就比 Anthropic 和 OpenAI 的前沿模型便宜近 50 倍,未计入思考类模型额外 token 消耗。文章指出对方陷入高成本困境,难以降价 20–50 倍竞争。开放权重模型低成本源于硬件压力测试还是亏本引流,尚存争议。担忧美国可能借“中国恐惧”推动限制开放权重模型。Google 于 2026 年 4 月发布 Gemma 4,Meta Llama 无新版本,OpenAI 最后开放权重停留在 2025 年 GTP,Anthropic 从未发布。真正开源(含训练数据管道)模型正流行,但数据截止 2024 年 12 月。美国 NSF 与 Nvidia 合作支持 Allen AI 开发完全开源 AI。
百度于6月22日开源 Unlimited OCR 模型,总参数量30亿,推理时仅激活5亿。模型延续 DeepSeek OCR 架构,编码端采用两级视觉编码并执行16倍 token 压缩,将1024×1024 PDF 图像压缩为256个视觉 token,缓解长文档解析越生成越慢问题。训练基于 DeepSeek OCR 检查点,冻结 DeepEncoder 后继续4000步,使用约200万份文档在8×16 A800 GPU上完成,单页与多页数据配比约9:1。在 OmniDocBench v1.5 上整体得分93.23(DeepSeek OCR 87.01,DeepSeek OCR 2 89.17),文本编辑距离0.038,公式 CDM 92.61,表格 TEDS 90.93,读序编辑距离0.045;v1.6 得分93.92。GitHub 已获 6.8K Star。
开源社发布《2025中国开源年度报告》。GitHub平台中国活跃开发者超210万,全球第三。OpenHarmony以60089 OpenRank值登顶全球开源项目影响力榜首。中美贡献度增速差超10%,按当前态势7年后中国开发者贡献度有望超过美国。中国OpenRank贡献度254963,全球第二。AI大模型相关仓库年均增长率超210%,vLLM进入全球项目Top15。10亿以上参数模型中Meta下载量占23.2%,阿里Qwen系列占20%,DeepSeek占3.8%,其R1训练成本仅550万美元。开源企业影响力微软居首,华为第二。
DeepSeek Harness团队负责人崔添翼6月21日发文称,新成立的Harness团队目标宏大、工作繁重,人员紧缺,正招聘Harness研究员、工程师、产品经理三个岗位。针对网友“不招外国人”的评论,崔添翼回应称,公司招人需要能用中文工作,如同美国公司要求能用英语,并无不招外国人的规定。知情人士透露,DeepSeek已在内部组建Harness团队,主攻代码智能体产品,内部对标Anthropic的Claude Code。
针对长序列转录中KV缓存累积导致显存增加和速度下降的问题,研究团队提出Unlimited OCR。该模型以DeepSeek OCR为基线,用提出的Reference Sliding Window Attention(R-SWA)替换解码器所有注意力层,在保持恒定KV缓存的同时降低注意力计算成本。结合DeepSeek OCR编码器的高压缩率,Unlimited OCR在32K标准最大长度下单次前向可转录数十页文档。R-SWA是一种通用解析注意力机制,同样适用于ASR、翻译等任务。代码和模型权重已开源。
纽约大学金融教授Aswath Damodaran在播客中警告,AI行业若发生回调,冲击可能比2000年互联网泡沫破裂更痛苦。他指出AI需巨额物理基础设施投资且多依赖债务融资,损失将波及社会。Damodaran质疑AI商业模式能否规模化,因AI每次使用都消耗算力,规模经济弱于Netflix、更像Spotify;中国Deepseek等对手带来价格侵蚀,利润率本已很低。他还警告,若AI实现替代整个岗位的愿景,将导致一半白领失业,带来巨大社会成本。科技巨头因重注AI进入不熟悉的资本密集型领域,苹果的谨慎态度在他看来更明智。
GLM-5.2(MIT开源,753B参数,约40B活跃)在AA Intelligence Index上仅比GPT-5.5低4分、比Claude Fable 5低9分,但其幻觉率仅28%,远低于GPT-5.5的86%和DeepSeek V4 Pro(1.6T参数,49B活跃)的94%。后者在AA-Omniscience基准上仅6%的问题会承认不知道。实际代码测试中,GLM-5.2用12秒和800个推理token识别出技术悖论,而DeepSeek V4 Pro耗费3分26秒和近10倍推理token后仍给出错误答案。模型规模增长正导致幻觉率飙升而非智力提升。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》DeepSeek识图模式在网页和App端正式上线。阿里千问团队将推出“千问输入法”独立App。宁德时代单季净利润207亿元,超过奇瑞、吉利、比亚迪等7家车企利润总和(约175亿元)。工信部公示我国首部L3/L4自动驾驶强制性国标,要求从证明能力转向论证安全,2027年7月起实施。此外,开发者测试发现一句“你好”消耗约5万Token(约0.125元),15元套餐不到1小时见底;DeepSeek向投资人提出“不挖人”要求;市场监管总局督导货拉拉整改,退还不合理费用1.2亿元。
DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示,V4 发布后其 token 份额从年初的9%增长至6月初的18%,自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型,到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18,远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型,DeepSeek 是主要驱动力。
DeepSeek 本周完成首次外部融资,估值超 500 亿美元。公司此前拒绝外部融资,因部分核心人才流失后启动融资。有传闻称,创始人梁文锋今年 5 月在投资者线上会议中向潜在资方提出要求:投资 DeepSeek 的前提之一是承诺不挖走其员工、不鼓励另起炉灶。该消息尚未核实。去年底,开发 DeepSeek V3 的罗福莉转投小米负责 MiMo AI 团队,该团队后续 AI 模型在基准测试中已超越 DeepSeek。此外,腾讯挖来曾在 OpenAI 工作的姚顺雨担任首席 AI 科学家。
DeepSeek 识图模式于 6 月 18 日在 App 和网页端上线。IT之家测试发现,该模式无法正确识别创始人梁文锋的照片,多次将其识别为董宇辉、张雪峰或雷军;而雷军照片可正常上传并准确识别。原因可能是梁文锋网络公开照片和信息较少,模型难以形成稳定识别特征,说明 DeepSeek 未针对自家老板做特殊识别优化。
DeepSeek 识图模式于6月18日在网页和 App 端正式上线,与快速模式、专家模式并列。开启后用户可直接上传图片让 DeepSeek 识别图像,能力超越简单文字提取。目前 App 端仍显示“图片理解功能内测中”,网页端无此提示。该模式背后的多模态模型技术细节于今年4月公开,核心框架为“Thinking with Visual Primitives(以视觉原语思考)”。
据路透社报道,美国政府目前未将中国AI公司DeepSeek列入黑名单,但同时有超过100家企业被认定构成安全风险。这一决定显示了美方在出口管制上的谨慎态度,但目前仍保留了其他企业的大量限制措施。
企查查数据显示,DeepSeek 于 2026 年 6 月 16 日完成首轮外部融资,规模约 510 亿元,估值近 4000 亿元。投资方包括创始人梁文锋、腾讯、宁德时代、网易、京东、Monolith 砺思资本、IDG 资本、正心谷投资、拾象科技及国家人工智能产业投资基金。DeepSeek 成立于 2023 年 7 月,主营大语言模型及多模态 AI 技术研发,此前由幻方量化全资支持。本轮融资将用于扩展 AI 基础设施、加强研发、提供股权激励及加快商业化。国家人工智能产业投资基金直接入股并享有投票权,其余投资者均不享有投票权且设有五年锁定期。
同一事件,精选展示《DeepSeek 推进 700 亿元融资,梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标》微软将 Copilot Cowork 智能体转为基于使用量的定价,并考虑使用 DeepSeek V4 微调版或另一种开源模型,作为 Anthropic 和 OpenAI 模型的更低成本替代方案。该模型完全托管在 Azure 上,客户数据留在微软云端,受企业级安全与合规控制。价格方面,Anthropic Fable 5 输出定价 50 美元/百万 token,DeepSeek V4 Pro 输出定价 0.87 美元/百万 token(永久 25 折后),价差约 57 倍。微软预计未来几周内推出更低成本模型。
DeepSeek完成超70亿美元融资,投资方包括腾讯、宁德时代、京东、网易,但无投票权,梁文峰仍掌控公司。英伟达上海员工考公上岸引热议。央视关注三大运营商新老用户不同权问题,更换套餐困难。中国移动将陆续上线通话字幕、可视菜单等升级。鸿蒙智行引入中创新航、国轩高科作为电池二供。宁德时代曾毓群称2030年前固态电池百万级装车可能性很小。
微软正考虑采用自托管微调版 DeepSeek V4 作为 Copilot Cowork 的更廉价模型选项,同时将 Cowork 改为按使用量计费。Cowork 基于 Anthropic 的 Claude 技术。Copilot EVP Charles Lamanna 表示固定费率因高频用户推高成本而不可持续。微软已在 GitHub Copilot 上实施类似调整。DeepSeek 将作为可选模型,完全托管于 Azure 并配备偏见防护,客户数据不出微软云。最终决定预计数周内做出。CEO Satya Nadella 此前发文支持企业可挑选并微调的多模型生态。
Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突,而专家模型易于并行训练,在线蒸馏技术日趋成熟。
腾讯云今日公告,DeepSeek-V3.2 模型将于 2026 年 7 月 16 日 00:00 正式下线,届时不再提供接入服务,推荐迁移至能力更优的 DeepSeek-V4 系列。未完成迁移的用户,系统将自动切换至最新模型。此前 6 月 3 日,腾讯云对 DeepSeek-V4 系列大幅降价:V4-Pro 推理输入与输出价格降幅达 75%,缓存命中价格降幅高达 97.5%;V4-Flash 缓存命中价格降幅达 90%。
中国 AI 初创公司 DeepSeek 完成首轮外部融资,募资超 500 亿元人民币(约 74 亿美元),估值超 500 亿美元。投资结构特殊:多数投资者将资金投入 CEO 梁文锋管理的有限合伙企业,无投票权且锁定期五年;仅国资 AI 基金直接投资并保留投票权。创始人梁文锋个人投入约 200 亿元,腾讯和宁德时代为主要外部投资者。梁文锋表示优先基础 AI 研究与 AGI 开发,将继续开源。DeepSeek 去年初凭 V3、R1 模型获全球关注,今年 4 月发布运行于华为芯片的最大开源权重模型 V4,并将 V4 Pro 永久折扣 75%,输入价格约为 OpenAI GPT-5.5 的 1/11,输出价格约为 1/35。
同一事件,精选展示《DeepSeek 推进 700 亿元融资,梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标》AI 模型 API 聚合平台 OpenRouter 于 6 月 14 日推出 Fusion API,将用户请求并行发送至多个模型,经审查模型分析后由调用模型生成统一回答。官方测试显示,Claude Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro 组合得分 68.3%,超过单独 Claude Fable 5 的 65.3%;双 Claude Opus 4.8 组合得 65.5% 同样高于 Fable 5。低成本组合 Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 得分 64.7%,以约 Claude Fable 5 一半的成本将分数差距控制在 1% 以内。
DeepSeek 完成超 70 亿美元(约 474 亿元)融资,估值超 500 亿美元,创中国 AI 行业单轮融资纪录。投资者获经济权益但无投票权,面临五年锁定期且不获董事会席位;国家人工智能产业投资基金例外,直接注资 10 亿元并享投票权。腾讯、宁德时代、京东、网易及 IDG 资本参与。据路透社此前报道,创始人梁文峰自掏 200 亿元,腾讯拟投 100 亿元,宁德时代拟出资 50 亿元。DeepSeek 凭 V3 与 R1 模型成中国 AI 标杆。
谷歌更新Android Bench榜单,GPT-5.5以74分居首,GPT-5.4与Gemini 3.1 Pro Preview并列第二(72.4分),Claude Opus 4.7(68.7分)和Opus 4.6(66.6分)分列第四、第五。谷歌自家Gemini 3.5 Flash仅获63.7分排第六,平均Token消耗3.559亿,单次运行成本147.1美元,为榜单最贵模型。成本仅为其约1/3的Gemini 3.1 Pro Preview性价比更高。DeepSeek V4 Flash以52.7分排第12,单次运行成本仅8.4美元,后者成本仅为前者的1/17.5。
通过OpenRouter融合的一组预算模型,在100个复杂研究任务上得分超过GPT-5.5和Claude Opus 4.8。
同一事件,精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》在Anthropic的Fable 5因美国商务部要求全面关停当日,智谱发布GLM 5.2并宣布继续开源。该模型上下文长度增至1M,在编码和智能体任务上表现突出:10万行代码的监控BUG排查耗时21分钟,结果与Claude Opus 4.8一致(后者fast模式仅需6分钟);400-500k长上下文下准确性和指令遵循接近Claude。GLM 5.2为纯文本模型,无多模态能力,已通过Coding Plan订阅开放(限额需抢),下周将提供API并开源。
2026年5月13日至6月9日期间,DeepSeek开放平台缓存计费系统出现数据错误,部分API用户计费受影响。DeepSeek团队将相应金额以赠金形式自动返还至受影响账户,并明确优先从赠金账户扣款。此前DeepSeek于4月24日发布DeepSeek-V4-Pro和V4-Flash两个版本,均支持1M超长上下文,后续推行了降价策略。
随着2026高考在即,DeepSeek创始人梁文锋的高考往事被网友挖出。一张2002年广东省湛江市高考状元颁奖典礼照片显示,梁文锋以806分成为湛江市高考状元。父亲是教导副主任,母亲是教师。报道称梁文锋初中偏爱理科(尤其物理、数学),兴趣广泛,爱好足球、乒乓球、下棋,初中便学电脑。高考成绩超过清华录取分数线,但第一志愿选择了浙江大学电子信息工程专业。