6月16日

10:20

Artificial Analysis@ArtificialAnlys

Artificial Analysis Intelligence Index v4.1 发布：转向智能体任务评测

Artificial Analysis 发布 Intelligence Index v4.1，转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2（Elo 重基线、引入前沿模型评审、回合上限增至250），移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果：Claude Fable 5（60分）领先但不可用；可用模型中 Claude Opus 4.8（max）56分居首，GPT-5.5（xhigh）55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面，Opus 4.8 每任务 $1.78，GPT-5.5 $0.99，DeepSeek V4 Pro 仅 $0.04。时间方面，Grok 4.3 最快（1.5分钟），Opus 4.8 需6.4分钟，GPT-5.5 需3.7分钟，Gemini 3.1 Pro Preview 以1.6分钟得46分。

智能体 Anthropic DeepSeek 推理

6月14日

00:17

OpenRouter：Announcements（RSS）

同事件精选73

OpenRouter融合预算模型面板超越GPT-5.5和Claude Opus 4.8

通过OpenRouter融合的一组预算模型，在100个复杂研究任务上得分超过GPT-5.5和Claude Opus 4.8。

Anthropic DeepSeek OpenAI 产品更新

同一事件，精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》

推荐理由：OpenRouter 的 Fusion API 用多个模型合成输出，基准测试里预算模型组合能接近前沿，这个思路对有质量要求又在意成本的开发者挺实用。

6月13日

21:30

公众号：数字生命卡兹克

实测GLM-5.2，国产Coding模型的又一座新高峰。

在Anthropic的Fable 5因美国商务部要求全面关停当日，智谱发布GLM 5.2并宣布继续开源。该模型上下文长度增至1M，在编码和智能体任务上表现突出：10万行代码的监控BUG排查耗时21分钟，结果与Claude Opus 4.8一致（后者fast模式仅需6分钟）；400-500k长上下文下准确性和指令遵循接近Claude。GLM 5.2为纯文本模型，无多模态能力，已通过Coding Plan订阅开放（限额需抢），下周将提供API并开源。

智能体 Anthropic DeepSeek 编码

06:34

Artificial Analysis@ArtificialAnlys

Artificial Analysis 发布 AA-AgentPerf 基准，首批测试 DeepSeek V4 Pro 推理能效

Artificial Analysis 发布新基准 AA-AgentPerf，首批结果覆盖 DeepSeek V4 Pro 在 NVIDIA Blackwell（GB300、B300）、Hopper（H200）及 AMD MI355X 上的推理能效。核心指标为每兆瓦承载的并发智能体数（要求 20 tokens/s 且 TTFT≤10s）：GB300（机架级解耦）达 61,354，B300（单节点解耦）21,053，MI355X 3,551，H200 2,594。基准使用真实编码 agent 轨迹（最多 200 轮、序列超 100K tokens），允许 KV cache 复用、推测解码等生产优化并验证精度。测试显示 Blackwell 机架级比单节点能效高约 3 倍，且代际大幅领先 Hopper；MI355X 配置较早且未稳定启用推测解码，仍有优化空间。

DeepSeek 推理评测/基准

02:07

elvis@omarsar0

DAIR.AI创始人Elvis Saravia分享长期自主编码智能体运行经验

DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作，会过早暂停、犯错或走捷径（reward hacking）。关键在于明确目标、消除假设，避免模型自行推断。他的实践公式：用Opus 4.8进行细致规划，GPT-5.5执行所有步骤，评估器（通过/goal）则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标，比纯文本目标更强，能更好地约束智能体。完整讨论已录制并免费开放。

智能体 Anthropic DeepSeek OpenAI

6月12日

10:37

karminski-牙医@karminski3

FlashMemory：将DeepSeek-V4上下文显存压缩至1.3GB并提升准确率

DeepSeek-V4支持1M上下文，显存约10GB（对比DeepSeek-V3.2约84GB）。FlashMemory论文进一步将显存压至1.3GB，并在LongBench-v2等长文本评测上准确率平均提升0.6%。核心是神经内存索引器（小模型），通过预测所需历史片段按需加载，实现注意力降噪。训练采用解耦双编码器架构，无需加载DeepSeek-V4基座模型，训练成本大幅下降。论文：arxiv.org/abs/2606.09079；项目：github.com/libertywing/FlashMemory-Deepseek-V4。

DeepSeek 推理教程/实践部署/工程

6月11日

21:31

IT之家（RSS）

DeepSeek API 缓存计费系统出故障后主动向用户退款，赠金已到账

2026年5月13日至6月9日期间，DeepSeek开放平台缓存计费系统出现数据错误，部分API用户计费受影响。DeepSeek团队将相应金额以赠金形式自动返还至受影响账户，并明确优先从赠金账户扣款。此前DeepSeek于4月24日发布DeepSeek-V4-Pro和V4-Flash两个版本，均支持1M超长上下文，后续推行了降价策略。

DeepSeek 行业动态

12:25

向阳乔木@vista8

"Anthropic 最近干了一件让 AI 研究者们后背发凉的事" 这么快就被AI学到了流行语料？！ Deepseek翻译重写居然用了这句。。。

Anthropic DeepSeek 大佬观点

11:21

宝玉@dotey

DeepSeek 招聘 Agent Harness 研究员（实习/全职）

DeepSeek 开放 Agent Harness 研究员岗位（实习/全职），工作地点杭州/北京。团队使命为 “Model + Harness = Agent”，旨在将模型能力转化为 Agent 产品。职责涵盖：上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等前沿创新；实现模型与 Harness 的深度适配；构建 Harness 领域评测基准；基于真实任务与用户反馈迭代 Agent 能力。要求硕士以上学历、2年科研经验、全栈开发能力、Agent 产品重度用户，熟悉 LLM 及 Agent 机制（KV Cache、Tool Use、Reasoning、MCP 等）。

智能体 DeepSeek 行业动态

09:30

IT之家（RSS）

DeepSeek梁文锋高考状元照片曝光：超过清华线选择浙大

随着2026高考在即，DeepSeek创始人梁文锋的高考往事被网友挖出。一张2002年广东省湛江市高考状元颁奖典礼照片显示，梁文锋以806分成为湛江市高考状元。父亲是教导副主任，母亲是教师。报道称梁文锋初中偏爱理科（尤其物理、数学），兴趣广泛，爱好足球、乒乓球、下棋，初中便学电脑。高考成绩超过清华录取分数线，但第一志愿选择了浙江大学电子信息工程专业。

DeepSeek 行业动态

01:25

SemiAnalysis@SemiAnalysis_

DeepSeek 正走向重资产模式。 6 月 9 日，该公司发布了 IDC 规划工程师的招聘信息，该职位明确涉及兆瓦级到吉瓦级基础设施的设计与交付。这紧随其 4 月在内蒙古乌兰察布招聘数据中心运维工程师。综合来看，这是 DeepSeek 首次完全展露其自持算力基础设施而非仅租赁的意图。

DeepSeek 现象/趋势部署/工程

00:18

向阳乔木@vista8

DeepSeek v4 Flash 月费几十元，创作者开源AI雷达网站

作者对比 Fable 5 后强调，把大模型变便宜至关重要。他称赞 DeepSeek 极低的成本——每月使用 v4 flash 翻译大量内容，账单仅几十元。作者将自己的 AI 雷达 Skill 做成网站，支持双语对照翻译和 AI 侧边栏对话。网站本周先上线（输入 DeepSeek API 即可使用 AI 功能，也可人工点评），下周将开源。

DeepSeek 大佬观点开源生态

6月10日

22:17

向阳乔木@vista8

@NikoMcCarty 探访DeepSeek总部称，这家300人、2023年由梁文锋创立的公司脱胎于幻方，位于杭州无标识大楼，2025年1月发布R1模型，团队年轻，目前满足于落后美国约6个月，保持低调。Vista反驳：中国大模型公司并非安于落后，而是受限于显卡和技术条件。

Niko McCarty.: Notes on DeepSeek: We visited the company HQ last Tuesday. It was founded in 2023 by Liang Wenfeng and operated out of h...

DeepSeek 大佬观点行业动态

16:33

OpenCode@opencode

DeepSeek V4 Pro 现已在 OpenCode Zen 上线。

DeepSeek 产品更新编码

6月9日

22:50

SemiAnalysis@SemiAnalysis_

DeepSeek V4 1.6T 第0天至第43天性能随时间变化 - 华为， GB300 NVL72， MI355X， B200 第0天在InferenceX上的推理性能 26天内100倍性能提升每百万Token成本华为950DT推理追踪分析 https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance

DeepSeek 推理评测/基准部署/工程

16:39

SiliconFlow@SiliconFlowAI

硅基流动联合CodeWhale推出DeepSeek V4终端最佳性价比组合

硅基流动宣布，通过V4-Pro（质量）与V4-Flash（速度）两行配置，即可在终端获得DeepSeek V4的最佳性价比组合。专为DeepSeek V4构建的终端编码智能体CodeWhale现已内置SiliconFlow。CodeWhale具备流式推理（显示思考过程）、自动路由（根据任务复杂度切换模型与思考深度）、零漂移（通过书面宪法为每轮排序权威，保持V4定向）以及自我改进（V4协助编写框架，框架提升后每个会话更强大）等特性。

智能体 DeepSeek 产品更新编码

16:34

X.PIN@thexpin

DeepSeek招聘IDC工程师，计划自建数据中心

DeepSeek 发布招聘，寻找 IDC 设计与规划工程师，负责数据中心全生命周期建设（选址、布局、施工图纸、支撑基础设施）。该职位是新建设施早期技术工作的核心角色，对候选人不设最低经验要求，另有 7 年以上高级岗。岗位描述将建设规模从 MW 级扩展到 GW 级。这意味着 DeepSeek 将像 OpenAI 一样自建数据中心。

DeepSeek 数据/训练行业动态

12:55

HuggingFace Daily Papers（社区热门论文）

FlashMemory-DeepSeek-V4：通过前瞻稀疏注意力实现闪电索引超长上下文

FlashMemory-DeepSeek-V4（FM-DS-V4）提出Lookahead Sparse Attention（LSA）推理范式，基于DeepSeek-V4架构构建神经记忆索引器，主动预测未来上下文需求，仅保留查询关键KV块。采用解耦训练策略，索引器作为独立双编码器训练，无需加载主干模型。在LongBench-v2、LongMemEval、RULER等长上下文基准上，平均物理KV缓存压缩至全上下文基线的13.5%，下游精度平均提升0.6%；在500K极端长度下，物理KV开销减少超过90%，且不损害主干模型的核心推理能力。

DeepSeek 推理论文/研究

08:21

IT之家（RSS）

IT早报 0609：华为余承东官宣尊界 V800；库克 WWDC 收官演讲苹果 iOS 27 发布；月之暗面寻求 20 亿美元融资；中国 AI 大模型周调用量连续六周超越美国

华为余承东官宣尊界 V800，定位超高端 MPV，轴距 3430mm，搭载 1.5T 增程器及前后双电机。苹果 WWDC26 发布 iOS 27 等新系统，库克完成 CEO 任内“最后一舞”，Siri AI 等智能功能在中国大陆暂不提供。月之暗面正寻求 20 亿美元新一轮融资，目标估值 300 亿美元，半年估值暴涨七倍。OpenRouter 数据显示中国 AI 大模型周调用量连续六周超越美国，6 月 9 日当周环比增长 27.49% 达 14.19 万亿 Token，DeepSeek-V4-Flash 蝉联榜首，MiniMax 新模型 M3 首周冲入前三。

DeepSeek 端侧行业动态

00:41

Tomer Tunguz 博客（VC 分析）

精选56

AI 替代浪潮：三大力量重塑成本结构

三大力量重塑 AI 成本：前沿闭源模型持续涨价，开源模型在多数场景已足够好，买家开始替代。Coinbase 将提示词路由至更便宜模型，成本持平但 token 用量指数增长。Lindy 全切至 DeepSeek v4，节省数百万美元且多项核心性能提升。Harvey 在 Legal Agent Benchmark 上通过 SFT 使 Kimi 2.6 all-pass 率达 15%，超越 Opus 的 14%，同一 100 任务成本 $84 vs $954（约 11 倍价差）。Cursor 后训练 Kimi K2.5 得到 Composer 2.5，称其“性能优异且效率高达同类模型 10 倍”。闭源越来越贵，开源平价且性能接近，选择决定企业单位经济学的斜率。

Anthropic DeepSeek 开源生态推理

推荐理由：Tunguz 用 Coinbase、Lindy 等真实案例，把「用开源/便宜模型替代昂贵前沿模型」的趋势讲透了，做 AI 应用的人该重新算一下单位经济账。

00:27

AYi@AYi_AInotes

梁文锋的DeepSeek的问世成功颠覆了什么？

DeepSeek 开源生态现象/趋势

6月8日