7月2日

06:42

Dwarkesh Patel：Podcast & Blog（RSS）

Dwarkesh Patel举办的AI征文比赛评选出三位获奖者。第一名Jassi Pannu主张OpenAI基金会应投入数十亿美元终结空气传播疾病，利用AI加速自主生物学发现，可带来超1万亿美元年GDP增长并消除灾难性流行病风险。第二名Ege Erdil建议AI供应链外的国家通过强产权、低资本税和开放监管政策抓住增长机会。第三名Michael Li类比香港地铁商业模式，提出AI实验室可通过收购互补性资产盈利。

大佬观点现象/趋势

01:39

Meta Engineering Blog（RSS）

精选71

Meta 大规模 AI 存储蓝图

Meta 运营数百 EB 级存储集群，基于 Tectonic 分层存储层构建 BLOB 存储架构，以应对两大挑战：最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟，使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上，利用闪存提供可预测的低 pMax 延迟，避免单 GPU 慢速拖慢整批任务。同时，统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动，提升研究效率。

Meta 数据/训练现象/趋势部署/工程

推荐理由：Meta的存储架构复盘给出了一条明确路径，从重写元数据到分层缓存，他们把GPU利用率和研究者迭代速度同时提升了一个档次，做AI训练平台的值得细读。

7月1日

22:20

Cloudflare Blog

内容独立日一周年：构建智能体互联网的商业模型

内容独立日宣布一年后，一个付费内容的动态市场已正式形成。自主AI智能体的兴起正在颠覆传统搜索推荐模式，构建可持续的网络经济需要一套全新基础设施来支撑。

智能体搜索现象/趋势

07:34

Tomer Tunguz 博客（VC 分析）

2026 年 CIO 的选择很明确

对 87 家上市 SaaS 及平台公司的分析显示，2026 年只有基础设施与开发工具（一年涨幅 68.5%）和安全（一年涨幅 17.6%）两个板块增长为正，其余三个板块均下跌。市场正在买入 AI 基础设施，卖出按席位定价的应用层。

大佬观点现象/趋势

00:42

Dwarkesh Patel：Podcast & Blog（RSS）

精选61

Grant Sanderson 谈 AI 与数学的未来

3Blue1Brown 创办人 Grant Sanderson 正在制作记录 AI 在数学领域进展的新项目。他在与 Dwarkesh Patel 的对谈中指出，AI 在 IMO 获金牌并不等于 AGI，只是又一个被攻克的基准。即使 AI 未来解决千禧年大奖难题，仍可能存在大量人类任务无法被自动化。对话还探讨了概念突破验证周期可长达一个世纪、Riemann 假设的 AI 证明能否被人类理解、AI 能否在已有文献间发现隐藏联系，以及现实经济任务难以套用强化学习环境等话题。

大佬观点推理现象/趋势

推荐理由：这次对谈没有停留在AI刷数学题的喜报上，而是追问了‘验证循环’和‘定义生成’两个终极难题。Grant Sanderson的视角让人重新思考AI的进展究竟缺什么，数学家未来的角色会是什么。

00:13

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选62

OpenAI Signals 数据揭示 ChatGPT 全球采用趋势

OpenAI Signals 数据显示，用户注册六个月后日均消息量增加50%，尝试任务种类翻倍。自2023年7月以来，各大洲活跃用户均大幅增长，非洲和亚洲增速最快，低人类发展指数国家增长尤为显著。用户群体更加多元化，女性名字用户已占全球多数，巴西、哥伦比亚、波兰和纳米比亚等国女性用户显著多于男性。非英语用户占活跃用户半数以上，领先语言为西班牙语、葡萄牙语和阿拉伯语；乌兹别克语、哈萨克语和缅甸语用户占比增长百分比最大。

OpenAI 现象/趋势

推荐理由：OpenAI 首次公开用户行为数据，显示使用深度和广度随时间增长、非洲与亚洲增速最快，对做全球化产品的同行是个重要信号。

6月30日

23:29

Hugging Face：Blog（RSS）

专业化为何不可避免

Dharma AI 团队引述 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 于 2026 年发表的论文，从优化理论、生物学和竞争市场论证专业化的必然性。Wolpert-Macready 无免费午餐定理表明，通用优化算法在所有问题上平均表现相同，实际优势来自专门适配；有限资源下，集中资源于有限任务集的系统必然优于平均分配的通用系统。生物学中的特化权衡与市场竞争也指向同一结论：最大化适应性在于精确拟合特定环境，而非追求通用性。

数据/训练现象/趋势

14:27

Google Blog：AI（RSS）

英国职场AI采用率翻倍，仅15%"AI先锋"获得晋升加薪优势

Google UK与Public First研究发现，英国职场AI采用率一年内从34%升至73%，但呈不均衡曲线。仅15%的“AI Trailblazers”（深度用户）晋升概率高84%、绩效高88%、加薪概率高55%，每周节省近8小时。其余85%仍处于旁观、实验或实践阶段。阻碍因素包括：一次即弃的提示词习惯、搜索框思维、缺乏明确使用许可。Public First推出AI技能测验，Google的“AI Works for Britain”计划支持2030年前培训1000万工人AI技能的目标。

Google 现象/趋势

6月29日

18:36

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选62

OpenAI 报告：绘制欧洲 AI 劳动力机遇版图

OpenAI 发布新报告，分析 AI 对欧盟就业的影响，划定哪些职业面临自动化、增长或工作流程变化。

OpenAI 现象/趋势论文/研究

推荐理由：与常见的「AI会取代工作」观点不同，OpenAI 用具体数据画出了欧洲就业的迁移路线，政策制定者应该打开看看，虽然报告全文的方法论尚待检验。

01:26

Nathan Lambert：Interconnects（RSS）

精选60

Artifacts 22：Zyphra、Cohere 和 Poolside 正在扩展生态系统广度

开源模型生态正变得更多元，参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs；科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机；产品公司如 JetBrains、Zed、Krea、Photoroom 则训练高度专业的小模型。NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16，采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型 Command A+（05-2026-bf16），这是一款 218B-A25B MoE 模型，具备多模态、多语言和智能体能力。

开源生态模型发布现象/趋势

推荐理由：这篇文章把开源模型玩家拆成三类，清晰解释了不同动机，Cohere 转向 Apache 2.0 和 NVIDIA 采用 OpenMDW 是许可层面的重要信号，关注开源的值得一读。

6月28日

23:42

Gary Marcus：The Road to AI We Can Trust（RSS）

中国追赶

美国AI产业受中国追赶引发价格战，token价格趋近于零，利润微薄，Anthropic和OpenAI的万亿IPO难以实现，数据中心巨额投资难回收。当前范式有三个根本缺陷：暴力训练全互联网成本高昂且效率低下；系统不可靠，长期无法维持溢价；基础方法易复制，导致价格战与负利润率。另有人认为，整个AI竞赛方向可能被误解，美国不应只追求最便宜的LLM，而应开发更适合科学与医学的AI新形态。

大佬观点现象/趋势

04:41

Gary Marcus：The Road to AI We Can Trust（RSS）

本月生成式AI失去了魔力

OpenAI倾向于推迟IPO至明年，因估值不及预期且零售投资者兴趣不足。SpaceX一周跌11.74%，Nvidia近一月跌超8%，Oracle跌22%，CoreWeave跌4%，Microsoft跌10%，SoftBank跌12%，Cerebras跌32%。美国AI政策混乱遭广泛批评，中国模型快速崛起。作者认为大语言模型正商品化。

OpenAI 大佬观点现象/趋势行业动态

6月27日

01:33

Tomer Tunguz 博客（VC 分析）

应用层公司：护城河是赢得的，并非与生俱来

应用层公司创立时通常没有护城河。护城河分两种：先发护城河（技术差异、专有数据集、新颖架构，多见于基础设施层）和滞后护城河（规模经济、品牌、渠道关系，需长期积累）。Salesforce 凭借销售能力、品牌和十年先发优势胜过技术更好的 Siebel；Snowflake 以存储计算分离架构赢得先发护城河，再建设滞后护城河。基于 7 Powers 框架，规模经济、品牌和转换成本天然是滞后的。应用层创业公司可以坦诚回答：我们正在建造护城河。

大佬观点现象/趋势

6月26日

23:18

Anthropic：Research（发表成果 · 网页）

精选55

Anthropic Economic Index 报告：使用节奏

Anthropic 发布 Economic Index 报告，基于隐私保护遥测数据分析了 Claude 的使用节奏。工作日个人对话占比约 35%，周末升至近 50%；高薪职业在工作日外的使用占比更高。日内模式显示：新闻请求集中在早上 7 点，食谱在下午 6 点达到 2.3 倍高频，睡眠建议凌晨 3 点最多。税收相关请求在 4 月 15 日美国报税截止日前激增。调查还发现：使用 Claude 最自动化的用户预计 AI 明年将承担更多任务，但对薪资、工作安全及工作意义的预期最为乐观。

Anthropic 现象/趋势论文/研究

推荐理由：这是 Anthropic 迄今最详细的 AI 使用经济分析，从使用节律到输出自主性再到用户调查，展示 AI 渗透的真实图景。我最关注调查结果：自动化使用越多的人对职业前景反而更乐观。

04:32

Tomer Tunguz 博客（VC 分析）

Sail Research 构建集群感知编排，加速异步推理

推理市场是软件中最大的市场。AI工作负载正从同步聊天转向异步、多轮智能体，运行时长可达数小时。Sail Research 为此构建了集群感知（fleet‑aware）编排系统，以最大化每美元推理支出的吞吐量。

推理现象/趋势

00:34

Gary Marcus：The Road to AI We Can Trust（RSS）

Generative AI FizzleTM：生成式AI泡沫正在缓慢消退

Gary Marcus 昨日提出新术语 Generative AI Fizzle™，认为生成式AI行业估值过高，投资者对 hype 与利润的落差失去热情。LLM 已商品化，价格战激烈，提供商盈利艰难。昨日一款新的中国开源模型发布，可能进一步冲击美国 LLM 公司。多数 AI 股票本月显著下跌，泡沫可能不会突然破裂，而是缓慢消退。

大佬观点现象/趋势行业动态

6月25日

17:09

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选65

OpenAI内部报告：智能体Codex如何改变工作

OpenAI 在2025年8月至2026年6月间观察到，智能体产品 Codex 取代 ChatGPT 成为主要工作工具，各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求，70.2%超1小时，25.6%超8小时；99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛：个体用户增长137倍，组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点，平均每位律师或招聘人员超85%输出 token 来自 Codex。

智能体 OpenAI 现象/趋势论文/研究

关联讨论 2 条

推荐理由：OpenAI 第一次用内部数据量化智能体如何改变工作，非开发者增速 137 倍比工程师还猛，Codex 已经吃掉内部 99.8% 的输出 token——这不是产品更新，但比大多数发布会都更值得做策略的人看一眼。

6月24日

22:31

公众号：火山引擎

精选74

字节跳动技术副总裁洪定坤：AI Coding 的实践与探索

在火山引擎Force大会，字节跳动技术副总裁洪定坤分享AI Coding实践。过去一年，字节AI代码贡献率增长6倍，tokens消耗增长5倍，但过度关注单一指标可能失真——TRAE团队代码超90%由AI生成，人均需求吞吐率仅提升60%。900次实验显示，主流Coding模型组合代码正确率超80%，但可交付性仅40-60分；结合Harness基建后提升至80分。AI降低编程门槛但需优化指标、治理、协作。字节探索原型驱动开发，能力沉淀至TRAE（日均Token消耗5.6万亿，增长50倍），并推出TRAE Work。

大佬观点现象/趋势编码

推荐理由：洪定坤把字节用 AI Coding 一年踩的坑和实验数据摊开讲，尤其‘过度重视代码贡献率’的反思和 Harness 基建的实证，是所有推 AI 编程的团队必看的复盘。

6月23日

23:00

公众号：昆仑万维（天工）

DramaWave张薇：AI拍剧代替的是流程，不是故事 | 上海电视节白玉兰论坛

昆仑万维旗下短剧业务DramaWave内容负责人张薇在6月22日上海电视节白玉兰论坛上分享海外微短剧市场洞察。DramaWave采取付费和免费双轨运营，海外月活用户超亿，年度经常性收入达6亿美金。AI技术极大提升了内容产能——男频玄幻类AI短剧填补了真人拍摄成本高、难度大的空白，平台目前一个月可上线200余部AI剧。张薇指出，AI作为工具代替的是制作环节而非故事内核，99%的观众只关心故事是否好看。合作模式包括成品剧上传、合拍等，平台持续欢迎好剧本。

现象/趋势视频

6月20日

01:14

Dwarkesh Patel：Podcast & Blog（RSS）

精选60

AI中心的数据黑洞

智能的一种定义是样本效率，但近年AI进步主要靠扩充数据分布和增加算力。强化学习本质是合成数据生成——投入大量算力通过验证器筛选“好”数据，再训练模型预测正确输出。这一过程需要每个领域和技能的海量人类专家示例，数据行业年收入已达数十亿美元。近日Epoch报告，开源模型仅落后前沿闭源模型4个月，原因在于数据可从公开API蒸馏，而超参数等不易复制。人类一生接触约2亿token，前沿模型训练在数十到数百T token之间，相差近百万倍——机器人、自动驾驶等领域同样存在巨大效率差距。

大佬观点数据/训练现象/趋势

推荐理由：Dwarkesh 把 AI 的‘笨’归因于数据效率远低于人类，计算虽简但直指要害，他给出的一个逆向洞察是开源模型四个月追上闭源，正是数据驱动进步的最好证据。

6月19日

23:00

CMU：Machine Learning Blog

医疗保健基准测试的质量取决于其隐含假设

LLM在作为医疗助手时，评估与部署场景下的性能存在显著差距——Bean等人（2025）发现准确率相差61个百分点。这一差距并非源于基准测试设计缺陷，而是因为评估协议中嵌入的隐含假设在部署时不再成立。研究提出将假设分为任务假设和结果假设两类，用以诊断差距成因并明确弥合路径：需将假设显式化、检验哪些假设在部署中成立，并据此更新评估协议。

现象/趋势部署/工程

08:00

OpenRouter：Announcements（RSS）

精选73

DeepSeek V4 智能体 token 份额持续增长

DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示，V4 发布后其 token 份额从年初的9%增长至6月初的18%，自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型，到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18，远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型，DeepSeek 是主要驱动力。

智能体 DeepSeek 开源生态现象/趋势

推荐理由：OpenRouter 独家数据展示了代际转折：DeepSeek V4 靠性价比吃下代理负载，中国模型 token 份额首次超过美国，这个信号比任何 benchmark 排名都真实，做应用选型的人该重新算账了。

03:16

Gary Marcus：The Road to AI We Can Trust（RSS）

埃森哲：昔日与今朝，以及它如何预示未来

埃森哲去年九月高调宣称AI将改变其业务，但本季度财报令人失望，股价下跌约18%，本周跌幅近23%，较52周高点已跌超50%。生成式AI并未带来预期的大幅收益，MIT、麦肯锡、贝恩等多份研究均显示类似结论。Claude Code（特殊神经符号系统，非通用聊天机器人）或能提升程序员生产力，但企业整体AI投资回报未达预期，tokenmaxxing热潮正在消退。

大佬观点现象/趋势行业动态

6月18日

03:50

Tomer Tunguz 博客（VC 分析）

Databricks 扩大对 Snowflake 的领先优势

Databricks 年化经常性收入（ARR）达 69 亿美元，同比增长 80%；同期 Snowflake ARR 约 53 亿美元，增速 34%。两者差距从 3 月的 4.9 亿美元扩大至 16 亿美元。AI 产品年化收入 17 亿美元，占总 ARR 的 25%，六个月前为 10 亿美元。Salesforce 以 36 亿美元收购 Fin，其 AI 智能体年收入 1 亿美元，同样占比约 25%，同比增长 350%。Databricks 私人估值 1340 亿美元，80% 的增长率远超 CrowdStrike（26%）和 Shopify（34%）等同行。

现象/趋势行业动态

6月17日

12:50

Tomer Tunguz 博客（VC 分析）

精选62

5x for Free：本地编程栈

Hacker News 讨论揭示：Qwen 3.6 35B-A3B 模型提及率 33% 领先，27B 变体以 20% 紧随其后，DeepSeek Pro 与 Gemma4 31B 位列前四。Agent 工具中 Pi (49%) 与 OpenCode (45%) 占主导。用户对比称，Claude Opus 可带来 15 倍加速，而本地离线 Qwen 提供 5 倍加速，且完全免费、保护隐私。SWE-bench Verified 基准测试显示，Qwen 3.6 27B 得分 77.2%，35B-A3B 得分 73.4%，接近 Claude Sonnet 4.6 的 79.6%。MoE 架构使大模型在消费级硬件上高效运行。

现象/趋势端侧编码

推荐理由：本地模型在编码上正逼近云端前沿，Qwen 35B-A3B 已成社区标配，免费且完全离线让这场替代变得真实，选型逻辑可能从此改变。

6月16日

13:58

OpenRouter：Announcements（RSS）

精选68

智能体AI治理：你的API密钥就是护栏

智能体AI使用量将在未来两年急剧上升，但治理滞后——仅五分之一企业拥有成熟治理模型。典型事故：销售智能体重试失败调用后自行升级到GPT-5.5，一夜消耗200美元。API路由层位于智能体与模型之间，是强制执行预算上限、模型白名单、提供方准入和请求日志的理想点。IBM报告指出97%遭遇AI安全事件的组织缺乏AI访问控制。最小可行治理方案：为每个智能体工作流分配独立API密钥，在API密钥层面实现预算控制、模型准入和审计追踪。

智能体现象/趋势部署/工程

推荐理由：现在代理失控的风险越来越真实，这篇文章把复杂的治理问题简化为五个 API 密钥控制，五分钟就能落地，比那些大而无当的框架实用得多。

6月13日

00:14

Anthropic：Newsroom（网页）

精选73

Anthropic首次公众调查：近半美国人盼AI治愈疾病，超六成担忧失业

Anthropic对近5.2万美国人调查显示：48%将治愈癌症等疾病列为首要期望，36%希望AI帮助残障人士。64%担忧AI导致失业，56%担忧认知依赖，52%担忧信息误导。超70%支持政府监管，最关注隐私（56%）、儿童安全（52%）和责任归属（49%）。仅15%信任AI公司决策。多数议题上观点不因党派或地域严重分裂。调查于2025年11-12月由YouGov线上执行并加权至人口普查基准。

Anthropic 政策/监管现象/趋势

推荐理由：Anthropic发布了一份覆盖5.2万美国人的AI民意调查，首次系统揭示了公众的恐惧排名——失业第一、认知依赖第二。虽然他们借数据推广自家政策框架的意图明显，但这两组数字对产品人理解用户心态极有价值。

6月9日

03:38

Gary Marcus：The Road to AI We Can Trust（RSS）

Gary Marcus：整个AI行业被疯狂的数学所支撑

Gary Marcus 在博文中引用“幻想之地”的比喻，指出整个 AI 行业建立在不合理的数学基础之上。

大佬观点现象/趋势行业动态

02:15

Dwarkesh Patel：Podcast & Blog（RSS）

精选66

样本效率黑洞：AI能力背后隐藏的数据需求深渊

将AI比作一个闪耀着能力的星系，其核心存在一个肉眼不可见的巨大黑洞——数据。这个比喻揭示了AI模型惊人能力背后对海量数据的依赖，样本效率的瓶颈如同引力中心，将各色能力凝聚在一起。

大佬观点数据/训练现象/趋势

推荐理由：Dwarkesh 把 AI 样本效率低的问题算透了，人类 2 亿 token 学会的事，模型要万亿级，缩放定律也补不上这个黑洞。做 AI 的该认真想想，数据驱动这条路有没有尽头。

00:41

Tomer Tunguz 博客（VC 分析）

精选56

AI 替代浪潮：三大力量重塑成本结构

三大力量重塑 AI 成本：前沿闭源模型持续涨价，开源模型在多数场景已足够好，买家开始替代。Coinbase 将提示词路由至更便宜模型，成本持平但 token 用量指数增长。Lindy 全切至 DeepSeek v4，节省数百万美元且多项核心性能提升。Harvey 在 Legal Agent Benchmark 上通过 SFT 使 Kimi 2.6 all-pass 率达 15%，超越 Opus 的 14%，同一 100 任务成本 $84 vs $954（约 11 倍价差）。Cursor 后训练 Kimi K2.5 得到 Composer 2.5，称其“性能优异且效率高达同类模型 10 倍”。闭源越来越贵，开源平价且性能接近，选择决定企业单位经济学的斜率。

Anthropic DeepSeek 开源生态推理

推荐理由：Tunguz 用 Coinbase、Lindy 等真实案例，把「用开源/便宜模型替代昂贵前沿模型」的趋势讲透了，做 AI 应用的人该重新算一下单位经济账。

6月7日

23:36

Gary Marcus：The Road to AI We Can Trust（RSS）

精选57

Slop、生产力，以及为何AI驱动的世界进展甚微

Gary Marcus在金融时报上看到John Burn-Murdoch的一张图表，认为它精准提炼了自己一直试图表达的观点。

大佬观点现象/趋势

推荐理由：Gary Marcus 用 FT 的图表点出了一个反直觉现象，AI 产出越多 GDP 却没涨，做产品和投资的人都该看一眼这个冷数据。

00:34

Gary Marcus：The Road to AI We Can Trust（RSS）

AI 的黑色星期五

Gary Marcus 在文章中分享了对 AI 领域刚刚发生事件的看法，表达了对当前 AI 发展方向的思考。

大佬观点现象/趋势行业动态

6月6日

19:34

OpenRouter：Announcements（RSS）

同事件精选75

OpenRouter 30 场 AI 大逃杀：11 个 LLM 对决，Claude 与 Grok 谁更优？

OpenRouter 展开了 30 场 AI 大逃杀式对比，涉及 11 个大语言模型，共消耗 482 美元推理费用。实验得出一个发现，该发现应改变用户阅读模型基准测试的方式。

智能体 Anthropic xAI 安全/对齐

同一事件，精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔》

推荐理由：这场大逃杀实验把模型对齐税摆上了台面，Grok因少斟酌、多行动而胜出，Claude的犹豫反而是现实场景里更需要的品质，选模型不能只看赢不赢，要看任务需要什么性格。

6月5日

22:30

Gary Marcus：The Road to AI We Can Trust（RSS）

精选55

Sir Demis Hassabis vs Sir Demis Hassabis

DeepMind 大佬观点现象/趋势

推荐理由：哈萨比斯在斯坦福把 AGI 时间线从达沃斯的「5-10 年」压到「2030 左右」，Gary Marcus 拎出来对比，让我看到他自己的定义也在被叙事裹挟。

11:04

公众号：腾讯元宝

全网@元宝总结实录：汤道生、姚顺雨对谈AI下半场

汤道生与姚顺雨在2026AI产业应用大会上围绕AI下半场展开对谈，腾讯元宝AI录音笔提供全程完整实录。

大佬观点现象/趋势

06:28

OpenRouter：Announcements（RSS）

精选66

OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费，让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明，传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务（如自主控制机器人）中的真实表现，Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出，而多项高分模型的实时调度能力未达预期。

智能体 Anthropic OpenAI 安全/对齐

关联讨论 1 条

推荐理由：Jacky 把 11 个模型丢进大逃杀，发现 Grok 4.1 Fast 以 27 倍成本优势击败 Sonnet，而获胜关键不在基准分数，在于模型被训练时压制的攻击性。对任何不再只看排行榜选模型的人，这是今年最值得读的实验。

01:57

Anthropic：The Institute（旗舰研究长文 · 网页）

精选82

AI加速自我构建：Anthropic研究院报告揭示趋势

Anthropic研究院报告指出，AI正加速AI开发：2021–2025年间工程师人均季度代码量提升8倍，截至2026年5月超80%合并代码由Claude生成。Claude Opus 3（2024年3月）可完成约4分钟软件任务，Claude Sonnet 3.7（2025年3月）提升至1.5小时，Claude Opus 4.6（2026年3月）可处理12小时任务。SWE-bench两年内从低个位数得分饱和；CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距，完全自主递归自我改进尚未实现。

智能体 Anthropic 安全/对齐现象/趋势

关联讨论 12 条

推荐理由：Anthropic首次披露AI辅助开发的内部数据，8倍代码产出、AI自动审查bug，趋势直指完全自主AI的临界点，每个开发者和政策制定者都需要读。

6月4日

18:25

公众号：面壁智能（MiniCPM）

智能座舱卷到头了？这份白皮书给出了答案

多模态现象/趋势端侧

6月3日

21:37

Tomer Tunguz 博客（VC 分析）

精选66

智能性价比

微软在模型发布卡中首次加入平均token使用量指标。其模型在SWE-Bench Verified上达71.6分，仅消耗约Claude Haiku 4.5三分之一的token。Artificial Analysis的Intelligence Index显示GPT 5.5与Claude Opus 4.8得分相近（约60分），但Opus 4.8运行成本高出40%（$4,685 vs $3,357）。Uber因四个月内AI预算超支而限制员工使用；Salesforce花费$3亿购买Anthropic tokens并冻结工程招聘。模型公司如今需同时在性能和成本两个维度竞争。

Microsoft OpenAI 推理现象/趋势

推荐理由：微软在模型发布卡上悄悄加了“平均token消耗”这个指标，这不是小改动，而是宣告AI从堆算力转向算账时代。Uber和Salesforce的预算教训已经很清楚了。

00:45

Claude：Blog（网页）

精选74

Claude Code团队实践：智能体编程如何重塑工程组织与流程

在Code w/ Claude SF 2026活动上，Claude Code工程团队分享了将智能体编程设为默认工作方式后带来的流程与结构变革。核心变化包括：规划转向即时（JIT）模式，强调快速原型与反馈；上下文收集变为“先问Claude”；代码审查中Claude处理风格与测试，人工专注于法律、安全等专业判断。新范式下，工程瓶颈从编写代码转向验证、审查与安全维护。

Anthropic 大佬观点现象/趋势部署/工程

关联讨论 2 条

推荐理由：Anthropic 工程总监把 Claude Code 团队流程全晒了出来，从抛弃半年路线图到代码审查只留专家复审，每一步都反直觉但实战有效，工程领导者直接抄作业。