6月10日

03:17

Rohan Paul@rohanpaul_ai

Rohan Paul: @claudeai Fantastic. In one 50-million-line Ruby codebase, Fable 5 finished a migration in one day that would have taken...

智能体 Anthropic 大佬观点推理

03:13

TechCrunch：AI（RSS）

技术公司能学会爱上更便宜的AI模型吗？

如果技术公司能用更便宜的模型处理相同AI工作负载且不影响质量，这将意味着AI经济性的巨大转变。

推理现象/趋势部署/工程

02:11

Nathan Lambert@natolambert

Claude Fable 5 在 APEX-SWE 软件工程评测中取得 65.5% Pass@1 总体成绩，较 Claude Opus 4.8 高约 18 个百分点。两个子类别中，Integration 为 61.3%，Observability 高达 69.7%，后者比 Opus 4.8 领先 26 个百分点。Fable 5 是首个在 Observability 类别突破 50% 的模型，也是唯一在该项上得分高于 Integration 的模型（其他模型均相反）。Observability 此前一直是所有模型的瓶颈，Fable 5 首次打破这一局面。主推文认为，虽然模型 token 价格不菲，但对大量企业而言物有所值。

Mercor: Claude Fable 5 takes #1 on APEX-SWE: 65.5% Pass@1 overall. It scores ~18pp higher than Opus 4.8. We tested @claudeai Fab...

Anthropic 推理编码评测/基准

02:09

Ethan Mollick：One Useful Thing（RSS）

同事件精选77

Claude Fable 发布：Anthropic 带来的另一种推理体验

Anthropic 发布 Claude Fable，这是一款提供截然不同推理体验的 AI 模型。它擅长规划与生成复杂代码库，在需要精确构建代码结构或理解程序员深层需求的场景中，其表现相比 Claude Sonnet 有了大幅提升。用户描述与它协作更像与一位直觉敏锐的资深工程师合作，其对代码意图的捕捉和方案生成能力令人惊叹，但并非通用型 AI。

Anthropic 大佬观点推理

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Ethan Mollick 对 Mythos 级模型的实际体验，比任何参数对比都更清晰地描绘了未来人机协作的形态改变：从“指导者”变成“赞助者”。这篇体验不是评测，是一个信号。

01:42

宝玉@dotey

Anthropic发布Claude Fable 5与Mythos 5

Anthropic同日推出两款模型：Fable 5面向所有用户，配备安全分类器（检测攻击/生化武器/蒸馏时降级至Opus 4.8，超95%对话不触发）；Mythos 5仅限Project Glasswing合作伙伴。Fable 5能力超越以往：Stripe在5000万行Ruby代码库完成全库迁移（原需两月团队→一天）；FrontierCode测试获最高分；仅基础视觉接口通关宝可梦火红版；蛋白质设计加速约10倍；基因组学中自主工作一周多，训练出超越Science论文的模型。API定价输入$10/百万token、输出$50。订阅用户6月22日前免费。所有Mythos级别模型流量强制保留30天（仅安全监控）。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic 安全/对齐推理模型发布

关联讨论 30 条

01:38

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选81

Claude Fable 5

Claude Fable 5 登上 Hacker News 热门，获得 158 个赞同，源页面为 Anthropic 官网。

Anthropic 多模态安全/对齐推理

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Anthropic 的 Mythos 系列首款公开发行模型，编码和科学推理能力在多个基准上超越 GPT-5.5，虽然安全分类器导致 5% 会话降级到 Opus 4.8，但价格大幅降低，是当前最强的可用模型之一。

01:37

Chubby♨️@kimmonismus

Claude 5 Fable 要点

据推文透露，Claude 5 Fable（代号Fable）在几乎所有AI能力基准测试上达到SOTA，尤其在软件工程、知识工作、视觉、科学研究中表现优异。任务越长越复杂，其领先幅度越大；token效率高于以往Claude模型，能在百万token长任务中保持专注并自我优化输出。相比上一代Mythos有显著提升。实际案例：Stripe报告称Fable将数月工程压缩至数天，在5000万行Ruby代码库中一天完成代码库迁移（原需团队两月以上手工操作）。

Chubby♨️: Claude 5 Fable Benchmarks! Holy moly, significant jump even to Mythos

Anthropic 推理模型发布

01:23

🚨 AI News | TestingCatalog@testingcatalog

BREAKING 🔥：Claude Fable 5（Mythos）正在 Claude 和 API 上推出！它正在发生 👀

Anthropic 推理模型发布

关联讨论 30 条

01:19

Yuchen Jin@Yuchenj_UW

Claude Fable 5 （Mythos）终于发布了！这正是我一直在寻找的！！

Anthropic 推理模型发布

01:13

The Verge：AI（RSS）

Anthropic 发布首个 Mythos 系列模型 Claude Fable 5

Anthropic 发布 Claude Fable 5，称其为迄今广泛可用的最强模型。该模型在软件工程、知识工作与视觉任务中表现突出，且随着任务变长、变复杂，领先优势进一步扩大。Fable 5 是 Anthropic 首次大规模发布的 Mythos 类 AI 模型，此前该公司因该类模型在网络安全任务中能力过强、风险过高而未公开。此次发布得益于新增的安全措施，可在特定高风险领域阻止模型生成响应。

Anthropic 多模态推理模型发布

关联讨论 30 条

00:15

Rohan Paul@rohanpaul_ai

Anthropic 今日发布 Mythos 公开版"Fable"，定价为 Opus 两倍

Anthropic 今日发布 Mythos 的公开版本，代号“Fable”。其成本约为 Opus 的两倍，低于此前预览版 5 倍 Opus 的定价。Fable 配备严格安全限制，在网络安全方面比 Project Glasswing 合作伙伴的受限预览版更保守，且在长时间、多步骤任务及智能体式工作流上表现更强。Mythos 预览版于 2026 年 4 月推出，是当时最强前沿模型，尤其擅长编程、推理和网络安全（含发现零日漏洞）；因安全问题未公开，仅限 Project Glasswing 合作伙伴用于防御性网络安全，目前已报告发现数千个重大漏洞。

智能体 Anthropic 安全/对齐推理

00:00

OpenRouter：Announcements（RSS）

同事件精选60

Gemini 2.5 Flash API：定价、快速入门与提供商对比

Gemini 2.5 Flash API 的定价与快速入门指南，指导用户配置 thinking budgets、比较不同提供商，并在 5 分钟内完成首次 API 调用。

Google 推理教程/实践部署/工程

同一事件，精选展示《Gemini 2.5 Flash API - 定价、快速入门与提供商比较》

推荐理由：Gemini 2.5 Flash 最值得关注的是 thinking budget，这篇教程把怎么用、怎么省都讲清楚了，但对早已熟悉文档的开发者来说新东西有限。

6月9日

22:50

SemiAnalysis@SemiAnalysis_

DeepSeek V4 1.6T 第0天至第43天性能随时间变化 - 华为， GB300 NVL72， MI355X， B200 第0天在InferenceX上的推理性能 26天内100倍性能提升每百万Token成本华为950DT推理追踪分析 https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance

DeepSeek 推理评测/基准部署/工程

22:34

Google DeepMind：Blog（RSS）

同事件精选80

Google DeepMind 发布 Gemma 4 12B：统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型，采用无编码器统一架构，原生支持音频输入。其基准测试性能接近 26B MoE 模型，但内存占用不到一半，仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测（MTP）drafter 以降低延迟，基于 Apache 2.0 开源许可发布，已累计超过 1.5 亿次下载。

Google 多模态开源/仓库推理

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：统一无编码器架构让 12B 模型在消费级笔记本上跑出接近 26B 的多模态 Agent 体验，开源 + Apache 2.0，本地部署门槛又压低了。

21:18

Ars Technica：AI（RSS）

苹果称其 AI 在谷歌服务器上运行仍保持隐私

苹果表示，部分 AI 模型运行在谷歌云服务器上，但谷歌无法以任何方式访问数据，从而确保用户隐私不受影响。

Google 产品更新推理部署/工程

20:21

Tencent Hy@TencentHunyuan

🚀推出UniRL，一个用于统一多模态模型的RL基础设施。附带两种新RL算法：DRPO和Flow-DPPO。一个覆盖扩散/流匹配模型、LLM/VLM以及统一多模态模型的RL循环👇 代码：http://github.com/Tencent-Hunyuan/UniRL （是的--U（you）-ni-（need） RL 😉）

GitHub 多模态开源/仓库推理

关联讨论 1 条

20:07

Kimi.ai@Kimi_Moonshot

Kimi 预测全部104场世界杯比赛：德国或被低估

Kimi 利用 Agent Swarm 系统并行协调300个子智能体，分析战术、球员状态、伤病、赛程、天气、赔率等因素，预测2026年美加墨世界杯全部104场比赛，并发布每轮赛前预测和赛后回顾。模型层融合了 Elo/FIFA 强度、Poisson 进球分布、xG/xT 指标、蒙特卡洛模拟等方法。预测结果显示西班牙和法国为头号热门，但德国夺冠概率可能被市场低估：模型基线估计约11.0%，校准估计约11.3%，而部分市场隐含概率仅约7.4%，正向偏差约+3.6个百分点。该判断基于多分析链交叉验证，可能源于对德国近两届小组出局的近因偏差以及纳格尔斯曼高位压迫体系与穆西亚拉/维尔茨新创造轴的复苏信号。

智能体产品更新推理

19:44

Rohan Paul@rohanpaul_ai

Transformer QKV投影必要性研究

一篇论文系统研究了Transformer注意力中QKV投影的必要性，发现Key和Value可共享同一投影（Q-K=V变体），仅增加3.1%的困惑度，便将KV cache削减50%，大幅降低推理内存。最佳变体保留Query独立，使注意力保持方向性。与GQA和MQA结合时，可分别实现87.5%和96.9%的cache缩减。弱变体Q=K-V因导致因果注意力过于对称且无cache节省而无效。

arXiv 推理论文/研究部署/工程

16:52

HuggingFace Daily Papers（社区热门论文）

基于并行回火的大语言模型科学假设搜索

大语言模型用于生成科学假设，但常见进化搜索因过度优化导致多样性坍塌。本文将假设搜索建模为采样问题，目标是在固定验证预算下高效产出多样且高质量的候选假设。受并行回火算法启发，提出一种进化框架，在多个温度水平同时搜索，并通过跨温度信息交换增强探索而不破坏收敛。在分子发现、方程发现和算法发现三个领域，该方法在同等验证预算下同时提升了假设质量与多样性，且候选假设在更昂贵的下游计算验证中仍保持鲁棒。

arXiv 推理论文/研究

16:18

歸藏(guizang.ai)@op7418

MiMo推出V2.5 Pro UltraSpeed超高速模型，每秒输出超1000 Token

MiMo推出V2.5 Pro UltraSpeed超高速模型版本，每秒输出超1000 Token，号称全球首个达此速度的万亿参数模型。实测显示：复杂3D小游戏TPS 804 Token/s（峰值810），首次响应4.71秒；官网3D动画峰值1426 Token/s，首次响应0.83秒，32秒输出25624 Token（1000行代码）；另一复杂官网3D效果TPS 1136，首次响应4.5秒。相比此前超高速推理方案常见能力下降，MiMo未出现此类迹象。该模型主要面向效率要求极高的ToB客户，在Agent和Sub-Agent并发场景下效率提升明显。

智能体推理模型发布

15:55

HuggingFace Daily Papers（社区热门论文）

SwiftVR：实时一步生成式视频恢复

SwiftVR 提出流式一步生成式视频恢复框架，采用无掩码移位窗口自注意力和轻量级恢复感知自编码器，消除二次空间注意力与大型视频自编码器的延迟及内存瓶颈。模型仅用标准密集 SDPA 调用，无需重训练或自定义内核即可部署至消费级 GPU。在单张 H100 上，2560×1440 分辨率达 31 FPS，3840×2160 达 14 FPS，而扩散 VR 基线在 4K 已超出内存。在 RTX 5090 上，1080p 达 26 FPS，为首个实现消费级 GPU 实时 1080p 流媒体的生成式视频恢复模型。

推理视频论文/研究

15:55

HuggingFace Daily Papers（社区热门论文）

光学推理（Optical Reasoning）：将图像作为独立推理媒介，token效率达文本1.96倍

光学推理（Optical Reasoning）提出将图像作为语言和多模态任务的独立推理媒介，包含基于印刷字体与基于图形两种变体，分别优化视觉布局和图文结构化组织。在数学、科学及交错模态推理基准上，光学推理匹配甚至超越传统文本推理，同时语言任务减少推理token 28.57%，多模态任务减少16%，token效率达到文本推理的1.96倍，证明图像能高效编码推理过程并提供统一的视觉推理画布。

多模态推理论文/研究

15:26

IT之家（RSS）

小米MiMo发布V2.5-Pro-UltraSpeed模式，突破万亿参数模型千tokens/s输出速度

小米与TileRT联合推出MiMo-V2.5-Pro的UltraSpeed模式，在1万亿参数模型上首次达到超1000 tokens/s输出速度。UltraSpeed API同步上线，定价为原版的3倍，输出速度提升约10倍。由于资源有限，采取申请制限时开放，通过用户可在2026年6月9日至6月23日23:59接入API体验，并获限时免费Chat。试用规则：每账号每日最多成功进入队列10次，单次会话上限30分钟，空闲超5分钟自动释放资源。

推理模型发布部署/工程

关联讨论 1 条

14:55

HuggingFace Daily Papers（社区热门论文）

精选74

Reasoning Arena：可验证奖励不足时的迹线锦标赛

针对基于可验证奖励的强化学习（RLVR）在组级别奖励无信息时无法提供梯度信号的问题，提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统，通过迹线锦标赛（trace tournaments）对推理迹线进行头对头比较，转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较，然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上，平均超越RLVR基线7.6%，训练加速27%至41%，节省近50%生成计算量。

arXiv 推理数据/训练论文/研究

推荐理由：强化学习训推理模型常遇到奖励无法区分，这篇把被浪费的样本变成有效梯度，训练加速近 50% 同时性能还涨 7.6%，做 RL 训练的人值得细读。

13:55

HuggingFace Daily Papers（社区热门论文）

SkeMex：通过自进化技能记忆实现可泛化医学智能体推理

SkeMex 是一种部署后自进化框架，通过技能记忆提升医学智能体的临床交互推理能力，无需更新模型权重。它将历史交互轨迹蒸馏为结构化技能（可复用流程知识），组成跨通用、任务特定及行动级的多分支仓库。利用环境反馈估计上下文效用，指导价值感知检索与仓库治理，形成“读取—写入—评估—治理”闭环生命周期。实验表明，在多种临床任务中，SkeMex 在离线和在线设置下均优于代表记忆型智能体，且能跨模型骨干泛化并实现可转移技能记忆。

智能体推理论文/研究

13:07

Noam Brown@polynoamial

Noam Brown：大规模测试时计算对LLM评估的影响

Noam Brown指出，LLM基准性能日益依赖测试时计算，当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例：控制测试时计算后，5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示，即使消耗超1亿token，强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估，安全评估也应计入推理预算，如Gemini 3 Deep Think发布时未配套风险说明，关键在于业界未统一考虑测试时计算。

OpenAI 大佬观点安全/对齐推理

12:55

HuggingFace Daily Papers（社区热门论文）

FlashMemory-DeepSeek-V4：通过前瞻稀疏注意力实现闪电索引超长上下文

FlashMemory-DeepSeek-V4（FM-DS-V4）提出Lookahead Sparse Attention（LSA）推理范式，基于DeepSeek-V4架构构建神经记忆索引器，主动预测未来上下文需求，仅保留查询关键KV块。采用解耦训练策略，索引器作为独立双编码器训练，无需加载主干模型。在LongBench-v2、LongMemEval、RULER等长上下文基准上，平均物理KV缓存压缩至全上下文基线的13.5%，下游精度平均提升0.6%；在500K极端长度下，物理KV开销减少超过90%，且不损害主干模型的核心推理能力。

DeepSeek 推理论文/研究

12:43

Xiaomi MiMo@XiaomiMiMo

1000+ tokens/s 很快。🚀 但这实际解锁了什么？

产品更新推理

11:55

HuggingFace Daily Papers（社区热门论文）

大规模端到端上下文压缩

长上下文语言模型推理受KV缓存内存瓶颈制约。现有压缩方法或大幅降低质量，或耗时耗算力。本文通过架构搜索和从头预训练，在350B tokens上持续预训练了0.6B编码器、4B解码器的模型家族，支持1:4、1:8、1:16压缩比，命名为Latent Context Language Models (LCLMs)。该家族在通用任务性能、压缩速度和峰值内存上提升了帕累托前沿，并能作为长时程智能体的高效骨干，快速扫描压缩后的长上下文并按需展开相关片段。

智能体推理论文/研究

11:40

公众号：小米 MiMo

精选80

小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式，1T 模型输出突破 1000 tokens/s

小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式，使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化（仅量化 MoE Expert）与 DFlash 块级 masked 并行推测解码（coding 场景平均接受长度 6.30 tokens）；系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放（2026 年 6 月 9 日至 23 日），定价为 MiMo-V2.5-Pro 的 3 倍，速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。

开源生态推理模型发布部署/工程

关联讨论 1 条

推荐理由：万亿模型首次在通用GPU上突破1000 tokens/s，不是专用硬件的胜利而是模型与系统Codesign的胜利，做实时AI应用的都应该盯紧这一套方案。