另外忘了说了，这个模型支持多模态输入！文本，图片，视频都可以，是真的夯

译Google 发布 Diffusion Gemma，模型大小 26B，激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090，5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%，tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。

karminski-牙医@karminski3 · 6月12日65

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

译Google 推出 Diffusion Gemma，大小 26B、激活参数量 4B，与 NVIDIA 合作针对 RTX 4090/5090 优化，5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成，输出质量略逊但优于此前同类模型：AIME 2026（数学）达 Gemma4-26B-A4B 的 94%，tau2 bench（Agent）达 82%。4bit 量化版仅需 16G 显存即可运行。

Yuchen Jin@Yuchenj_UW · 6月12日54

Claude Fable 5 feels good so far, but I don’t see it as a huge leap over GPT-5.5 or Opus 4.8 yet. My biggest complaint: old AI research papers/blogs + basic questions often trigger an auto-downgrade to Opus 4.8. Anthropic said last night there would be no more silent model switches (good), but please don’t nerf basic AI research or bio questions.

译Claude Fable 5 到目前为止感觉不错，但我还不认为它相比 GPT-5.5 或 Opus 4.8 有巨大飞跃。我最大的不满：旧的AI研究论文/博客 + 基本问题常常触发自动降级到 Opus 4.8。 Anthropic 昨晚表示不会再有无声模型切换（很好），但请不要削弱基本的AI研究或生物问题。

Artificial Analysis@ArtificialAnlys · 6月12日52

Ideogram 4.0 is Ideogram’s first open weights release and debuts at #8 on our Open Weights Text to Image Leaderboard Ideogram 4.0 is the latest release from @ideogram_ai. Alongside their first party API, Ideogram is releasing 4.0 with open weights and a commercial license. The model generates 2K x 2K outputs (~4MP), with strong text rendering across languages, bounding box layout control, and transparent backgrounds. Ideogram 4.0 uses structured JSON prompts that specify composition and individual scene elements, with a prompt enhancer that expands natural language prompts into this structured format. Note that the prompt enhancer is only available via the Ideogram proprietary API, though it is free to use. We benchmarked the Quality tier of the model served via Ideogram's API, where it ranks #8 in Open Weights Text to Image, and #31 in Text to Image. It places ahead of closed source models including Seedream 3.0 and Luma UNI 1. While Ideogram 4.0 places near the top of our design, layout, and text rendering categories, it ranks further down overall on a balanced benchmark across all use cases including cartoon, anime, and photorealism. The model also has a more stylized look, which typically means it performs less favorably on our benchmarks. Ideogram states the open weights model accessible to the public is essentially the same model with additional safety training and quantization, so we expect a small quality difference. Ideogram 4.0 is available across three API tiers: Turbo at $30/1k images, Default at $60/1k images, and Quality at $100/1k images. The weights are free to download for evaluation and non-commercial use, with commercial self-hosting requiring a separate license. Congratulations to @ideogram_ai on the launch! See below for example generations and a link to vote on Ideogram 4.0 for yourself in the Artificial Analysis Image Arena 🧵

译Ideogram 4.0 是 Ideogram 首个开源权重模型，生成 2K×2K 输出，支持多语言文本渲染、边界框布局控制和透明背景。采用结构化 JSON 提示，提示增强器仅限 Ideogram 专有 API。在 Artificial Analysis 开放权重排行榜排名第8，整体第31，领先 Seedream 3.0 等闭源模型。API 三档：Turbo $30/千张、Default $60/千张、Quality $100/千张。开源权重免费用于评估和非商业用途，商业自部署需单独许可。

Logan Kilpatrick@OfficialLoganK · 6月12日81

Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in the API soon!

译Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者！

MiniMax (official)@MiniMax_AI · 6月11日49

Weights on Friday 🫶

译我们高性能MSA内核库现已开源。M3权重预计本周五发布。感谢等待！ Github: https://github.com/MiniMax-AI/MSA Paper：https://github.com/MiniMax-AI/MSA/blob/main/docs/MiniMaxSparseAttention.pdf 主推文：权重周五发布🫶

Midjourney@midjourney · 6月11日84

We've made V8.1 the new default model for all users on Midjourney. V8 will now be deprecated in 2 weeks. V8.2 will start testing extremely soon.

译我们已将 V8.1 设为 Midjourney 所有用户的新默认模型。V8 将在两周后弃用。V8.2 即将开始测试。

小互@xiaohu · 6月11日74

Google 开源其扩散架构模型：DiffusionGemma 区别于Transformers 模型像打字机一样逐词一个一个生成 DiffusionGemma 可一次性生成大段或者整篇内容，然后再逐步优化大幅度提高生成的速度：在H100 上可实现 1000+ tokens/s，RTX 5090 上 700+ tokens/s 26B，18GB 显存能跑一次可同时生成 256 个 tokens 自己检查自己，写完还能改：普通 AI 写完一个字就锁死了，不会回头改。就算第 10 个字写错了，到第 100 个字的时候它也改不了前面的。 DiffusionGemma 的生成过程本身就是多轮迭代，每一轮它会重新审视整块文本，发现哪里不对就改掉。就像写作文先打草稿，再通读一遍改错别字，再读一遍调语句，几轮下来质量就上去了。

译Google 开源 DiffusionGemma，基于扩散架构，一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s，RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存，一次生成 256 tokens。多轮迭代自我纠错，可修改已生成内容。

Demis Hassabis@demishassabis · 6月11日77

Awesome to see this innovation in text diffusion. DiffusionGemma is lightning fast, 4x faster than other Gemma 4 models! Congrats to @bodonoghue85 and the team who worked so hard on this - excited to see what people build with it!

译Google Gemma 团队推出实验性开放文本扩散模型 DiffusionGemma，采用 Apache 2.0 许可。该模型突破传统逐 token 顺序生成方式，能同时生成整段文本。Demis Hassabis 称其速度是其他 Gemma 4 模型的 4 倍。

ginobefun@hongming731 · 6月11日59

http://x.com/i/article/2064862052729176064 # BestBlogs 早报 · 06-11｜AI 政策、万亿 IPO、编程鸿沟在线阅读本期早报 ## 导语今天的早报聚焦三条主线。Anthropic CEO Dario Amodei 发表万字政策长文，用《魔戒》中树须的比喻揭示 AI 与政策之间的时间错位，并提出覆盖安全审计、失业保障与国际治理的五领域行动框架。与此同时，OpenAI 正式确认已秘密提交 S-1 招股书，估值超 8500 亿美元，与 Anthropic、SpaceX 三家巨头极有可能包揽人类史上最大规模的几起 IPO。在 AI 编程领域，MIT 与宾夕法尼亚大学追踪 10 万名开发者的最新研究给出了一个冷静的数字：代码行数暴增 17.3 倍，实际发布的软件版本仅增长 30%。此外，谷歌发布 DiffusionGemma 开源模型，以并行生成取代传统自回归方式，文本生成速度提升四倍；Simon Willison 对 Claude Fable 5 的上手评测显示这是一个强大、昂贵且知识密集的模型；SpaceX 创纪录的 IPO 估值背后隐藏着一个违反历史增长规律的假设。阿里云开发者和阿里技术团队分别从知识库分层编排和 Harness Engineering 两个方向贡献了来自中国工程师的系统性实践。今天的精讲将逐一展开。 ## 精讲一：Dario Amodei — 关于 AI 指数级发展的政策在《魔戒》的一个支线情节中，两个霍比特人试图唤醒树须——一棵智慧但行动极其缓慢的树人——来保卫他的森林。树须用一整天的时间才完成对另一棵树的问候，让他和他的同伴及时行动几乎不可能。Anthropic CEO Dario Amodei 在这篇发布于 2026 年 6 月的政策长文中，用这个比喻精准刻画了 AI 与政策之间的时间错位：AI 正以闪电般的速度前进，政策却移动得非常缓慢。 Amodei 指出，AI 的 scaling law 已有超过十年的实证支持。四年内，模型从勉强写出连贯的一行代码，进化到编写 AI 公司大部分代码。类似的飞跃也发生在生物学、物理学、数学、金融、法律和翻译等领域。如果这些 scaling law 继续有效哪怕一两年，我们就很可能迎来 Amodei 所说的"Powerful AI"——一个"数据中心中的天才之国"。与此同时，国会可能需要数年才能行动，而在这几年里，AI 可以从一个有趣的玩具变成上述的那种全然不同的存在。直到最近，安全倡导者（包括 Anthropic）一直在推动保留灵活性的政策行动——透明度立法、芯片出口管制、AI 劳动力影响数据收集等。这些虽有必要，但远远不够。转折点出现在 Claude Mythos Preview 的发布：前沿模型对网络安全构成了真实威胁，有可能扰乱金融部门、关键基础设施和国家安全。Mythos 级别的模型证明了一个事实——AI 模型现在已经是具有全球和国家战略意义的工具。Amodei 认为，生物风险可能紧随其后，严重的 AI 自主性风险也不远了。基于这一判断，Amodei 提出了五领域行动框架。第一，前沿模型安全审计。仿照 FAA 对航空安全的监管模式，建立强制性的安全审计与红队测试机制，要求任何达到前沿水平的模型在部署前必须通过独立的第三方安全评估。第二，应对持久性失业。 AI 有可能在短时间内替代大量工作岗位，Amodei 建议通过工资保险、全民基本收入（UBI）等措施缓冲劳动力替代带来的社会冲击。第三，加速下游监管改革。特别是生物医药等领域，让 AI 的突破能够更快惠及患者，而不是被过时的审批流程所阻滞。第四，平衡国家与社会权力。防止 AI 被用于集中化监控与控制，确保技术赋权于公民而非削弱其权利。第五，构建 AI 时代的国际治理新秩序。避免各国在 AI 军备竞赛中失控，建立类似核不扩散条约的多边合作框架。这篇长文的意义在于，它不是一位 CEO 的个人观点集，而是从一个正在经历指数级变化的行业内部发出的系统性政策蓝图。Amodei 强调，AI 的 scaling law 正与政策制定者的感知之间形成越来越大的鸿沟。当"等等看"不再是一个负责任的选项时，如何设计既能跟上技术速度又不扼杀创新的治理结构，将是这个时代最重要的制度挑战之一。阅读建议：这篇文章是理解当前 AI 治理最前沿讨论的必读文本。全文较长但结构清晰，建议优先关注五领域框架部分，以及 Mythos 事件如何改变了政策可行性的讨论。阅读原文 ## 精讲二：OpenAI 秘交招股书，美股开启万亿 IPO“三国杀” 6 月 8 日，OpenAI 在官网发布声明，正式确认已向美国证券交易委员会秘密提交了 S-1 招股书。声明中的一句话格外引人注目："我们最近秘密提交了 S-1 文件。我们预计它会泄露，所以干脆直接公布。"这家估值超过 8500 亿美元的公司，终于向公开市场迈出了实质性的一步。但 OpenAI 也在声明中给过热的预期降温，明确表示"尚未决定 IPO 时间"，并暗示作为私营公司可能更容易实现某些目标。这番表态既展示了拥抱资本的身段，也为自己在未竟的使命与巨大的利益之间留下了回旋余地。这场 IPO 竞速的背景是三巨头的资本博弈。就在 6 月 1 日，Anthropic 已经秘密提交了 IPO 申请，私募估值 9650 亿美元，反超 OpenAI 今年 3 月创下的 8520 亿美元估值。马斯克旗下 SpaceX 已率先启动 IPO 路演，最快将于 6 月 12 日上市。在其上市文件中，OpenAI、Anthropic 和谷歌均被列为 AI 领域的"主要竞争对手"。咨询公司 Riveron 的资本市场顾问 Jeff Bernstein 点出了本质："这是一场资本争夺战。"他暗示，如果让对方先冲出去，就会带走大量可用的 IPO 资本。 OpenAI 的财务底牌相当亮眼。月收入已达 20 亿美元，营收增长速度是 Alphabet 和 Meta 同期的 4 倍。ChatGPT 周活跃用户突破 9 亿，订阅用户超过 5000 万。其月度网页访问量和移动端会话数是紧随其后的 AI 应用的 6 倍，总时长占比是竞品的 4 倍。企业级市场贡献了 40% 以上的营收，并有望在 2026 年底前与消费级业务并驾齐驱。在 GPT-5.4 的驱动下，API 每分钟处理量突破 150 亿 Token。Codex 的周活用户已超过 200 万，过去三个月增长了 5 倍。但光鲜背后是惊人的现金消耗——OpenAI 已筹集超 1800 亿美元，截至 2030 年的数千亿美元计算承诺意味着其烧钱速度将刷开历史上任何其他上市公司的纪录。在提交 S-1 的同一天，奥特曼与首席科学家 Jakub Pachocki 联名发表了题为《为所有人造福：我们的计划》的长文，系统阐述了公司进入"第三阶段"的愿景。文章将 AI 的普及比作上世纪 20 年代电力进入美国乡村——电力没有一夜之间改变每个家庭，但随着普及，日常生活发生了根本变化。三个目标清晰可见：构建一个自动化的 AI 研究员（内部相信到 2028 年 3 月，相当一部分研究将由 AI 系统与研究人员共同完成）；加速经济发展确保收益被广泛分享；为地球上的每个人提供个人 AGI。三家公司合计可能从公开市场募资高达千亿美元级别。银行家们已告诉它们，谁先上市谁就能定义这个行业，抢先吸引那些渴望投资 AI 公司的大量资金。不过历史并不总是站在先行者一边——Lyft 抢先于 Uber 上市，但一年后股价较发行价下跌约 66%，Uber 同期仅下跌约 30%。投资者对 SpaceX 大规模 IPO 的反应、全球经济的整体健康状况，以及不可预测的收入增长和飙升的计算成本，都将影响 OpenAI 最终的 IPO 时间表。阅读建议：这篇文章提供了 OpenAI IPO 最完整的中文报道，财务数据和竞争格局分析尤其值得关注。如果你关注 AI 行业的资本动态，这是今天必读的一篇。阅读原文 ## 精讲三：MIT 追踪 10 万名开发者，揭示了 AI 编程的转化真相：代码翻了 17 倍、软件只增三成当写代码变得更容易，软件产出会随之变多吗？MIT 和宾夕法尼亚大学的研究人员用迄今最大规模的实证数据回答了这个问题：会，但远没有想象中那么多。这项发表在美国国家经济研究局（NBER）的工作论文追踪了 10 万名开发者。研究数据来源于三大板块：GitHub 公开数据集（全球 1.8 亿开发者和 3.95 亿个公开仓库）、微软内部 Copilot 用户的订阅与使用明细，以及 Apple App Store、Google Play Store、Chrome Web Store 和 SourceForge 四大主流软件分发市场的月度面板数据。研究人员将 AI 编程工具的演进分为三代。第一代是 GitHub Copilot 代表的"自动补全"：开发者敲击键盘时，它能预测后文的代码片段并提供相应建议。在这一时期，开发者的生产力提升了 26%。第二代是以 Claude Code 和 Cursor 为代表的"同步代理"，可直接在 IDE 中与开发者实时对话、跨文件编辑、运行单元测试，开发者变成"监工"，需实时审阅 AI 的阶段性产出。第三代是 2025 年中出现的"异步代理"，如 OpenAI Codex 和 GitHub Copilot Coding Agent，人类直接将需求工单指派给智能体，智能体在云端虚拟机上独立完成编码、测试并提交 PR 供人类审查。截至 2026 年初，带有 Claude Code 署名的代码提交在 GitHub 公开仓库中占比已超 5%。数据看起来惊人：使用第一代工具后提交数量增长 40%，引入第二代后累积增幅升至 140%，第三代全面铺开后达到 180%。其中仅智能体自主撰写并直接提交的代码就占全部增量的 34%。获益最多的是低活跃度开发者——在同步代理阶段，低活跃群体的提交次数增加了 217%，高活跃群体增幅为 62%。更重要的是，研究首次证实底层模型迭代可直接驱动提效：追踪 Claude Code 使用者时发现，用户的生产力在 2025 年 11 月 Opus 4.5 发布后出现了一次与使用时间无关的上涨。在不同工具之间，Claude Code 带来的同步提效达到 199%，远超 GitHub Sync Agent 的 43% 和 OpenAI Codex 的 94%。然而，软件生产是一条从代码行到版本发布的六层流水线。研究揭示了一个"漏斗衰减"效应：三代 AI 工具累积下来，代码行数增加到原来的 17.3 倍，文件数量增长降至 3.9 倍，逐级递减后，最终的软件发布数仅提升了 30%。在同步代理时代，智能体推动代码行数量增长了 741%，但到合并请求环节已降至 65%，到独立项目数仅增长 26%。团队建立的常替代弹性（CES）生产函数模型显示，AI 产出与人工投入之间的替代弹性系数约为 0.25——远低于 1 时，意味着两个生产要素存在极强的互补性，必须严格以固定比例搭配使用。代入参数计算，理论增益上限仅为 26%：哪怕未来的 AI 可以一秒钟写出全世界的代码，只要不革新软件工业流程，最终发布率的提升都无法突破这一天花板。供给侧的数据同样值得关注。Apple App Store 新上线应用从每月 3-5 万款增加到约 10 万款，Chrome 插件市场新扩展从月均约 5000 个增加至 1.3 万个，Google Play 商店新应用发布量也从长期下滑趋势中回升并稳定在约 6 万款。但需求侧反应冷淡：新应用上线三个月内总使用量持平甚至小幅下滑。所谓的"长尾效应"假设并未得到数据支持——供给的快速扩张并未带来对应的需求增长。上线前三个月内从未获得基本受众的"僵尸应用"比例正在增加：iOS 平台上评分数少于 10 的新 App 占比从 79% 升至 86%，Chrome 插件商店中下载量低于 10 次的扩展比例从 18% 升至 31%。这项研究的核心洞察是：AI 编程工具的提效是真实的，但它主要发生在软件生产流水线的上游。代码审查、测试、跨团队协调、发布管理这些下游环节仍然是人类主导的领域，而正是这些环节构成了从代码到产品的关键瓶颈。目前层级 5（项目仓库协调）和层级 6（版本发布管理）仍是 AI 无法介入的领域。阅读建议：这是目前关于 AI 编程生产率最严谨的大规模实证研究。文章对三代工具演进的梳理和"漏斗衰减"模型的分析，对理解 AI 在软件工程中的真实影响至关重要。推荐所有技术管理者仔细阅读。阅读原文 ## 速览知识库分层编排：从传统 RAG 到原生智能体知识上下文层阿里云开发者团队提出「金字塔知识库」范式，通过五层分层（原则 / 架构 / 规范 / 实现 / 经验）与角色感知路由，解决 RAG 在工程知识库中的粒度混乱与关联缺失问题。文章系统对比了 Naive RAG、LLM Wiki、Graphify、GraphRAG 四种范式，指出平坦的向量检索将知识当作"一袋词"，而工程知识本质上是"一棵树和一张图"。金字塔设计的独到之处在于角色-层级访问矩阵：架构师看到原则和架构层，开发者看到架构、规范和实现层，每个角色有独立的 contextbudget 和 priorityorder，系统按优先层顺序逐层填充内容直到预算用完，确保有限的 context window 优先填充该角色最需要的知识。对于正在构建企业级知识库的团队，这篇文章提供了一套完整的从方法论到实现的参考框架。阅读原文谷歌发布 DiffusionGemma：开源模型实现 4 倍文本生成速度谷歌 CEO 桑达尔·皮查伊宣布推出 DiffusionGemma，将谷歌的文本扩散研究成果引入 Gemma 4 系列。核心创新在于摒弃传统逐 token 的自回归预测方式，转而同时生成整个文本块，推理速度提升高达 4 倍。这款开源实验性模型为追求速度的开发者提供了一条新路径，也为文本生成架构的多样化探索打开了空间。DiffusionGemma 的出现提醒我们，自回归不是语言模型的唯一解法，并行生成可能是一个被低估的方向。它代表了一种"赛马"式的前沿探索——在 Transformer 统治的时代，用扩散模型做文本生成的尝试值得持续关注。阅读原文 Claude Fable 5 的初步印象 Simon Willison 在 Claude Fable 5 发布后立即进行了约 5.5 小时的上手测试。他的评价是这东西有点猛——慢、贵，但几乎能轻松应对他扔给它的所有任务。Fable 5 拥有 100 万 token 上下文窗口和 12.8 万最大输出 token，知识截止日期为 2026 年 1 月。价格为 Opus 4.5/4.6/4.7/4.8 的两倍（$10/百万输入 token，$50/百万输出 token），且不因更长上下文而加价。它在一天内帮他构建了一个完整的 CPython WASM 沙箱，并为他的 LLM 库交付了重要功能。值得注意的是，Fable 5 与 Mythos 5 拥有相同能力，但配备了更严格的安全分类器。API 还提供了在触发拒绝时自动回退到其他模型的机制，这是 Anthropic 在安全与可用性之间找到的一个巧妙平衡。阅读原文 Harness 长程自动化工程：AI 编程与技能开发实践经验阿里技术团队系统阐述了 Harness Engineering 的概念与完整实践。核心理念是通过约束机制、反馈闭环、工作流编排和效果评估，将 Agent 的运行纳入可观测、可控制、可迭代的框架。文章设定了两个核心目标：Agent 长时自主运行（3 小时以上不中断），以及人类只需深度参与目标设定和结果验收。实践中的关键发现包括：专业 Agent 分工优于通用 Agent，Rubric 结构化评估是拉开差距的关键，以及人类需要转变思维成为 Agents 的管理者而非过程控制者。文章特别指出，AI 几乎短时间编写了 100% 的代码，人类像以前一样做 code review 会成为协作中的瓶颈。这是目前中文社区关于 AI Agent 工程化实践最系统的分享之一。阅读原文逃逸速度 — SpaceX 的增长前沿 SpaceX 以 1.77 万亿美元估值完成史上最大 IPO，但本文的冷峻分析指出：支撑这一估值的是一条连续 15 年保持 41.5% 年增长率的路径。SpaceX 的收入确实在快速增长（2022 年 46 亿美元到 2025 年 187 亿美元，三年翻了四倍），但要从 187 亿增长到摩根士丹利预测的 2040 年 3.4 万亿美元，意味着 182 倍的扩张。虽然增长率低于特斯拉历史上的 62%，但 SpaceX 面临的绝对规模使其成为统计异常值。更值得关注的是发行结构：只有约 4%（750 亿美元）向公众出售，其余 96% 锁定在内部人士手中。这篇文章是对科技 IPO 估值逻辑的一次有力质疑，值得每一位关注资本市场的读者细读。阅读原文编码你的领域知识：Spotify 数据助手背后的上下文层 Spotify Engineering 详细介绍了他们构建 AI 数据助手的方法论。面对超过 7 万个数据集和 PB 级数据（每日处理 1.4 万亿数据点），直接把所有 schema 喂给 LLM 行不通——不仅上下文窗口装不下，schema 本身也不传达完整信息。一个 INT64 类型的列不会告诉你哪些是遗留测试数据，也不会解释"活跃用户"的确切定义。Spotify 的解决方案是构建一个"上下文层"：由领域专家策划数据集描述、经过验证的问题-SQL 对以及业务文档。每个数据集群还有持续计算的健康评分，确保上下文随着 schema 演变保持准确。这个案例的核心启示是：在数据密集场景下，AI 助手的可靠性不取决于模型能力，而取决于人类如何结构化和维护领域知识。阅读原文为什么更多上下文会让智能体变笨，以及该如何修正 Nupur Sharma 在 AI Engineer 的演讲中解释了一个反直觉的现象：更大的上下文窗口反而会降低智能体质量。当开发者习惯性地将海量数据直接灌入提示词时，性能会呈 U 型曲线下降——先是改善，过了拐点后急剧恶化。她给出了几种实用的架构模式来应对：上下文筛选与分层加载，只在需要时拉入相关片段；混合编排策略，结合 RAG 和 Agent 循环；专家智能体分工，每个 Agent 专注于特定领域并接受特定上下文；以及裁判节点评估，用专门的评估模块在关键节点做质量把关。对于正在构建生产级 Agent 系统的工程师，这场演讲提供了一套从"更多上下文"到"更好的上下文"的思维转换框架。阅读原文 ## 补充阅读 - [Claude Fable 5：最强 AI 正在变成"特权资源"](https://www.bestblogs.dev/article/f360573e) — 深度解读 Fable 5 发布的标志性意义：前沿 AI 从"能力竞赛"转向"访问权竞赛"，最强模型不再只按价格分层，也开始按信任边界分层。对 AI 治理和商业模式演进感兴趣的读者值得关注。 - [刚刚，Claude Mythos 5 发布！5000 万行代码 1 天搞定](https://www.bestblogs.dev/article/ae0d70bc) — Anthropic 发布旗舰模型 Fable 5 与 Mythos 5 的中文速报，后者为满血版仅限受信任用户，引入了模型路由的安全新范式。 - [如何构建一个更"好"的知识库？](https://www.bestblogs.dev/article/ef05a619) — 从评估标准、索引与查询流程、切分策略到前沿架构，系统性拆解构建高质量 RAG 知识库的技术原理与工程实践。 - ["资本的义务是给股东赚钱，不是保护人类" AI 教父辛顿最新对话](https://www.bestblogs.dev/article/6cc82403) — 辛顿深入探讨 AI 的"理解"本质、数字生命的信息共享优势，以及人类可能被自身造物"驯化"的深层悖论。 - [iPod、iPhone 创造者 Tony Fadell：AI 时代做产品，有 atoms 的公司才有护城河](https://www.bestblogs.dev/article/a0229387) — Tony Fadell 分享对 AI 时代产品判断力、系统架构能力和硬件护城河的深刻见解，强调人始终要在循环中。 ## 今日阅读路径如果你的时间有限，推荐按以下顺序阅读今天的三篇核心内容： 1. [MIT 追踪 10 万名开发者](https://www.bestblogs.dev/article/a8e2bccb) — 用数据揭示 AI 编程的真实生产率效应，"代码 17 倍、软件只增三成"这个结论会影响你对 AI 编程工具的判断。约 15 分钟。 1. [Dario Amodei 的 AI 政策长文](https://www.bestblogs.dev/article/bff54423) — 理解 AI 治理最前沿讨论的必读文本，五领域行动框架为政策制定提供了清晰路线图。约 20 分钟。 1. [OpenAI 秘交招股书](https://www.bestblogs.dev/article/ba4c2197) — 三巨头 IPO 竞速的完整图景，财务数据和竞争分析让你快速把握 AI 行业的资本格局。约 10 分钟。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂，并逐渐理解你关注什么。

译Anthropic CEO Dario Amodei 发布万字政策长文，以《魔戒》树须比喻AI与政策的时间错位，提出五领域行动框架（安全审计、失业保障、下游监管、权力平衡、国际治理）。OpenAI确认秘密提交S-1招股书，估值超8500亿美元，月收入20亿美元，周活跃用户9亿；与估值9650亿美元的Anthropic、SpaceX开启万亿级IPO竞速。MIT与宾夕法尼亚大学追踪10万开发者发现：AI编程工具使代码行数暴增17.3倍，实际发布的软件版本仅增长30%。

Berryxia.AI@berryxia · 6月11日64

兄弟们，Google 这个新“模型”有点意思！ DiffusionGemma一口气把文本生成干到4倍速，还彻底开源Apache 2.0，谁都能本地玩。它不用传统自回归那种“吐一个词想下一个”的老办法。而是直接用diffusion先扔一堆噪声，然后整块整块地同时起草、同时纠错、同时精炼，1000+ token/s的速度直接起飞。 18GB消费级显卡就能顺滑跑，代码、数学、复杂编辑这些最烦人的活儿。它现在能实时补空、格式化、自我修复，速度快到你感觉AI终于开始“思考整段”而不是“一个字一个字憋”。以前大家都默认更快就得牺牲质量，结果Google这次直接告诉你：并行diffusion才是文本生成的下一章，把整个生成范式从串行憋词翻篇成了并行炼句。开源权重已经在Hugging Face放出，开发者现在就能把这玩意儿拖回家自己改、自己玩、自己加速日常workflow。这波一出，AI生成速度的天花板可能要被彻底重写了。

译Google 发布实验性开源模型 DiffusionGemma（Apache 2.0），采用并行 diffusion 方式代替传统自回归“逐词预测”，可同时起草、纠错和精炼整块文本，生成速度达 4 倍提升（1000+ token/s）。模型在 18GB 消费级显卡即可本地运行，适用于代码、数学、复杂编辑等任务，已开源权重至 Hugging Face。

Chubby♨️@kimmonismus · 6月11日49

OpenAI’s chief scientist, Jakub Pachocki, wrote in a slack message that GPT-5.6 will be a "meaningful improvement" over GPT-5.5. GPT-5.5 is fantastic and my daily companion in Codex. A significant leap forward would be welcome. But the truth is: OpenAI needs its own mythos/fable. Via TheInformation

译OpenAI 首席科学家 Jakub Pachocki 在 Slack 消息中写道，GPT-5.6 将比 GPT-5.5 有“有意义的改进”。 GPT-5.5 很棒，是我在 Codex 中的日常伴侣。一次重大飞跃将受到欢迎。但事实是：OpenAI 需要自己的神话/传说。来源：The Information

xAI@xai · 6月11日74

Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it's a fraction the price of competitors. Check it out: http://x.ai/api/voice

译Grok Voice 提供最先进的性能，具有类人的时机、语调和温暖感。而且价格仅为竞争对手的一小部分。查看详情：http://x.ai/api/voice

Rohan Paul@rohanpaul_ai · 6月11日70

Great news for local LLMS. Google just released DiffusionGemma, an open experimental 26B MoE, activates only 3.8B. Open model, Apache 2.0 license. fits within 18GB VRAM when quantized The big deal is the speed, DiffusionGemma generates 256 tokens in parallel per forward pass. This gives it up to 4x faster inference, with 1000+ tokens/s on an H100 and 700+ tokens/s on an RTX 5090. Normal autoregressive LLMs behave like left-to-right printers, so each new token waits for the previous token, which makes local GPU inference slow for a single user. DiffusionGemma initializes a 256-token canvas with random placeholder tokens, then runs multiple denoising passes that refine the whole canvas in parallel.

译Google 推出开源实验性模型 DiffusionGemma，基于 Gemma 4 的文本扩散研究。该模型为 26B MoE 架构，仅激活 3.8B 参数，量化后可适配 18GB VRAM。核心突破在于每轮前向传播并行生成 256 个 token，实现推理速度提升 4 倍：H100 上可达 1000+ tokens/s，RTX 5090 达 700+ tokens/s。DiffusionGemma 通过初始化随机占位符画布并运行多轮并行去噪，同时生成整段文本，许可证为 Apache 2.0。

elvis@omarsar0 · 6月11日67

This is just awesomeness from @cohere, @nickfrosst, and team. I so badly want a coding agent that just runs on my local machine. We are not too far now! Excited to get this to work with my @dair_ai coding agent in the next couple of days.

译Cohere发布了其首个开源编程模型North Mini Code。该模型小巧高效，专为智能体性能设计，并欢迎社区反馈。Elvis Saravia对此赞叹不已，期待尽快将其与自己的DAIR.AI编程智能体配合使用。

🚨 AI News | TestingCatalog@testingcatalog · 6月11日77

Google released DiffusionGemma, a new open model with up to 4x faster output! > Instead of predicting word-by-word, it generates entire blocks of text simultaneously. This lets the model self-correct and format complex markdown in real time. Same performance as Gemma 4 is a big deal. Wondering if it is based on the model previewed last year.

译Google发布了实验性开源模型DiffusionGemma，采用Apache 2.0许可。该模型不再逐token预测，而是同时生成整块文本，速度提升高达4倍。它能在生成过程中自我纠正，并实时格式化复杂Markdown。性能与Gemma 4相当。

Google AI Developers@googleaidevs · 6月11日67

DiffusionGemma, our experimental open model released under an Apache 2.0 license, explores text diffusion, an exceptionally fast approach to text generation. Here’s how DiffusionGemma accelerates development: + Faster token output: By shifting the bottleneck from memory bandwidth to raw compute, the model generates up to 4x faster token output on dedicated GPUs + Accessible hardware footprint: Activates just 3.8B parameters during inference, fitting comfortably within 24GB-VRAM high-end consumer GPUs when quantized + Novel workflows: Parallel token generation enables self-correction, making it ideal for code infilling, in-line editing, and non-linear structures DiffusionGemma prioritizes speed over raw quality and accelerates best on compute-bound hardware (like @NVIDIAAI GPUs). Standard @GoogleGemma 4 remains recommended for production quality and memory-bound devices.

译Google AI 发布实验性开源模型 DiffusionGemma，采用 Apache 2.0 许可证。该模型基于文本扩散方法，将生成瓶颈从内存带宽转向计算，在专用 GPU 上 token 输出速度最高提升 4 倍。推理时仅激活 3.8B 参数，量化后可适配 24GB VRAM 消费级 GPU。并行 token 生成支持自我纠错，适用于代码填充、行内编辑等非线性结构。DiffusionGemma 优先速度而非极致质量，生产场景仍推荐标准 Gemma 4。

fofr@fofrAI · 6月11日69

DiffusionGemma, where the LLM picks words all at once. Which is 4x faster. You can get started with the weights and instructions here: https://huggingface.co/google/diffusiongemma-26B-A4B-it

译DiffusionGemma，大语言模型一次性选出所有词。速度快4倍。你可以从这里获取权重和说明开始使用： https://huggingface.co/google/diffusiongemma-26B-A4B-it

elvis@omarsar0 · 6月11日71

This is awesome! I am spending a lot of time on diffusion LLMs these days, so this is perfect timing. I feel like there are so many underexplored research questions around text diffusion. Weight available in HF.

译太棒了！我最近花了很多时间在研究扩散大语言模型上，所以这个时机恰到好处。我觉得文本扩散领域还有很多未被充分探索的研究问题。权重已在 HuggingFace 上可用。

AK@_akhaliq · 6月11日46

ABot-Earth 0.5 Generative 3D Earth Model

译ABot-Earth 0.5 生成式3D地球模型

Sundar Pichai@sundarpichai · 6月11日75

DiffusionGemma is an open, experimental model that brings our text diffusion research to Gemma 4. It’s a racehorse 🏇achieving up to 4x faster inference by generating entire blocks of text simultaneously vs predicting token-by-token (word-by-word) output!

译DiffusionGemma 是一个开放的实验性模型，它将我们的文本扩散研究引入 Gemma 4。它是一匹赛马 🏇，通过同时生成整块文本（而非逐 token（逐词）预测输出）实现高达 4 倍更快的推理速度！

Google DeepMind@GoogleDeepMind · 6月11日72

DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting word-by-word, it generates entire blocks of text simultaneously. This lets the model self-correct and format complex markdown in real time.

译DiffusionGemma 是我们新的实验性开放模型，在专用 GPU 上输出速度最高可提升 4 倍。它不是逐词预测，而是同时生成整块文本。这让模型能够自我纠正，并实时格式化复杂 Markdown。

小互@xiaohu · 6月10日67

今天被很多人忽略的大新闻 Google 发布实时翻译模型：Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻，全程只比说话人慢几秒 - 自动滤除噪音，嘈杂环境也能用 - Google Translate App 新增「听筒模式」贴耳即听翻译 - 开发者可通过 Gemini Live API 和 Google AI Studio 直接调用自动语言检测：不需要提前告诉模型「我说的是中文，帮我翻成英文」。你直接说，它自己判断你在说什么语言，自动翻成目标语言。

译Google 推出 Gemini 3.5 Live Translate，支持 70 多种语言的实时边听边译，保留说话人的语调、节奏和音高，延迟仅数秒。模型具备自动语言检测，无需预先指定源语言和目标语言。同时自动滤除噪音，嘈杂环境可用。Google Translate App 新增「听筒模式」，贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 调用。

meng shao@shao__meng · 6月10日73

Cohere 发布首个开源编程模型「North Mini Code」小参数、高效率、专做 Agent 编程参数：MoE 架构(30B, 3B)，128专家，每 token 激活 8 个上下文：256K 输入 / 64K 输出最低硬件：1× H100（FP8）官方发布 https://cohere.com/blog/north-mini-code HuggingFace https://huggingface.co/CohereLabs/North-Mini-Code-1.0 # 训练方法（三阶段后训练） 1. 两阶段级联 SFT · 一阶段（64K）：代码约 70% 可训练 token（43% Agent 工具调用 + 27% 单轮竞赛/科学编程），混推理与指令跟随 · 二阶段（128K）：约 4.5B token，61% 为代码，全为 Agent/推理样本，工具调用与完成结果均校验可执行 · 数据来自 7 万+ 可验证任务、约 5000 个仓库；与 SWE-Bench 源去重，防泄漏 · SFT 目标不是刷榜，而是为 RL 打底：优化 pass@K 与采样多样性 2. RLVR（可验证奖励强化学习） · 算法：CISPO（token 级重要性采样，长轨迹不被短样本稀释） · 异步采样：vLLM sidecar + 窗口 FIFO 队列，缓解 Agent rollout 长度差异 · 双环境联合训练：Terminal（ReAct + bash）+ SWE（SWE-Agent） · 奖励：单元测试二值奖励；无效工具调用/不可解析输出得 0 分 3. 跨 Harness 泛化 · 训练时暴露多种 Agent 脚手架（SWE-Agent、mini-SWE、OpenCode 等） · 二阶段 SFT 中约 6% 为其他 benchmark harness 数据 · OpenCode 评估约 +10%；mini-SWE-Agent 上 pass@1 达 61.0%，属「免费迁移」 SFT 结束时：SWE-Bench Verified pass@10 = 80.2%，Terminal-Bench v2 pass@10 = 55.1%。RL 后 Terminal pass@1 +7.9%，SWE pass@1 +3.0%；轨迹更短、无效工具调用更少。 # 基准表现 Agent 编程（核心卖点） · Artificial Analysis Coding Index：33.4 · 同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4、Devstral Small 2 等 · 甚至超过 Nemotron 3 Super（120B）、Mistral Small 4（119B）等更大模型 · 仍略低于 Qwen3.6 35B-A3B（约 35.2）评测集：SWE-Bench Verified/Pro、Terminal-Bench v2/Hard、SciCode、LiveCodeBench v6 Harness：SWE-Agent v1.1.0、ReAct+Tmux、Terminus-2 等；temperature=1.0，top_p=0.95，3 seed 平均非编程 Agent 任务偏弱（第三方汇总）：GDPval-AA ~14%，τ²-Bench Telecom ~37%，Agentic Index 综合约 21.7——专精编程，非通用 Agent。推理速度（对比 Devstral Small 2，Cohere 内部测试） · 同并发下输出吞吐最高约 2.8× · 词间延迟约 -30% · TTFT 略逊于 Devstral Small 2 # Agent 能力设计模型原生支持交错思考与工具调用，格式类似 Cohere Command 系列： <|START_THINKING|> ... <|END_THINKING|> <|START_ACTION|> [JSON tool calls] <|END_ACTION|> <|START_TOOL_RESULT|> ... <|END_TOOL_RESULT|> <|START_RESPONSE|> ... <|END_RESPONSE|> 使用要点： · 必须把 reasoning/thinking 一并写入对话历史，否则效果下降 · 工具描述建议用 JSON Schema · 推荐采样：temperature=1.0，top_p=0.95 · 需较新 Transformers 源码、vLLM main + cohere_melody>=0.9.0 面向场景：子 Agent 编排、系统架构理解、Code Review、终端操作、多步软件工程。

译Cohere 推出首个开源编程模型 North Mini Code（MoE 30B/3B，128 专家，每 token 激活 8 个），支持 256K 输入/64K 输出，最低 1×H100（FP8）。训练采用三阶段后训练：级联 SFT（含 Agent 工具调用与推理数据）→ RLVR（CISPO 算法，异步采样，Terminal+SWE 双环境联合训练）→ 跨脚手架泛化。Agent 编程方面，Artificial Analysis Coding Index 达 33.4，同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4 等，超过 Nemotron 3 Super 120B，稍低于 Qwen3.6 35B-A3B（约 35.2）。推理速度对比 Devstral Small 2 最高约 2.8×，词间延迟约 -30%。非编程 Agent 任务偏弱。推荐 temperature=1.0、top_p=0.95。

Berryxia.AI@berryxia · 6月10日41

猴哥都主动祝贺Anthropic 的Fable 5 了。那么，问题来了。 Google 人呢？虽然，Google 也是A社30 亿美金的大股东，但也要努力啊！

Logan Kilpatrick@OfficialLoganK · 6月10日63

congrats to the Anthropic team on Fable!!

译祝贺 Anthropic 团队推出 Fable！！

Artificial Analysis@ArtificialAnlys · 6月10日76

Claude Fable 5 launched today at #1 on the Artificial Analysis Intelligence Index, putting Anthropic nearly 5 points ahead of any other lab’s best model We supported @AnthropicAI with pre-release evaluation of Claude Fable 5. Claude Fable 5 scores 64.9 on the Artificial Analysis Intelligence Index, claiming the #1 rank overall. It is ~5 points ahead of the closest non-Anthropic model (GPT-5.5), and Anthropic models now occupy both of the top 2 places. Key takeaways for Claude Fable 5 (adaptive reasoning with max effort and Opus 4.8 as fallback model): ➤ New safety guardrails for Mythos-class models: Claude Fable 5 uses the same underlying model as Claude Mythos 5 for public usage, with additional guardrails for potentially-harmful cybersecurity, biology, chemistry, and distillation-related queries. We tested Fable 5 using Anthropic’s new ‘fallback’ mechanism, which can route safety-flagged messages to Claude Opus 4.8. Anthropic states that fallback occurs in fewer than 5% of sessions on average, and we recorded fallback routing in ~8% of tasks across the Intelligence Index (mostly in scientific questions from evaluations like GPQA, AA-Omniscience and Humanity’s Last Exam) ➤ State-of-the-art Intelligence: Claude Fable 5 takes the #1 position on the Artificial Analysis Intelligence Index, scoring 64.9 and setting the highest score on 5 of the 10 underlying benchmarks. On AA-Omniscience, our knowledge and hallucination benchmark, Fable 5 scores 40, +7 points over the previous leader, Gemini 3.1 Pro Preview, driven primarily by higher accuracy. We generally observe a strong relationship between AA-Omniscience accuracy and model size in open weights models, which suggests Fable 5 could be larger than previous public Anthropic models ➤ Frontier agentic capability: Claude Fable 5 is at the frontier across all three agentic evaluations in the Index: GDPval-AA (real-world work tasks), Terminal-Bench Hard (agentic coding), and Tau2-bench Telecom (tool use for customer service). Its GDPval-AA Elo of 1932 is a significant jump from the previous leader, Claude Opus 4.8, further extending Anthropic’s lead in agentic capabilities ➤ Leading HLE score, but refusal and fallback in 9% of tasks: Claude Fable 5 scores 53% on Humanity’s Last Exam, more than 7 points ahead of the next-best model, Claude Opus 4.8 (max). Fable 5 triggers safety guardrails on 9% of HLE tasks, falling back to Claude Opus 4.8. Including this fallback usage, running HLE with Fable 5 costs ~$2.2k, the highest of any model we have evaluated Key model details: ➤ Context window: Claude Fable 5 retains the same 1M token context window as Claude Opus 4.8 ➤ Price: Claude Fable 5 is priced at $10/$50 per 1M input/output tokens, 2x the token price of Claude Opus 4.8. The cache write/read price is $12.50/$1 per million tokens ➤ Availability: Claude Fable 5 is included in Pro, Max, Team, and seat-based Enterprise plans through June 22, consuming 2x Opus usage. From June 23, usage will require credits, with Anthropic saying it plans to restore subscription access once capacity allows

译Claude Fable 5 发布即位列 Artificial Analysis Intelligence Index 第一，得分 64.9，领先第二名的 GPT-5.5 约 5 分。该模型采用自适应推理（最大努力模式）并以 Opus 4.8 作为回退模型。在 AA-Omniscience 知识测试中得分 40，领先此前最高分的 Gemini 3.1 Pro Preview 7 分；HLE 得分 53%，领先 Opus 4.8 超 7 个百分点。约 9% 任务触发安全护栏并回退。定价 $10/$50 每百万输入/输出 token（Opus 4.8 的两倍），缓存读写 $12.50/$1；上下文窗口保持 1M token。通过 Pro、Max、Team 等计划可用至 6 月 22 日，之后需消耗积分。

meng shao@shao__meng · 6月10日45

Claude Fable 5 发布好可能是好一些，贵是真的贵，再搭配 Loop，token 成本原地起飞了。

Berryxia.AI@berryxia · 6月10日77

兄弟们，Google 这个发布直接毫无存在感了… 昨晚Google 发布了Gemini 3.5 实时翻译模型。早上就被A社的Fable 5 刷屏，都看不到Google的影子😂 Google把Gemini 3.5 Live Translate直接推到公开预览，低延迟语音对语音翻译一次性覆盖70多种语言、整整2000种语言对，把“语言不通”这个最后的人类沟通天堑当场砸成碎片。它现在就能通过Gemini API接入，开发者随便扔进app里，实时对话、客服、直播、跨国会议，全都秒变无缝全球模式。以前大家默认实时语音翻译只能对付主流语言，最冷门的小语种很多模型厂商不会去做。这次Google一口气把那些最偏、最小众的语言对全拉进来，直接让任何应用都能全球通吃。这套东西上线后最狠的地方，是把实时翻译从“偶尔能用”变成了“随时随地标配”，开发者手里终于多了一把能把产品瞬间推向全世界的钥匙。不知道和Qwen 一些模型的对比效果如何，之前阿里的一些小语种模型也不错…

译Google 推出 Gemini 3.5 Live Translate 实时翻译模型，已进入公开预览阶段，通过 Gemini API 提供低延迟语音到语音翻译，覆盖 70+ 种语言、2000 种语言对，包括大量冷门小语种。开发者可将该能力集成到实时对话、客服、直播、跨国会议等场景中。主推文指出该发布被 Anthropic Fable 5 刷屏抢了风头，并提及阿里 Qwen 系列小语种模型的可比性。

ginobefun@hongming731 · 6月10日64

BestBlogs 早报 · 06-10 # Claude Fable 5 / 企业智能体 / 双语语音 Agent / RAG / AI 治理 [1] ★ 精讲｜Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5 Anthropic 将 Claude Fable 5 推向大众，并把同一底层模型以 Mythos 5 形式给可信网络安全伙伴使用。原文把能力提升、安全降级和价格放在一起：高风险请求平均少于 5% 会降级到 Opus 4.8，价格为每百万输入 10 美元、输出 50 美元，还列出 50-million-line 代码迁移、药物设计约 10 倍加速等案例。来源：Anthropic News https://www.bestblogs.dev/article/11f30fed [2] ★ 精讲｜语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试 ServiceNow AI 在 Hugging Face 发布语码转换 ASR 基准，直接切中语音 Agent 的真实入口问题：双语用户会在 HR 和 IT 服务场景中自然切换语言。它覆盖 4 组语言对、7 个 ASR 系统，并用 WER、SWER、AER 区分转写准确率和下游语义影响，结论是 Scribe V2、Gemini 3 Flash 与 AssemblyAI 在双语输入上最稳，更贴近生产。来源：Hugging Face - Blog https://www.bestblogs.dev/article/4aec841d [3] ★ 精讲｜Salesforce 从 20，000 个企业智能体部署中学到的经验 ByteByteGo 借 Salesforce Agentforce 的 20,000 个企业客户复盘生产级 Agent：支持 Agent 已处理 3 million 次对话，但真正难点是上线后运营。文章把传统软件的工作量分布反转成 AI Agent 90% 在上线后，并用 135,000 篇帮助文档、100K 到 2K tokens 的上下文裁剪说明反馈循环、KPI 和确定性流程为什么比继续堆 prompt 更关键。来源：ByteByteGo Newsletter https://www.bestblogs.dev/article/d12e437d [4] 如何更科学、方向可控的实现 Skill 的“自进化”? 本文深入解析 Trace2Skill、EvoSkill、SkillOpt 三篇里程碑式论文，对比归纳法、自验证与训练范式三种 Skill 自进化路径，探讨如何更科学、可控地实现 Agent Skill 的自动化迭代。来源：阿里云开发者 https://www.bestblogs.dev/article/8fcfc162 [5] 生产环境中常见的 10 个 RAG 错误本文指出了生产级 RAG 系统中十个常见陷阱，这些陷阱分布在解析、问题解析、检索和生成四个环节，并论证了大多数失败源于将文档和问题视为非结构化字符串而非结构化对象。来源：Towards Data Science https://www.bestblogs.dev/article/37dc70a7 [6] 只给一份文档，Qwen3.7-Max 从 0 交付双端应用本文详细介绍了通义实验室与 Efflora 团队基于 Qwen3.7-Max 模型，仅凭一份产品调研文档，在隔离环境中从零交付移动端和 Web 端两套可运行应用的实验过程与工程方法论。来源：通义实验室 https://www.bestblogs.dev/article/8d85909c [7] Gemini 引导式学习：塞拉利昂随机对照试验结果塞拉利昂的一项随机对照试验表明，Google Gemini 的引导式学习功能显著提升了数学学习效果，学生在八周内取得了相当于 2.5 年的学业进步。来源：Google DeepMind News https://www.bestblogs.dev/article/a01d514e [8] 4000 行代码撑起一个 Agent 框架？nanobot 架构深度解析本文深度解析开源 Agent 框架 nanobot 的架构设计，分析其以 4000 行核心代码实现极简 ReAct 循环、Markdown 技能系统、文件系统记忆等关键决策的优势与局限，并提炼可迁移的架构模式。来源：腾讯云开发者 https://www.bestblogs.dev/article/9a3cb912 [9] OpenAI 如何打造 AI 原生财务团队：工程师嵌入、ChatGPT、Codex 与工作流智能体 [视频] OpenAI 财务负责人 Stacie Faggioli 介绍，公司如何把工程师、ChatGPT、Excel 智能体、Codex 仪表盘和工作流智能体嵌入财务流程，用更精简的团队运营 AI 原生财务组织。来源：OpenAI https://www.bestblogs.dev/video/d90e3d0 [10] 业界首次：DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地本文由招商银行信息技术部撰写，详细介绍了基于 SGLang RBG 组件在国产 AI 芯片上落地 DeepSeek-V4 大 EP 推理服务的云原生方案，重点剖析了动态端口分配、服务发现、多级故障自愈与原地升级等核心机制的设计与实现。来源：AI 前线 https://www.bestblogs.dev/article/e9abd77b --- http://BestBlogs.dev · 发现真正适合你的高质量内容根据你感兴趣的来源和兴趣标签，每天为你生成一份专属的「我的早报」。立即体验：https://bestblogs.dev

译Anthropic发布Claude Fable 5与Mythos 5，输入$10/M、输出$50/M，5%高风险请求降级到Opus 4.8，药物设计加速10倍。ServiceNow发布语码转换ASR基准，覆盖4组语言对、7个ASR系统，Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结：支持Agent处理3百万次对话，上线后运营是难点。

Berryxia.AI@berryxia · 6月10日78

兄弟们，大家没有等来Mythos！但等来了同门兄弟Fable 5啊！ Anthropic把Mythos级别的超级怪物直接做成安全版扔给全世界用，把“越强越危险”的说法抛在脑后！ Claude Fable 5今天全网开闸，基准测试几乎全线SOTA，尤其软件工程、知识工作、科研和视觉这些硬活儿，长任务越复杂它领先得越离谱。他们自己也承认这模型太猛，cyber、生物化学、蒸馏这些窄领域会自动fallback到Opus 4.8，平均每20次对话才触发一次，还会老实告诉你。同时给一小撮可信的cyber防御和关键基础设施团队放出完全版Mythos 5，后面还会逐步扩大受信任访问。以前大家都觉得前沿模型要么锁死不给用，要么一放就出事，结果Anthropic用这套精准safeguard直接证明：真正顶级的AI从来不是能力跟安全二选一，是把两者同时拉到极致。

译Anthropic 发布 Claude Fable 5，这是经过安全处理的 Mythos 级模型，能力超越以往任何公开发布模型。它在软件工程、知识工作、科研和视觉等基准测试中几乎全线 SOTA，长任务越复杂领先越明显。在网络、生物化学、蒸馏等高风险领域，模型会自动回退至 Opus 4.8，平均每 20 次对话触发一次。同时，Anthropic 向少数可信的网络安全与关键基础设施团队开放完全版 Mythos 5，后续将扩大受信任访问。此举证明顶尖 AI 可在能力与安全之间同时达到极致。

Berryxia.AI@berryxia · 6月10日72

这个开源小模型3B 到底行不行啊？ Cohere直接把30B参数的MoE小模型扔到Apache 2.0开源，还专门为agentic coding量身打磨！ North Mini Code只有3B active参数，在Artificial Analysis Coding Index上跑到33.4，跟同量级对手打得有来有回，却能本地跑、随便改、随便玩。它真正狠的地方是把agentic性能做到底，社区随便拿去实验、反馈、迭代，开发者第一次能真正把coding agent握在自己手里，而不是租云端黑盒。以前大家默认开源coding模型要么弱要么慢，结果Cohere用这个小家伙直接告诉你：真正能改变游戏规则的，从来不是参数堆多高，而是谁敢把最锋利的工具彻底放开。这波开源一出，开发者手里终于多了一把能自己掌控、自己进化的coding利器。

译Cohere推出North Mini Code开源模型，总参数30B，活跃参数仅3B，采用Apache 2.0许可。该模型在Artificial Analysis Coding Index上跑出33.4分，与同量级模型竞争，专为智能体编程（agentic coding）优化，支持本地运行、自由修改和迭代。开发者首次能完全掌控coding agent，而非依赖云端黑盒。

Orange AI@oran_ge · 6月10日67

A 社有毒啊，新模型被禁止用来做模型相关开发。。。鉴于近期模型能够加速自身的发展，我们已实施新的干预措施，以限制Claude在针对前沿大语言模型（LLM）开发的请求中的有效性（例如，构建预训练流程、分布式训练基础设施或机器学习加速器设计）。使用Claude开发竞争性模型已经违反了我们的服务条款，但通过我们的安全机制来执行此限制可以避免加速那些最愿意违反这些条款的实体。与我们在网络安全、生物化学和蒸馏尝试方面的干预措施不同，这些安全机制不会对用户可见。Fable 5不会切换到其他模型。相反，这些安全机制将通过提示修改、引导向量或参数高效的微调（PEFT）等方法来限制效果。这些干预措施不会影响绝大多数的编码工作。我们估计它们将影响约0.03%的流量，集中在不到0.1%的组织中。当这些干预措施生效时，我们预计除了限制其在开发前沿LLM方面的能力外，对模型的行为影响很小。Claude仍将对用户的请求做出有帮助的回应。在该模型发布后，我们将继续提高检测方法的准确性。

译Anthropic（A社）对Claude新模型实施隐蔽安全干预，故意限制其在开发前沿LLM（包括构建预训练流程、分布式训练基础设施、ML加速器设计）方面的有效性。该干预通过提示修改、引导向量或参数高效微调（PEFT）实现，对用户不可见，仅影响约0.03%流量及不到0.1%组织。引用指出这意在削弱模型对前沿LLM研究的能力，对研究社区造成恶劣影响。

Chubby♨️@kimmonismus · 6月10日53

It's already June 9th, and Gemini 3.5 Pro and GPT-5.6 are nearing release (Google even already announced 3.5 Pro during i/o) Rumor has it that GPT-5.6 will be released as early as next week. So far, it's safe to say that - guardrails aside - Anthropic is truly the frontier lab that's entering a new league with Mythos/Fable. Gemini 3.5 Pro and GPT-5.6 have a lot to deliver and are now under pressure. This release has certainly boosted Anthropic's upcoming IPO. Anthropic has proven that they are still capable of making significant leaps in performance and efficiency. There's no end in sight. But the pressure on the competition is mounting. And remember that Claude Mythos was (and probably is) still leader in Long Horizon software Tasks

译Anthropic的Claude 5 Fable（代号Mythos）在几乎所有AI能力基准测试中达到SOTA，长复杂任务优势尤为显著。模型更节约token，可在数百万tokens长任务中保持专注。Stripe早期测试中，Fable 5将5000万行Ruby代码库的迁移压缩到一天完成，而人工团队需两个多月。Gemini 3.5 Pro与GPT-5.6临近发布（GPT-5.6最早下周推出），面临压力。此次发布提振了Anthropic即将进行的IPO，证明其在性能与效率上仍能大幅跃升。

Orange AI@oran_ge · 6月10日74

今天 Claude Fable 5 正式上线，基于 Mythos 的底座，但增加了安全护栏。 Falbe 5 是 Claude 4.5 以来最重大的模型进步。也是当下人类能广泛使用的最好的模型。你可以给这个模型更具雄心的大任务，模型会理解并完美地执行，你完全不需要去查看代码。刚刚加入 A 社的 Andrej Kapathy 如此评价： Free you mind，解放你的思想！ Fable 5 的模型指标毫无意外的强。在几乎所有已测试的AI能力基准中，它均处于顶尖水平，在软件工程、知识工作、视觉识别、科学研究等诸多领域展现出卓越性能。任务越复杂、耗时越长，Fable 5相较于其他模型的领先优势就越显著。价格方面，Fable 5 自然也是最贵。输入价格 10美金，输出价格 50 美金，缓存输入 1 美金。在长文本的情况下，一句话就可以花费10美金，大家设置好配额，省着点用。 Claude Fable 5 将以原价上线到 Cola，供大家体验。

译Claude Fable 5 基于 Mythos 底座并增加安全护栏，是自 4.5 以来最重大进步。在软件工程、知识工作等基准中领先，任务越复杂优势越明显。价格：输入 10 美金、输出 50 美金、缓存输入 1 美金，长文本一句话可达 10 美金。已原价上线 Cola。

Artificial Analysis@ArtificialAnlys · 6月10日67

HiDream-O1-Image-1.5 lands at #3 on the Artificial Analysis Text to Image Leaderboard, surpassing Google’s Nano Banana 2! HiDream’s latest addition to the O1 Image model series is a closed-source model capable of generating images up to 2K resolution from text prompts. The O1 Image family is built on HiDream's Unified Transformer (UiT), which encodes raw pixels, text, and task conditions in a single shared token space rather than splitting the task across a separate text encoder, a VAE, and an image model. On the Artificial Analysis Text to Image Arena, HiDream-O1-Image-1.5 places second only to OpenAI’s image models, delivering quality similar to GPT Image 1.5 (high), Nano Banana 2 (Gemini 3.1 Flash Image Preview), and Cosmos3-Super-Text2Image. HiDream-O1-Image-1.5 is priced at $80/1k images and is currently available on HiDream’s HiHarness platform (accessible via their website), as well as on the Vivago platform. Congratulations to @HiDream_ai and @vivago_ai on the release! See below for comparisons between HiDream-O1-Image-1.5 and other leading models in the Artificial Analysis Image Arena 🧵

译HiDream 发布 O1-Image-1.5，在 Artificial Analysis 文生图排行榜中位列第三，超越 Google Nano Banana 2。该闭源模型可生成高达 2K 分辨率图像，基于自研 Unified Transformer（UiT）架构，将原始像素、文本和任务条件编码到统一 token 空间。质量仅次于 OpenAI，与 GPT Image 1.5 (high)、Nano Banana 2（Gemini 3.1 Flash Image Preview）及 Cosmos3-Super-Text2Image 相当。定价 $80/千张，现可通过 HiHarness 及 Vivago 平台使用。

Rohan Paul@rohanpaul_ai · 6月10日51

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/anthropic-finally-released-claude 🗞️ Claude’s ‘too dangerous’ AI model is finally public. But there’s a catch 🗞️ Cognition is introducing FrontierCode, a coding benchmark built to test whether AI code is good enough for a real maintainer to merge, not just whether it passes tests. 🗞️ This is the silent limiter on Claude Fable 5 - It cannot be used for really advanced AI research stuff. 🗞️ New Anthropic research shows AI agents may look brilliant at code, but in biology they can fail before the science starts. 🗞️ Very useful recommendation for pushing Claude Code to its full potential. by Thariq, from Claude Code team.

译Rohan Paul 今日简报要点：Anthropic 终于公开了此前被认为“太危险”的 Claude AI 模型，但存在使用限制；Cognition 推出 FrontierCode 编程基准，用于评估 AI 代码是否达到可合并维护的水平；Claude Fable 5 的隐形限制是不能用于高级 AI 研究；Anthropic 新研究显示 AI 智能体在代码领域表现亮眼，但在生物任务中可能连科学探索第一步都无法完成；此外，Claude Code 团队成员 Thariq 给出了最大化利用 Claude Code 的实用建议。

🚨 AI News | TestingCatalog@testingcatalog · 6月10日81

Mythos Fable 5 benchmarks are huge 👀 Additionally, Claude Mythos 5, a separate model version with enhanced safeguards, has been released to a small group of cyber defenders and infrastructure providers.

译Mythos Fable 5 的基准测试结果非常巨大 👀 此外，Claude Mythos 5（一个具有增强安全措施的独立模型版本）已向一小群网络防御者和基础设施提供商发布。

Thariq@trq212 · 6月10日42

Fable is a step-change in models, and I hope it changes how you work with Claude. More to come in a series of posts on how it’s reshaped our work, but the TLDR: it’s time to be more ambitious.

译Fable 是模型的阶跃式变化，我希望它能改变你使用 Claude 的方式。后续将有一系列帖子说明它如何重塑我们的工作，但简而言之：是时候更加雄心勃勃了。

ClaudeDevs@ClaudeDevs · 6月10日76

Claude Fable 5 is our first generally available Mythos-class model. It ships with new safety classifiers that may flag certain prompts in dual-use domains like cyber and bio. We've added fallbacks: a refused request retries on Claude Opus 4.8 instead of dead-ending.

译Claude Fable 5 是我们首个普遍可用的 Mythos-class 模型。它搭载了新的安全分类器，可能会标记网络和生物等双重用途领域的某些提示词。我们增加了回退机制：被拒绝的请求会在 Claude Opus 4.8 上重试，而不是直接终止。