🚨 AI News | TestingCatalog@testingcatalog · 6月12日71

OpenAI ❤️ Ona OpenAI acquired Ona, a cloud execution platform for AI agents. > Its secure cloud execution technology will help Codex take on longer-running work, even when laptops are closed, and help more organizations deploy agents securely in production. Managed OpenAI Agents soon?

译OpenAI 已达成协议收购云执行平台 Ona，其安全云执行技术将帮助 Codex 处理更长时任务（即使笔记本关闭也能继续运行），并让更多组织在生产环境中安全部署智能体。收购完成后，Ona 团队将加入 OpenAI 的 Codex 部门，此举或预示着托管 OpenAI 智能体服务的到来。

向阳乔木@vista8 · 6月11日75

很多朋友问，如何给Codex写一个好的Goal指令？睡觉前执行，模型自动开发，第二天“收菜”。发过4w字文档，但多数人懒的看，所以我写了个Skill。把一句话需求变成目标，复制就能用。安装指令： npx skills add joeseesun/qiaomu-goal-meta-skill 源码免费开源，见评论区

译针对如何给Codex写Goal指令的问题，作者发布了一个Skill，可将一句话需求自动转化为目标，实现“睡前写指令、模型自动开发、第二天收菜”。安装命令：`npx skills add joeseesun/qiaomu-goal-meta-skill`。源码免费开源（见评论区），旨在简化4w字文档的阅读负担。

Chubby♨️@kimmonismus · 6月11日60

Read these two facts together. Because there's something important to learn from it. Anthropic just told investors it's on track for its first profitable quarter, with revenue more than doubling to ~$10.9B. OpenAI is projected to burn well into the double-digit billions this year (2026) and, per the WSJ, is now weighing further price cuts to keep enterprises from defecting to Claude. The lab bleeding the most cash is the one under pressure to get cheaper, because the profitable one is what enterprises increasingly want. SemiAnalysis ran the tokenomics. A $200 ChatGPT plan can soak up to ~$14,000 in API-equivalent tokens a month. The same $200 Claude Max tier caps near $8,000. OpenAI already eats the bigger subsidy by a wide margin, and the WSJ reports it's considering cutting token prices further to win users from Anthropic. So the company losing the most money is the one being pushed to go cheaper, while the one approaching profitability sets the terms. This is competition 101, heated competition in a nutshell.

译Anthropic告知投资者即将迎来首个盈利季度，收入翻倍至约109亿美元。OpenAI预计2026年亏损达数十亿美元，正考虑进一步降价以阻止企业客户转向Claude。SemiAnalysis分析显示，ChatGPT Pro的200美元订阅计划每月可消耗约14,000美元API等价token，而Claude Max同价计划上限约8,000美元。亏损最严重的公司被迫降价应对竞争，而接近盈利的公司正在设定行业定价标准。

Chubby♨️@kimmonismus · 6月11日55

Huge: OpenAI is considering drastically lowering the prices it charges users as it seeks to win customers from its rival Anthropic. The company is weighing significant cuts to what it charges for tokens, the unit of measurement AI firms use to bill for their products, according to people familiar with the matter. The move would be in anticipation of similar cuts the company expects at Anthropic, the people said.

译重磅：OpenAI正在考虑大幅降低用户收费，以从竞争对手Anthropic那里赢得客户。据知情人士透露，该公司正在考虑大幅削减其token收费——token是AI公司用于计费的计量单位。知情人士称，此举是为了应对预计Anthropic也将做出类似降价。

Chubby♨️@kimmonismus · 6月11日59

Subscription plans are massively subsidized. And by massively, I mean absurdly: Claude Max 20x: $200/month, with usage reportedly worth around $8,000 ChatGPT Pro 20x: $200/month, with usage reportedly worth around $14,000

译Anthropic的Claude Max 20x和OpenAI的ChatGPT Pro 20x每月均为$200，但实际使用价值分别约$8,000和$14,000。此前业界普遍认为$200月费计划按API定价最多仅值$2,000/月的token用量，而实际订阅计划的补贴远高于预期，价值可达API定价的4–7倍。

向阳乔木@vista8 · 6月11日50

Codex的Goal指令太强了。一个网站开发任务，已经足足运行了10小时。 AI自己开发测试部署上线，功能在不断完善。昨天说的AI资讯订阅RSS站，大家可以体验了。 https://rss.qiaomu.ai/

译推文称Codex的Goal指令功能强大，一个网站开发任务已连续运行10小时，AI自动完成开发、测试、部署和上线，且功能持续完善。作者预告的AI资讯订阅RSS站已开放体验，链接为 https://rss.qiaomu.ai/。

AYi@AYi_AInotes · 6月11日60

昨天Claude Fable 5发布以后，压力给到了Open AI， OpenAI 正在考虑大幅降价，以争取从劲敌 Anthropic 手中赢得更多用户，感觉有点难追啊，全球大模型铁王座大概是Claude稳坐了

宝玉@dotey · 6月11日71

渣男啊！最近又移情别恋 Fable 5 了，虽然它很贵，但是复杂的干活是真的更省心更稳一些❤️

译宝玉改用Fable 5，称其处理复杂任务更省心但很贵。他建议不依赖单一模型，应组合使用：Opus 4.8写作弱但UI和系统设计强，可用Claude Design设计后分别交给GPT-5.5和Opus 4.8实现对比。在Claude Code和Cursor中，Opus 4.8除写作外效果良好，需针对性调提示词。

Tibo@thsottiaux · 6月11日64

Can confirm we saw a strong spike in growth of token consumption for Codex over last 48 hours. Unusual when we don't launch something.

译可以确认，过去 48 小时内我们观察到 Codex 的 token 消耗量出现了强劲增长。我们并未发布新产品，因此这一情况不同寻常。

Greg Brockman@gdb · 6月11日61

Use your Oracle cloud commitment for OpenAI products: https://openai.com/index/openai-on-oracle-cloud/

译将你的Oracle云承诺用于OpenAI产品：https://openai.com/index/openai-on-oracle-cloud/

Tibo@thsottiaux · 6月11日53

Simplify until there is nothing to simplify

译OpenAI 更新 ChatGPT 模型选择器，简化选项并移除使用率不到 1% 的 thinking-light。新选项包括：Instant、Medium（Thinking-Standard）、High（Thinking-Extended）、Extra High（Thinking-Heavy，仅限 Pro 用户），以及 Pro 用户可选的 Pro-Standard 或 Pro-Extended。更新旨在让用户更轻松地选择速度与推理深度之间的平衡，同时根据社区反馈确保 thinking-heavy 和 Pro 选项易于访问。该更新已今天开始推送。

Rohan Paul@rohanpaul_ai · 6月11日60

Interesting claim from SemiAnalysis. AI subscriptions are dramatically underpriced versus API usage: - For heavy coding/chat users, the subscription can be 40–70× cheaper than paying API rates; the API is mainly better when you need automation or product integration. - a $200/month ChatGPT Pro plan can provide about $14,000/month of API-equivalent usage, while a $200/month Claude Max 20x plan can provide about $8,000/month.

译SemiAnalysis 实测发现，AI 订阅计划对重度编码/聊天用户而言比 API 调用便宜 40–70 倍；API 仅在需要自动化或产品集成时更划算。$200/月的 ChatGPT Pro 可提供约 $14,000/月的 API 等价用量，$200/月的 Claude Max 20x 可提供约 $8,000/月。该机构购买了 Anthropic 和 OpenAI 各档订阅，随机运行长时编码任务直至周限额，证实实际订阅额度远比普遍认为的（$200 对应约 $2,000 API 价值）更慷慨。

向阳乔木@vista8 · 6月11日53

发现Codex的Goal指令，不需要特别精确可衡量的目标，也能执行的不错。昨天睡觉前给了一个目标：迭代优化网站，让网站更精致易用，无论站长还是普通用户都能通过AI翻译/重写、人工点评，沉淀更有价值的信息，让网站有更好的互动性和长久的生命力。第一版用Claude Fable 5生成，迭代是靠Codex。到现在运行了6个小时，加了很多功能... 布局不合理，但想法方向它确实Get了。预计下周开源，一个在线 AI 资讯 RSS 订阅网站： ① 支持内容自动更新，AI 转写、双语对照阅读 ② 支持用户配置大模型，AI 对话、翻译 ③ 所有用户的翻译、人工点评沉淀为共享资产目前已在线上，但还需做减法优化，感兴趣的说说你的需求，邀你内测。

译用户发现Codex的Goal指令无需精确可衡量目标也能有效执行。设定“迭代优化网站使其更精致易用”的目标后，第一版由Claude Fable 5生成，后续迭代交由Codex负责，运行6小时即新增多项功能。预计下周开源一个在线AI资讯RSS订阅网站，支持内容自动更新、AI转写与双语对照阅读，用户可配置大模型进行AI对话和翻译，所有翻译及人工点评将沉淀为共享资产。当前网站已上线但需优化，开放内测邀请。

Tibo@thsottiaux · 6月11日65

Welcome Clint and Michael! Incredibly excited to see what we do together to contribute to the cybersecurity field and accelerate defenders across the globe. It's time to build.

译Clint Gibler和Michael Aiello加入OpenAI领导网络安全。Clint此前在Semgrep打造了全球最流行的开源安全代码扫描工具。他提出未来方向：通过安全代码生成和简化检测—验证—修复流程，系统性消除漏洞类别（韧性设计）；构建模型和工具为防御者提供“超能力”；保护开源软件，已投入数百万美元修复浏览器、操作系统等核心库漏洞；与社区和合作伙伴共同守护关键基础设施。具体包括大规模漏洞发现修复、广泛提供顶级模型、创建安全技能与剧本、构建防御者编排平台等。

Rohan Paul@rohanpaul_ai · 6月11日55

Sam Altman is reportedly warning staff that recursive self-improvement (RSI) could delay its IPO. Altman said a major RSI breakthrough could justify delaying the listing, as some work may be easier while being a private company. Public-market pressure for Revenue/profit could be huge during a phase where model capability may change faster than quarterly reporting can explain. --- cryptobriefing. com/openai-ipo-delay-recursive-self-improvement/

译Sam Altman 据报告正警告员工，递归自我改进（RSI）可能会延迟其 IPO。 Altman 表示，一次重大的 RSI 突破可能合理推迟上市，因为一些工作在作为私营公司时可能更容易进行。在模型能力变化可能比季度报告解释更快的阶段，公开市场对收入/利润的压力可能巨大。

jason@jxnlco · 6月11日27

Sandbagging is coming to Agents, but not to ChatGPT Codex

译Sandbagging 正降临到 AI 智能体上，但不会降临到 ChatGPT Codex。

Chubby♨️@kimmonismus · 6月11日49

OpenAI’s chief scientist, Jakub Pachocki, wrote in a slack message that GPT-5.6 will be a "meaningful improvement" over GPT-5.5. GPT-5.5 is fantastic and my daily companion in Codex. A significant leap forward would be welcome. But the truth is: OpenAI needs its own mythos/fable. Via TheInformation

译OpenAI 首席科学家 Jakub Pachocki 在 Slack 消息中写道，GPT-5.6 将比 GPT-5.5 有“有意义的改进”。 GPT-5.5 很棒，是我在 Codex 中的日常伴侣。一次重大飞跃将受到欢迎。但事实是：OpenAI 需要自己的神话/传说。来源：The Information

jason@jxnlco · 6月11日17

What kind of issues do you run into when you are using Codex to work on sheets?

译当你使用Codex处理sheets时，会遇到哪些问题？

jason@jxnlco · 6月11日28

Soon if you use those models to make a consulting style slide deck to pitch a new drug. Not only will it charge you api pricing. It’ll ask to be a coauthor and distributions of the tests are successful. That’s how you fund AGI.

译很快，如果你用这些模型制作咨询风格的幻灯片来推介一种新药。它不仅会向你收取 API 费用，还会要求成为合著者，并在测试成功时获得分成。这就是资助 AGI 的方式。

Chubby♨️@kimmonismus · 6月11日65

holy: Dario Amodei says the real reason he started Anthropic was not safety, but a fundamental breakdown of trust with Sam Altman. Imagine having a trust dispute with someone, and somehow a $1.2T rival company comes out of it.

译天哪：Dario Amodei 说他创办 Anthropic 的真正原因并非安全，而是与 Sam Altman 的信任彻底破裂。想象一下，和某人有信任纠纷，结果却催生出一家 1.2 万亿美元的竞争对手公司。

Chubby♨️@kimmonismus · 6月10日73

OpenAI appears to be preparing for a possible IPO within the next year, but Sam Altman is keeping the door open. If recursive self-improvement starts looking real, staying private could become the smarter move. At the same time, OpenAI’s enormous compute needs may push it toward public markets sooner, while the company is also preparing a new model, codenamed 5.6, described internally as a meaningful improvement over GPT-5.5. via The Information

译The Information 报道，OpenAI 正筹备未来一年内 IPO，CEO Sam Altman 持开放态度：若递归自我改进趋势显现，私有可能更明智；巨大计算需求也可能推动更早上市。公司同时准备代号 5.6 的新模型，内部描述为对 GPT-5.5 的有意义改进。本周早些时候，Altman 与首席科学家 Jakub Pachocki 已向员工发送备忘录讨论上述事宜。

ChatGPT@ChatGPTapp · 6月10日69

Go #MessiMode Upload a photo of yourself and try this prompt: “Make my hair the colors of my country flag but keep it natural-looking. If no country or image is provided, ask."

译Go #MessiMode 上传一张你的照片并尝试这个提示词：“将我的头发变成本国国旗的颜色，但要看起来自然。如果没有提供国家或图片，请询问。”

OpenAI Developers@OpenAIDevs · 6月10日40

For musician and composer @sound4movement, Codex works like a studio assistant. He asks for a piano track in 3/4, sets the tempo and harmony, then describes how the performance should build. Codex handles the setup in Ableton Live. Michael stays focused on the creative work.

译对于音乐人和作曲家 @sound4movement，Codex 就像一个工作室助手。他要求一个 3/4 拍的钢琴轨道，设置速度和和声，然后描述表演应该如何构建。Codex 在 Ableton Live 中处理设置。Michael 则专注于创作工作。

Nathan Lambert@natolambert · 6月10日56

Many AI leaders in the US accused Chinese LLMs of subtle manipulation of the user (without proof, but it's hard to prove). But then the leading American lab documented manipulation of their users. Can't make this up.

译许多美国 AI 领袖指责中国大语言模型对用户进行微妙操纵（没有证据，但很难证明）。但随后，领先的美国实验室记录了对他们用户的操纵。真是编都编不出来。

Berryxia.AI@berryxia · 6月10日48

Fable 5 VS Opus 4.8 VS Gemini 3.1 Pro VS GPT 5.5 只有Google 还拿着去年的模型在玩儿~

Tibo@thsottiaux · 6月10日9

I would like to claim my 1% of royalty fees.

译我想索取我的1%版税。

小互@xiaohu · 6月10日48

OpenAI 的骚操作真多哈哈哈推出了一个活动：每邀请一个好友加入Codex 就帮你自动重置一次用量😅 而且可以重复使用，每当你想重置的时候就可以去邀请好友...

凡人小北@frxiaobei · 6月10日15

Anthropic 家的模型文字水平高，从他们家的模型起名就能看得出来。 haiku sonnet opus fable mythos 隔壁 OpenAI 家就土了很多，理科生无疑。

jason@jxnlco · 6月10日17

So excited to see that scaling still works.

译非常兴奋看到规模扩展仍然有效。

ginobefun@hongming731 · 6月10日57

http://x.com/i/article/2064485562875260928 # BestBlogs 早报 · 06-10｜Claude 安全分层、企业智能体治理、双语语音 Agent 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-10 ## 导语今天这期 BestBlogs 早报，适合作为一份关于「生产级 AI」的阅读地图。过去几个月，很多讨论还停在模型是不是更聪明、Agent demo 是不是更惊艳；今天的三篇精讲把问题往前推了一层：当模型能力继续上升，谁来定义可用边界？当企业真的部署了成千上万个 Agent，上线后的运营成本、反馈闭环和确定性流程怎么跟上？当语音 Agent 面向真实客户，用户在一句话里切换两种语言，ASR 层的错误又会怎样传导到后面的工单、策略和回复？把这篇图文版当作播客的延展阅读：先读三篇精讲，建立「模型能力、企业治理、入口评测」三条主线，再用速览和补充阅读补齐 RAG、Skill、CLI、基础设施和推荐系统等工程侧细节。一个更实用的读法，是把今天所有文章都放进同一张生产链路图里：上游是 Anthropic、HRM-Text 这类模型与架构能力；中间是 RAG、Skill、Foundry、Copilot CLI 这些把能力包装成工作流的平台层；下游是 Salesforce、OpenAI 财务团队、语音 Agent、教育试验和 Netflix 推荐这类真实应用场景；最底层则是 DeepSeek-V4 云原生推理这样的基础设施。这样看，今天的主题不是某个单点突破，而是 AI 系统如何从可演示、可调用，继续走向可运营、可评测、可承担责任。所以这期更适合边读边做笔记：每看到一个新模型或新平台，都顺手记下它解决的是能力、流程、评测、治理还是基础设施问题。这样读完之后，你得到的不是一串新闻标题，而是一组可迁移的判断标准，也更容易判断下一轮 AI 产品更新究竟补上了哪一块短板。 ## 精讲一：Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5 Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5 是今天最适合放在第一位的文章，因为它不是单纯宣布一个更强的模型，而是把能力提升、访问分层、风险控制和商业价格放在同一个发布里讨论。Anthropic 将 Claude Fable 5 推向通用用户，同时把同一底层模型以 Mythos 5 的形式开放给少量可信网络安全伙伴。这个安排本身就是信号：前沿模型的发布逻辑正在从「一个模型给所有人」转向「同一能力在不同风险场景下被不同方式包装、降级和授权」。原文最值得抓住的事实有几组。第一，Fable 5 被描述为目前 Anthropic 面向一般用户开放的最强模型，在软件工程、知识工作、视觉、科学研究等任务上都有明显提升，任务越长、越复杂，领先幅度越突出。第二，Anthropic 明确承认这类能力会带来网络安全等高风险滥用，所以对部分请求会改由 Claude Opus 4.8 响应；由于安全规则设得保守，平均少于 5% 的会话会触发这种降级。第三，Mythos 5 与 Fable 5 使用同一底层模型，但在部分领域放宽安全限制，先通过 Project Glasswing 面向网络防御者和基础设施伙伴部署。第四，价格也被一起给出：每百万输入 token 10 美元、每百万输出 token 50 美元，低于 Claude Mythos Preview 的一半。这些信息放在一起，重点就不只是「Claude 又变强了」。更重要的是，模型厂商开始把能力、风险和客户资格拆成可运营的产品层级。对普通开发者来说，Fable 5 的关键价值可能是更长任务、更复杂代码迁移和更强文档推理；对安全团队来说，Mythos 5 的意义则在于把高风险能力放进可信访问计划，而不是简单地对所有人开放或全部封锁。原文还提到早期案例，包括在 50-million-line Ruby 代码库上做迁移、在生命科学中加速药物设计假设探索等。这些案例不应被读成「任何团队马上都能复制」，而应读成厂商用来说明模型长程自治能力正在进入真实工作流的证据。从产品采用角度看，这篇文章还给企业买方一个判断框架：当供应商说模型更强时，应该追问能力提升出现在哪些任务长度、哪些业务流程、哪些风险领域；当供应商说安全可控时，应该追问降级策略是否透明、误伤率如何衡量、什么请求会被转给更弱模型；当供应商说有更高权限版本时，应该追问访问资格、审计机制和责任主体。换句话说，前沿模型的采购不再只是比较跑分、价格和上下文窗口，而是要把模型当成有访问层级的基础设施来评估。它和今天另外两篇精讲之间有很强的呼应。Salesforce 的文章讨论企业 Agent 上线后的运营，ServiceNow 的 ASR 基准讨论语音入口的可靠性；Anthropic 这篇则是在底层模型层面提出同一个问题：AI 能力越接近生产核心，越不能只看 benchmark，还要看权限、降级、监控和事故边界。阅读建议是先看发布中的安全分层和价格段落，再看软件工程与知识工作案例，最后回到 Mythos 5 的可信访问机制。这样读能避免被「最强模型」的表述带偏，而是把它放进企业采用 AI 的真实治理链路里。 ## 精讲二：Salesforce 从 20，000 个企业智能体部署中学到的经验 Salesforce 从 20，000 个企业智能体部署中学到的经验的价值在于，它把 Agent 的讨论从「怎么做一个 demo」拉回到「怎么在企业里长期跑下去」。ByteByteGo 借 Salesforce Agentforce 的生产部署复盘了一个很现实的事实：很多 Agent 失败不是因为模型完全不能用，而是因为团队低估了上线之后的运营工作。文章提到 Salesforce 已有超过 20,000 个企业客户运行 Agentforce，支持 Agent 单项就处理了超过 3 million 次对话，这给它的经验总结提供了足够的生产背景。这篇文章先把 Agentforce 拆成几层：用户通过 Slack、聊天窗口或消息应用进入 engagement layer；agent layer 负责推理、决策、监控和编排；system of work 连接销售、服务、商务等真正承载业务动作的应用；context layer 提供数据和元数据；贯穿全栈的 trust layer 负责多模型、权限和 guardrails。这个架构图本身并不神秘，很多企业平台都会画类似的层次。真正有意思的是后面的工作量反转：传统软件往往把大部分努力放在上线前，而 AI Agent 的大部分工作发生在上线后。原文用一种很直白的方式说，Agent 不是发布后就完成，而是发布后才开始学习哪里会误判、哪里需要更确定的流程、哪里需要重新定义 KPI。具体方法上，文章强调了几个比 prompt 更重要的环节。首先是反馈循环，团队要能把失败对话、用户评价、业务结果和改进动作串起来。其次是上下文治理，Salesforce 的案例里提到从 135,000 篇帮助文档中选取相关内容，并把上下文从 100K tokens 级别裁剪到 2K tokens 左右，这说明生产 Agent 的效果并不是「给模型越多越好」，而是要让检索、过滤和业务语境足够精确。第三是确定性流程：有些步骤不适合交给模型自由发挥，比如退款、权限变更、关键字段写入和合规判断，需要被约束在可追踪的工作流里。这篇文章也把一个常被忽略的角色摆到台前：业务团队本身。企业 Agent 不是工程团队写完后交付给业务部门使用的普通软件，而是需要业务人员持续标注成功与失败、定义哪些回答可接受、哪些动作必须升级人工、哪些知识库内容已经过期。帮助文档、CRM 数据、工单历史和政策规则如果没有清洗和归属，Agent 很容易在看似合理的回答中放大旧流程的问题。Salesforce 的经验因此更像一套组织运行建议：先把反馈、KPI 和人工兜底设计好，再谈更高的自动化比例。它的重要性在于，很多团队今天仍然把 Agent 当成一个更会聊天的界面，忽略了企业系统里真正贵的部分是责任边界。谁批准动作？谁观察失败？谁定义成功？谁把一次错误转成可复现的测试？这些都不是一个更长的 system prompt 能解决的。和 Anthropic 的发布对照看，底层模型可以更强，但企业采用它的瓶颈往往在组织和平台能力；和 ASR 基准对照看，入口转写如果错了，后面的 Agent 再聪明也会在错误上下文里自信执行。阅读这篇时，建议重点看「上线后运营」而不是产品宣传：把它当成一份 Agent 项目复盘清单，逐条映射到自己团队有没有日志、评测集、回放机制、业务 KPI 和人工兜底。 ## 精讲三：语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试切中的是语音 Agent 的入口问题。很多语音产品 demo 看起来流畅，是因为输入被控制得很干净：单一语言、清晰句子、标准任务。但真实企业场景里，客户可能一句话里先用西班牙语描述问题，再夹一个英文产品名；员工可能用法语问 HR 政策，中间插入英文岗位、系统或报错信息。ServiceNow AI 在 Hugging Face 发布的这组基准，就专门评估 ASR 系统在 code-switching 语音上的表现。原文背景很清楚：全球超过一半人口会说不止一种语言，语码转换并不是少数人的异常行为，而是很多双语用户的自然交流方式。企业服务场景尤其如此，因为 HR、ITSM、客服和内部支持会同时出现本地语言、英文软件名、政策术语和工单字段。ServiceNow 团队因此把 ASR 放在第一步评估，因为转写错误会沿着语音 Agent 的整个 pipeline 传播：转写错了，意图识别、检索、策略判断和最终回复都会跟着偏。这组基准覆盖四组语言对：Spanish-English、French-English、Canadian French-English 和 German-English。数据来自 HR 与 IT 服务管理相关场景，包括福利、薪资、密码重置、VPN 访问、设备排障等常见任务。指标也不只看传统的 WER。文章同时报告 WER、Semantic Word Error Rate 和 Answer Error Rate，分别观察字面转写、语义保留和下游回答影响。这个设计很重要，因为生产系统真正关心的不只是一个词有没有拼对，而是错误是否改变了用户意图、工单类别或解决路径。原文的主要结论是，code-switching 的成本会随语言对和模型而变化；ElevenLabs Scribe V2、Gemini 3 Flash 与 AssemblyAI Universal 3-Pro 在多项指标上更稳。对产品团队来说，这篇的落点尤其实际。很多语音 Agent 项目会把失败归因于 LLM 没理解、知识库没命中或 prompt 不够清晰，但如果 ASR 在第一步就把语言切换、专有名词、工号、系统名或政策关键词转错，后面的模块其实是在处理一个已经变形的问题。企业如果面向多语言客户，应该把语码转换纳入灰度测试，而不是等上线后从投诉里发现问题。更进一步，评测集也不该只收集标准客服句子，还要覆盖短句、口语、省略、产品名混用和不同语言中嵌入英文术语的表达。这篇文章和今天的企业 Agent 主线关系很密。Salesforce 的经验告诉我们，上线后要有反馈闭环；这篇则提醒我们，反馈闭环必须从输入层开始，而不是只在 LLM 输出层打补丁。Anthropic 的发布强调能力和安全分层；语音 Agent 则说明能力边界还包括语言、口音、术语和场景分布。对要做客服、HR 或 IT helpdesk 语音产品的团队来说，这篇最值得学的不是某个榜单名次，而是评测框架：先定义真实任务、真实语言混合方式和下游损失，再比较模型。阅读建议是先看 Introduction 和 Benchmark 部分，理解为什么要把 ASR 与下游回答一起评估；如果时间有限，再直接看结果和错误分析，把它当作建立自家语音 Agent 测试集的模板。三篇精讲合在一起，给出的其实是一条很朴素的工程原则：不要把 AI 系统的可靠性寄托在单个最强模型上。模型层要有能力分级和访问控制，平台层要有日志、指标、反馈和确定性流程，入口层要用真实用户语言和真实任务分布做评测。只要其中任何一层被忽略，系统都可能在 demo 中显得聪明，却在生产中变得难以解释、难以修复、难以承担责任。 ## 速览 Gemini 引导式学习：塞拉利昂随机对照试验结果 Google DeepMind 分享了与 Fab AI、塞拉利昂教育部合作的随机对照试验。研究在 Port Loko District 的 12 所学校、1,763 名初中学生中进行，为期 8 周，评估 Gemini Guided Learning 对数学进步的影响。文章的价值不在于把 AI 包装成教师替代品，而是给「AI 如何辅助教育」提供了更接近政策和课堂现实的证据：要看学习效果、教师角色、批判性思维保护，而不只是问答体验是否顺滑。如何更科学、方向可控的实现 Skill 的“自进化”? 这篇阿里云开发者文章把 Agent Skill 的自动沉淀从经验话题拉回研究脉络，集中解读 Trace2Skill、EvoSkill、SkillOpt 三条路线。它讨论的不是「让 Agent 自动写更多 Skill」这么简单，而是如何避免沉淀质量不高、更新后效果变差、Skill 库膨胀难管理等问题。适合正在搭建 Agent 平台或内部工作流工具的团队阅读，尤其适合和今天 Salesforce 的上线后反馈闭环一起看。生产环境中常见的 10 个 RAG 错误 Towards Data Science 这篇文章总结了生产级 RAG 的十类坑，覆盖文档解析、问题解析、检索和生成多个环节。它最有用的提醒是：很多失败不是因为模型不够强，而是因为团队把文档和问题都当成扁平字符串处理，没有把结构、字段、上下文和任务边界建模清楚。对合规、理赔、合同审查或企业知识库场景来说，这篇能帮助你把「召回更多内容」改成「构造更可靠的信息对象」。只给一份文档，Qwen3.7-Max 从 0 交付双端应用通义实验室与 Efflora 团队的实验让 Qwen3.7-Max 只基于一份产品调研文档，在隔离环境里从 0 交付移动端和 Web 端应用。文章里更值得看的不是「模型写了多少代码」，而是它如何处理规划、架构、模块拆分、数据模型、接口、验证和修复。它和 Claude Fable 5 的长程软件工程案例形成对照：Agent 工程质量不是一次生成出来的，而是在约束、验证和闭环中逐步收敛。 OpenAI 如何打造 AI 原生财务团队：工程师嵌入、ChatGPT、Codex 与工作流智能体这条 OpenAI 视频从企业职能部门角度讲 AI 原生运营。财务负责人 Stacie Faggioli 介绍了工程师嵌入财务团队、使用 ChatGPT、Excel 智能体、Codex 仪表盘和工作流 Agent 的方法。它适合和 Salesforce 文章配对阅读：一个讲平台型 Agent 如何规模化部署，另一个讲企业内部职能如何重组工作方式。重点不是工具清单，而是把自动化能力嵌进真实流程和责任结构。业界首次：DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地招商银行信息技术部这篇实践文把视角拉到 AI 基础设施。文章围绕 DeepSeek-V4 Flash 的大 EP 推理服务，讲 PD 分离、Router、Prefill、Decode、多角色拓扑、动态端口分配、服务发现、多级故障自愈和原地升级。它提醒我们，生产级 AI 不只是模型和应用层的问题；当推理从单机走向分布式集群，Kubernetes 原生工作负载并不能自然表达所有拓扑和故障联动。 4000 行代码撑起一个 Agent 框架？nanobot 架构深度解析腾讯云开发者对 HKUDS nanobot 的拆解很适合用来校准 Agent 框架复杂度。文章提到 nanobot 以约 3,935 行核心代码实现集中式 AgentLoop、ReAct 循环、Markdown 技能系统、文件系统记忆和多渠道接入，并对比了 LangChain 级别的大型框架。它不是说所有系统都应极简，而是展示了控制面集中化带来的可理解性，以及这种设计在复杂编排、可观测性和扩展性上的边界。速览里的七篇可以分成三组来读。教育试验、OpenAI 财务团队和 Qwen3.7-Max 应用交付，回答的是 AI 在具体业务里如何证明价值；Skill 自进化、RAG 错误和 nanobot，则回答 Agent 工程该如何沉淀、约束和保持可维护；DeepSeek-V4 云原生推理实践提醒我们，所有上层能力最终都要落在算力、网络、调度和故障恢复之上。如果只挑一组，建议按自己的岗位选择，而不是按热度选择。 ## 补充阅读多媒体积木块这篇 Hugging Face 博客展示了一个 Agent 如何通过两个 Space 的 agents.md 端点串起图像生成和 3D 重建，做出巴黎纪念碑 3D 画廊。它补充的是「工具可组合」方向，适合关心多媒体 Agent、Space 生态和未来软件接口形态的人。 Microsoft Foundry 新增运行时、工具链与治理能力，助力生产级智能体 InfoQ 梳理了 Build 2026 上 Microsoft Foundry 的新能力，包括托管 Agent、程序性记忆、Foundry IQ、MAI 模型、可观测性和治理。它是 Salesforce 文章的生态侧补充，适合正在比较企业 Agent 平台选型的读者。从一次性提示词到工作流：如何在 GitHub Copilot CLI 中使用自定义智能体 GitHub Blog 介绍 Copilot CLI 的自定义 Agent：用 Markdown 配置文件沉淀团队专属流程，自动化安全审计、IaC 合规、发布文档和事件响应。它适合想把临时 prompt 变成可复用团队工作流的工程团队。 Introducing FrontierCode FrontierCode 关注模型能否写出高质量、可合并的生产代码，而不只是通过正确性测试。它能补充 Claude Fable 5 与 Qwen3.7-Max 两条软件工程新闻，适合关心 AI 编码评测、代码审查标准和真实仓库质量的人。新架构模型 HRM-Text 创新纪录！1B 参数、1000 美元，图灵奖得主都亲自下场了机器之心解读 HRM-Text：约 1B 参数、较低训练成本、分层递归架构和针对性训练目标。它补充的是模型架构效率路线，适合不只看大模型 scale，也关心「更少参数和数据能否换来更高推理产出」的读者。个性化推荐的价值：来自 Netflix 的证据这篇 arXiv 经济学论文用 Netflix 收视数据量化个性化推荐的因果影响，认为个性化推荐相较更简单算法可提升 4%-12% 的用户参与度。它适合推荐系统、增长和内容平台读者，尤其适合思考「精准匹配」与「曝光效应」的区别。 ## 今日阅读路径如果你只有 20 分钟，先读三篇：第一篇读 Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5，建立对前沿模型能力分层和安全降级的认识；第二篇读 Salesforce 从 20，000 个企业智能体部署中学到的经验，把视角从模型切到企业上线后的运营闭环；第三篇读语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试，补上语音入口和评测方法。如果你还有 30 分钟，接着读生产环境中常见的 10 个 RAG 错误、如何更科学、方向可控的实现 Skill 的“自进化”? 和 Microsoft Foundry 新增运行时、工具链与治理能力，助力生产级智能体。这三篇会把今天的主线从模型与 Agent 产品，延伸到知识检索、Skill 迭代和平台治理。最后，如果你更偏基础设施或编码评测，再补业界首次：DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地与 Introducing FrontierCode。更具体地说，今天可以按角色来读。产品负责人先看 Salesforce、ServiceNow 和 Google DeepMind，因为它们分别回答「上线后怎么运营」「真实用户输入怎么评测」「AI 辅助学习怎样证明有效」。工程负责人先看 Anthropic、RAG 错误、Foundry 和 Copilot CLI，因为它们覆盖模型能力、知识系统、平台治理和工作流复用。基础设施与平台团队则应把招商银行 DeepSeek-V4 落地实践、nanobot 架构和 FrontierCode 放在一起看：前者提醒你推理服务的云原生复杂度，后两者提醒你框架和评测都要回到可维护、可合并、可运行的真实标准。这样分层阅读，今天的 16 条内容就不会散成新闻列表，而会形成一条从模型发布到企业落地的完整链路。

Chubby♨️@kimmonismus · 6月10日53

It's already June 9th, and Gemini 3.5 Pro and GPT-5.6 are nearing release (Google even already announced 3.5 Pro during i/o) Rumor has it that GPT-5.6 will be released as early as next week. So far, it's safe to say that - guardrails aside - Anthropic is truly the frontier lab that's entering a new league with Mythos/Fable. Gemini 3.5 Pro and GPT-5.6 have a lot to deliver and are now under pressure. This release has certainly boosted Anthropic's upcoming IPO. Anthropic has proven that they are still capable of making significant leaps in performance and efficiency. There's no end in sight. But the pressure on the competition is mounting. And remember that Claude Mythos was (and probably is) still leader in Long Horizon software Tasks

译Anthropic的Claude 5 Fable（代号Mythos）在几乎所有AI能力基准测试中达到SOTA，长复杂任务优势尤为显著。模型更节约token，可在数百万tokens长任务中保持专注。Stripe早期测试中，Fable 5将5000万行Ruby代码库的迁移压缩到一天完成，而人工团队需两个多月。Gemini 3.5 Pro与GPT-5.6临近发布（GPT-5.6最早下周推出），面临压力。此次发布提振了Anthropic即将进行的IPO，证明其在性能与效率上仍能大幅跃升。

jason@jxnlco · 6月10日49

loop this loop that but honestly, if you get good enough at using codex with a orchestration loop, you too can be one of those people at equinox at 11:20am on a tuesday morning. "make up the chief of staff thread and then every 100 minutes, check all my connectors coordinate all the work across my pinned threads"

译loop this loop that 但说实话，如果你足够擅长使用 Codex 配合编排循环，你也可以成为那些周二上午 11:20 在 Equinox 的人之一。 "写好首席助理的线程，然后每 100 分钟检查我所有的连接器，协调我所有置顶线程中的工作"

swyx@swyx · 6月10日70

Mythos is live! so excited to have our FrontierCode recognized as the next frontier coding bench. on FC Diamond, BOTH Opus 4.8 and GPT 5.5 don't meaningfully scale with effort, which many of you caught yesterday. Mythos/Fable posttraining have really applied that test time compute toward solving very, very long running problems - dozens of human hour equivalents, hundreds of dollars per task, for the first time ever measured. Available now in @Cognition @Devin for only 1.4x ACUs too! (I never thought i'd see this launch lol)

译Mythos正式上线FrontierCode基准测试，旨在衡量AI生成可维护代码的能力。该基准包含超1000小时维护者验证的任务，并引入3000+评分标准防奖励攻击。最高难度FC Diamond上，Opus 4.8得分仅13.8%，且Opus 4.8与GPT 5.5均未随effort扩展提升。Mythos/Fable后训练将test time compute用于数小时级长任务。基准已在Devin上线，ACU成本仅1.4倍。FC Extended中最易的1/3任务在2025年末被快速攻克——Opus从41%升至74%，标志着AI编码进入“维护可读代码”新时代。

OpenAI Developers@OpenAIDevs · 6月10日76

Your app can now search the web for images. Web search in the Responses API now supports image results in addition to text results, so you can build apps that surface products, places, visual references, and source links for inspiration.

译你的应用现在可以搜索网页上的图片。 Responses API 中的网页搜索现在除了文本结果外，还支持图片结果，因此你可以构建能展示商品、地点、视觉参考和来源链接以激发灵感的应用。

Yuchen Jin@Yuchenj_UW · 6月10日71

Claude Fable 5 / Mythos 5 wins everywhere. I thought Fable 5 was just a nerfed Mythos Preview, but it’s literally better. SWE-Bench Pro: Fable 5: 80.3%, GPT-5.5: 58.6%. And the price is only 2x Opus 4.8: $10/input MTok, $50/output MTok. I don't think GPT 5.6 can beat this...

译Claude Fable 5 / Mythos 5 全面胜出。我以为 Fable 5 只是弱化版 Mythos Preview，但它实际更强。SWE-Bench Pro：Fable 5：80.3%，GPT-5.5：58.6%。而且价格仅为 Opus 4.8 的 2 倍：$10/输入 MTok，$50/输出 MTok。我认为 GPT 5.6 无法超越这个成绩。

jason@jxnlco · 6月10日24

What kind of issues do you run into when you are using Codex to create PDFs?

译你在使用Codex创建PDF时遇到了哪些问题？

Noam Brown@polynoamial · 6月9日68

We've known about LLM test-time compute scaling since @OpenAI o1. Yet 2 years later labs still report scalar evals for models; safety orgs are still surprised when a scaffold does better via 100x inference; and RSPs still ignore inference budget when deciding critical thresholds.

译自 @OpenAI o1 以来，我们就知道 LLM 测试时计算缩放。然而两年后，实验室仍在报告模型的标量评测；安全组织仍对某个脚手架通过 100 倍推理表现更好感到惊讶；而 RSP 在决定关键阈值时仍忽略推理预算。

OpenAI Developers@OpenAIDevs · 6月9日60

23,000+ ChinaRxiv papers are now freely available with more complete English translations after one developer replaced a complex OCR pipeline with GPT‑5.5. https://x.com/seconds_0/status/2059829527199592899

译23,000+ 篇 ChinaRxiv 论文现已免费提供，并带有更完整的英文翻译，源于一位开发者用 GPT-5.5 替换了复杂的 OCR 管道。

DogeDesigner@cb_doge · 6月9日18

Sam Altman wants to be Elon Musk so badly.

译Sam Altman 非常想成为 Elon Musk。

Rohan Paul@rohanpaul_ai · 6月9日83

OpenAI's latest official blog says the world may need a way to coordinate "slowing frontier development when needed."

译据 WSJ 报道，OpenAI 已向 SEC 秘密提交 IPO 草稿（保密 S-1），可在不公开收入、亏损、客户构成等敏感数据情况下启动审查。Anthropic 上周已提交类似文件。OpenAI 最新官方博客则指出，世界可能需要一种机制“在必要时协调放缓前沿开发”。这不仅是模型竞赛，更是实验室间为下一代 AI 基础设施融资的资本竞赛。