Codex papercuts 📉 Codex adoption 📈

译今天 Codex 的生活质量更新从设置开始。你现在可以搜索 Codex 设置，结果按类别分组，无需浏览每个部分即可找到要更改的内容——这使设置和自定义更加便捷。Codex 小修补 📉，Codex 采用率 📈。

OpenAI Developers@OpenAIDevs · 6月6日19

Developers told us building with Codex feels like flying. Go behind the build of Time to Fly 📷

译开发者告诉我们，用Codex构建就像在飞翔。一探Time to Fly的构建过程📷

宝玉@dotey · 6月6日57

现在 Codex 的设置已经多到要靠搜索来解决了。但是作为一个成熟的 Agent，难道交互不应该是在 Chat 里面说一句：“Hey Codex，帮我修改一下 XX 设置”？

OpenAI Developers@OpenAIDevs · 6月6日58

Today’s Codex quality-of-life updates start in settings. You can now search Codex settings, with results grouped by category, so you can find what you want to change without scanning every section – this makes setup and customization easier.

译今日的 Codex 生活质量更新从设置开始。现在你可以搜索 Codex 设置，结果按类别分组，这样无需逐节浏览就能找到想要更改的项——这使设置和自定义更加便捷。

ChatGPT@ChatGPTapp · 6月6日54

Meet Hiroki-san (@tomiyasu16) who is running his farm in Japan with ChatGPT and Codex: https://chatgptpro.substack.com/p/hiroki-tomiyasu

译日本北海道农户Hiroki Tomiyasu（@tomiyasu16）从未学过农业、未继承土地，曾是公务员。他用ChatGPT和Codex自行构建工具运营100公顷农场：通过聊天APP远程控制温室通风口（ESP32板+电机驱动+Cloudflare Workers）；自动检测温度并开窗的机器人；卫星作物健康数据叠加农田地图；Airtable关联地块、任务、物料、传感器；从照片生成电控柜布线图。这些以前只有大型农企才能负担。

Tibo@thsottiaux · 6月6日77

Better memory = Shorter prompts = More utility per token

译更好的记忆 = 更短的提示词 = 每个token更高效用

Chubby♨️@kimmonismus · 6月6日47

Next week(s) is going to be absolutely insane. We're seeing so much testing of the Claude Mythos derivative, because it's been given to red team members, that a release is really imminent. According to all the rumors, GPT-5.6 is also coming very soon, and I'm pretty sure OpenAI and Anthropic are trying to outdo each other. And then there's Google with Gemini 3.5 Pro, which will be announced at I/O as being released in early June. So, in all likelihood, next week will see a quantum leap. Get ready, friends.

译分析师 Kim 预测下周将迎来 AI 模型密集发布。Anthropic 的 Claude Mythos 衍生模型已交付红队测试，发布在即；OpenAI 的 GPT-5.6 也即将推出，两公司正激烈竞争；Google 则将在 I/O 大会上宣布 Gemini 3.5 Pro，预计 6 月初上线。三大模型有望在下周实现量子级跃升。

Tibo@thsottiaux · 6月6日24

I meant `uv add openai-codex`. Obviously.

译我意思是 `uv add openai-codex`。显然是这样。

宝玉@dotey · 6月6日52

这次批量封号应该只是意外

ChatGPT@ChatGPTapp · 6月6日68

Draft it. Tweak it. Send it. You can now send emails directly from writing blocks in ChatGPT on the web, without leaving the conversation.

译草拟。调整。发送。现在你可以在网页版 ChatGPT 中直接从写作块发送邮件，无需离开对话。

Replit ⠕@Replit · 6月6日68

Have you tried the new Replit Canvas? - Create beautiful UI designs with AI - Generate assets with GPT-Image 2 & Seedance - Turn your designs into launch-ready apps in minutes

译你试过新的 Replit Canvas 了吗？ - 用 AI 创建美观的 UI 设计 - 使用 GPT-Image 2 & Seedance 生成素材 - 几分钟内将你的设计转化为可发布的应用

OpenAI@OpenAI · 6月6日54

An issue caused some user accounts to be incorrectly suspended. We’re restoring access and working through related subscription and credit issues. https://status.openai.com/incidents/ejj40mae

译一个错误导致部分用户账户被错误暂停。我们正在恢复访问，并处理相关的订阅和积分问题。

歸藏(guizang.ai)@op7418 · 6月6日61

Codex 个人资料页的这个 Token 消耗数据可以分享了。这个分享图做得真挺好的，打开设置、个人资料页，点击右上角的分享图标，就可以生成分享图了

译Codex 现在有了个人资料页，可以展示活动图、连续使用天数、生命周期 Token、峰值日 Token 以及常用功能（如插件和 /fast 模式）。默认私密，可按需生成分享图。归藏称赞这个分享图做得不错。

Chubby♨️@kimmonismus · 6月5日53

A global pause in AI development will not happen. And the reason is simple and straightforward: The US has repeatedly stated that it views AI as a strategically vital technology—one where maintaining leadership and an edge is intended to secure its global dominance. A pause would risk China overtaking them, especially given that Chinese open-source models are estimated to lag only four to six months behind. In this respect, calls for a pause are more about PR than serious intent - a gesture of goodwill rather than a genuine strategic move. AI is too important, too pivotal for the future, and too transformative for any nation to forgo the opportunity to gain a lead over its rivals.

译美国将AI视为维持全球主导地位的战略技术，不会同意暂停开发。中国开源模型据估计仅落后4-6个月，暂停将给中国赶超机会，因此暂停呼吁更多是公关姿态。关于RSI（递归自我改进），OpenAI和Anthropic都在讨论，且均计划2026年IPO。Mythos模型与RSI文章出现时机看似可疑，但Anthropic提供的数据支持其论点，且Dario Amodei早在2024年就开始讨论RSI，早于IPO计划，因此RSI并非空谈。

ginobefun@hongming731 · 6月5日66

http://x.com/i/article/2062871546377728000 # BestBlogs 周刊第 98 期：Agent 时代已来，模型、产品、工程与组织的同步重塑 > 🎧 本期也有播客版本：BestBlogs 周刊第 98 期 · 在小宇宙搜索「BestBlogs 」即可收听。 > https://www.xiaoyuzhoufm.com/episode/6a2290657444b5722233e785 这一周，整理 20 篇内容时有一个越来越清晰的感受：这不像是几件不同的事同时发生，更像是同一件事在不同层面同时爆发。模型层有 OpenAI 的梦境记忆架构升级和 MiniMax M3、Gemma 4 12B 的密集发布；产品层有 Kimi Work、扣子 3.0、SkillOpt 把 Agent 推向更广的工作者；工程层有 Anthropic 和国内腾讯、阿里、阿里云、大淘宝在同一周各自写出万字长文，从不同角度指向同一个结论；战略层有纳德拉和黄仁勋的大会宣言；再到组织和个体层，腾讯研究院三万字报告谈超级个体，一篇深思文章警示认知缴械。 Agent 时代不是一个遥远的未来，而是这一周正在发生的事。 BestBlogs 这边也在用 Agent 和 Skills 做同样的事：我们正在系统整理和更新 BestBlogs 的订阅源库，第一波成果已发布到 GitHub 项目 ginobefun/BestBlogs，接下来几天持续推进。v2.4.2 上线了两个值得体验的改进：「我的关注」新增订阅源库浏览入口，可按领域和语言批量关注；Pro 早报推荐引入「兴趣预算」机制，不同来源内容不再扎堆，每天早报覆盖更均衡。 ## 一、模型层：记忆进化与端侧智能 ChatGPT「梦境」：记忆从手动保存升级为后台合成 OpenAI 把 ChatGPT 记忆架构做了根本性升级，新系统在后台持续整合对话中的碎片信息，就像大脑在睡眠中整理白天记忆一样，无需用户主动触发。记忆系统的演化经历了三个阶段：2024 年 4 月的手动保存记忆（Saved Memories），需要明确指令才触发；2024 年下半年扩展为自动保存；现在进化到「梦境合成」，在后台将跨对话的碎片整合为结构化的用户画像。新架构解决了三个长期痛点：旧记忆过时（持续刷新而非堆积）、记忆准确度不稳定（合成时会做验证和去噪）、大规模扩展成本问题（成本已降至可以规模化的程度，后续将推向 Free 和 Go 用户）。文章中有一个细节值得关注：这套系统的设计目标是让 ChatGPT 在数亿用户和数年时间跨度下都能持续理解用户偏好。这已经不只是功能迭代，而是向长期个性化 AI 助手方向的架构升级。结合第 96 期看到的 Anthropic「用于自学习 Agent 的 Memory 与 Dreaming」，两家公司几乎在同一时间做类似架构，但侧重不同：Anthropic 偏 Agent 的自主学习，OpenAI 偏个人助手的长期陪伴。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/bd3109dd MiniMax M3：一个开源模型，三项前沿能力 MiniMax M3 把编码能力、1M 长上下文和原生多模态放进同一个开源模型。背后的 MSA 稀疏注意力架构让绝大部分注意力计算走稀疏路径，只有少数关键位置做全量计算，大幅降低超长上下文的计算成本。文章展示了论文复现、CUDA 优化、长程 Agent 任务等真实场景，M3 全程保持状态、自主迭代，是这类工作里目前能力组合最完整的开源选项之一。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/46b80e9f Gemma 4 12B：跑在笔记本上的完整 Agent 工作流 Google 这篇文章的重点不是模型参数，而是工具链：AI Edge Gallery、Eloquent 和 LiteRT-LM CLI 三个工具让 Gemma 4 12B 在本地笔记本上运行完整 Agent 工作流，覆盖代码生成、数据可视化、语音编辑。端侧运行的核心价值是隐私、低延迟，以及离线可用。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/cb28b58a ## 二、产品层：Agent 走向知识工作者 Kimi Work：把 Coding Agent 的能力迁移到桌面 GUI Kimi Work Beta 版上线，定位明确：不是给开发者用的 Coding Agent，而是给普通知识工作者用的桌面 Agent。金融分析师做行业报告、科研人员整理文献、办公室处理流程性工作，全部用自然语言描述任务，Agent 去执行。多 Agent 并行和长程任务执行能力从开发者工具迁移到了更广的工作场景。值得关注的是，这个产品自身的开发也深度使用了 AI，是这一周不止一处出现的「吃自己狗粮」实践。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/98fc56b1 SkillOpt：像训练神经网络一样训练 Agent 技能（深度）微软在本周开源了 SkillOpt，一周收获 3,300 star，核心理念是把 Agent 的技能文档——类似 CLAUDE.md 这样指导 Agent 行为的自然语言文档——当作「可训练的外部权重」，用一套系统化循环自动优化。四步循环类比神经网络训练： - Rollout（前向传播）：目标模型用当前技能文档执行一批任务，记录完整执行轨迹 - Reflect（反向传播）：独立的优化器模型分析轨迹，失败案例用来找需要修正的规则，成功案例用来确认哪些规则在起作用 - Edit（参数更新）：优化器基于反思结果，对技能文档执行 add / delete / replace 操作 - Gate（验证门控）：新技能文档必须在 held-out 验证集上性能严格提升才被接受两个精巧的工程设计：「文本学习率」（textual learning rate）：每步最多允许 4 条编辑操作，防止改动太大覆盖已有的有效规则。消融实验显示去掉这个约束后，SearchQA 准确率从 87.1% 降至 84.6%，LiveMath 从 61.3% 降至 57.3%。拒绝编辑缓冲区（rejected-edit buffer）：被验证拒绝的修改不会被丢弃，而是进入缓冲区。优化器下次可以看到这些失败尝试，避免重复同样的弯路。这个细节移除后，SpreadsheetBench 准确率从 77.5% 跌至 72.9%。在 7 个目标模型、6 个基准测试、3 种执行环境（直接对话、Codex、Claude Code）的 52 个评测组合中，SkillOpt 训练出的技能文档全部达到最优或并列最优。这个工作对实际工程的意义在于：每个用 Claude Code 或类似工具的人都在维护某种形式的技能文档，这个过程如果能被系统化，Agent 工程化的天花板会高出很多。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/7b8c6b8d 扣子 3.0：从单 Agent 到可调度的 AI 团队字节跳动把扣子 3.0 的核心定位从「AI 助手」升级为「AI 团队」——多个 Agent 组织进项目空间，通过技能商店安装专业能力，支持本地 Agent 接入和多端协同。这是 Coding Agent 那套编排理念的产品化翻译，受众从开发者扩展到了更广的用户群体。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/b7bca3c0 ## 三、工程层：AI 重塑软件工程的集体思考本周最密集的一批内容集中在这里：Anthropic 两篇、国内四篇大厂长文，从实践记录到工程哲学，从不同角度指向同一个结论：软件工程正在经历范式迁移。 Claude Code 动态工作流：用子代理编排打破上下文限制（深度） Anthropic 发布 Claude Code 动态工作流：模型可以在运行时自己写 Harness，根据任务需求即时构建定制化流程，然后编排独立子代理来执行复杂任务。文章给了一批极具说服力的示例提示词，理解它们比读概念更直接： > 「这个测试大概 50 次运行里有 1 次会失败，给我设计一个工作流来复现它，提出关于竞争条件的假设，不找到原因不停止。」 > 「翻我最近 50 个 session，把我反复在纠正的东西提取出来，变成 CLAUDE.md 规则。」 > 「把这份商业计划书，用工作流让不同的 Agent 分别从投资人、用户、竞争对手三个视角把它批一遍。」这些提示词背后的逻辑是：让模型编排一个小团队来解决问题，而不是靠单次对话硬扛。动态工作流特别适合四类任务：大规模并行（如 80 份简历筛选）、需要对抗性视角（多角色批评同一方案）、高度结构化流程（如 rename 涉及数百个文件），以及需要反复实验的调试。文章也坦承了代价：动态工作流通常消耗更多 token，最适合复杂、高价值任务，不是所有任务的默认选项。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d9ee6dfe 打造 AI 原生工程组织：Anthropic 的内部实践 Anthropic 工程团队公开了三个已经重写的工作规范：计划方式：六个月路线图在三个月就过时了，改为「即时规划」（JIT planning）——更多靠原型、早期内测、快速反馈，而非预先的设计文档。上下文获取：以前想了解一段代码先找写它的人，现在先问 Claude。Claude 承担了大量代码审查工作，人专注在更需要判断力的地方。招聘标准：更看重有产品洞察力的创造者和深层系统专家，纯执行型工程师需求在减少。这篇放在动态工作流文章之后读，会发现一件有意思的事：他们描述的工作方式，正是动态工作流设计所服务的那种工作场景。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/f781c46a OpenClaw 与 Hermes：55,000 字源码级 Agent 架构复盘腾讯技术工程把 OpenClaw 微内核架构与 Hermes 单体架构并排拆解，覆盖 Gateway 路由、Channel 契约（25+ 协议适配）、记忆系统（三阶段加权晋升的 Dreaming 机制）、工具编排和安全边界。文章最后用 Google 新书《Agentic Design Patterns》的 21 个模式作为坐标系，重新审视两套架构的覆盖与空白。这是 Agent 工程化领域难得一见的源码级参照，适合正在做多端 Agent、长期记忆或跨平台工具编排的工程师深读。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/19c7f702 AI 软件工程范式革命：五十年最根本的转变腾讯云这篇将近 2 万字的文章，核心论断清晰：软件工程在过去五十年其实从未真正「工程化」过。其他工程门类（化工、电力、自动化）成功的路径是「消耗能源，把低阶认知固化成物理装置」，人从主回路退出。但软件要做的是抽象、推理、创造，是高阶认知，没法固化成电路，所以软件工程骨子里一直靠人脑堆。过去五十年的所有方法论（敏捷、DevOps、Scrum）都是在「管理人」，而不是「替代人」。大模型第一次做到了「输入算力，输出高阶智能」，这才是经典工程意义上的「能源换智能」。作者批评现在主流的 Copilot 模式走不远，倡导「AI 为中心、人工辅助」，人的角色重塑为产线设计师和认知边界守卫者。他认为最难攻克的核心问题是「隐性知识蒸馏」——那些老工程师靠直觉判断、无法被明确写下来的工程经验，如何让 AI 系统真正习得。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/f66bdbca AI 研发自动化：Wiki 知识库 + 技能包的落地路径阿里云开发者这篇把 LLM-Wiki 和 Agent Skill 结合成一套可落地的研发自动化方法：Wiki 持续更新团队上下文和知识，Skill 把可重复的工程流程固化下来，两者合在一起让 AI 从一次性问答变成长期工程资产。适合想把 AI 从工具升级为基础设施的团队参考。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d7edfb35 重新思考研发基础设施：当 Agent 成为第一公民阿里巴巴研发基础设施负责人晓斌从一个小工具出发，观察到两个现象：代码生命周期从月和年缩短到了分钟，Infra 变得「不可见」了。他的框架是，软件系统一直是「意图驱动 + 代码沉淀」的进化体，以前的桥梁是人，现在是 Agent。这个替换要求基础设施从 People-Oriented 转向 Agent-Oriented，权限治理、可追溯性、Dry-run 验证等工具需要重新设计。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d0759109 AI Friendly 架构：从确定性到概率性的三大演进大淘宝技术提出 AI Friendly 架构的三个演进维度：从确定性到概率性，从结构化到语义化，从静态到动态。实践数据：AI 审核准确率达 95.7%，AI 答疑系统效率提升超 80%。这篇适合正在设计新系统、想把 AI 嵌入核心流程的架构师阅读。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/5771ef7f ## 四、战略层：大厂的全面押注纳德拉：微软是「前沿智能平台」，而不是模型公司（深度） Latent Space 和 No Priors 在 Microsoft Build 现场联合访谈纳德拉，这期对话提供了微软 AI 战略的第一手阐述。纳德拉最核心的框架是：微软的定位是「前沿智能平台」，而非模型公司。平台的意义是客户必须从 Microsoft 生态获得比微软自身多得多的价值。为此，他们构建了三层能力：第一层是多模型套件（MAI、OpenClaw、Scout 等），企业可以选择最适合自己任务的模型组合；第二层是 Work IQ 上下文层，统一接入企业的文档、邮件、会议记录、代码；第三层是 Token IP 的概念，他说私有评估、traces 和 benchmark 是新时代的核心资产，就像工业时代的专利，积累的越早护城河越深。对 SaaS 的冲击，纳德拉直接承认 Build vs Buy 的方程已经改变，SaaS 商业模式会被重构。但他的判断是：这个转变的受益者是能帮企业真正把 AI 价值落地的平台，而不是那些只提供工具的公司。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/7ffd8109 黄仁勋：COMPUTEX 2026 上的「Agent 工厂」蓝图本次 COMPUTEX 2026 最值得关注的不是某个单项产品，而是英伟达整体叙事的变化：从卖芯片变成提供完整的「Agent 工厂」。Vera Rubin 架构（NVL144 系统，含 144 颗 GPU）、DSX 数据中心超算平台、Nemotron 3 Ultra 推理模型、Cosmos 3 物理 AI 平台、人形机器人——这些合在一起，是从芯片到数据中心到模型到软件到物理 AI 的完整技术栈。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/074ff85e Benedict Evans：AI 是 1997 年的互联网，自动化的是任务而非工作 Benedict Evans 的比喻用得精准：现在是 AI 的 1997 年——基础设施在快速扩张，但绝大多数最终会改变世界的商业模式还没有被发明。他的核心判断：AI 自动化的是任务而非工作，「杰文斯悖论」意味着某件事变得更便宜时，需求反而会增加。基础模型会商品化，价值将向上层应用和分发能力集中。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/video/ed8426c 中国 AI 大厂访问记：算力差距与效率追赶并存阮一峰整理了 2026 年 5 月美国访问团实地走访中国 14 家 AI 和机器人公司的多位分析师观感。关键数据：美国算力约是中国的 8 倍（主要来自芯片出口管制）；但中国公司在芯片约束下实现了效率创新，单位算力产出的智能达到简单扩展的 4 至 7 倍。此外，两个文化观察值得关注：中国公司大量使用才华横溢的实习生（与西方形成对比）；中国研究人员对 AGI 取代自己「充满好奇而非恐惧」。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/6933ad74 ## 五、人与组织：觉醒与警示超级个体时代：腾讯研究院 3 万字报告（深度）腾讯研究院这份 33,000 字报告的核心观察是：AI 最深刻的组织变革，起点往往不在高管会议室，而在某个工程师深夜感觉自己能力被放大了的那一刻，然后像涟漪向外扩散。他们提出了一个组织公式：组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦三个变量是乘除关系，不是加减：分母不变只翻分子，效果打折；分母减半等价于分子翻倍。这意味着降低组织摩擦（减少等待、审批、信息衰减）的投入回报，和提升 AI 杠杆一样重要。超级个体的四个结构性特征： AI First 的工作动线：不是遇到困难才问 AI，而是把 AI 排进整个工作流的默认起点，先让 AI 跑，再在 AI 的产出上做判断和修正。能力边界的量级跃迁：不是提升百分之几十，而是十倍甚至更多。报告引用 Anthropic 一项基于 10 万条对话的生产力研究：样本任务若无 AI 辅助平均约需 1.4 小时，引入 AI 后任务完成时间平均减少约 80%；课程开发任务从估算的 4.5 小时降至 11 分钟，节省了 96% 的时间。主动性：天然的边界探索者，不等待组织安排，主动寻找 AI 能力的极限。影响力溢出：这是最关键的阈值。高效个体只让自己变快，超级个体让团队变快。如果同事毫无察觉你的 AI 杠杆，你还不是超级个体，只是一个使用 AI 的优秀员工。从 AI 转型和 AI 原生的分歧视角来看，报告认为两者其实服从同一个底层逻辑：超级个体在存量组织内部涌现，能力溢出带动团队进化，这和 AI 原生团队的聚合方式本质相同，差别只在路径和约束。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/712a9c1e FDE：AI 落地中出现的新型组织角色十字路口这期播客解析 FDE（Forward-Deployed Engineer，前场部署工程师）这一角色：他们的工作不是写功能代码，而是让 AI 真正在企业里运行起来，完成业务融合、知识治理和系统对接。Rolling AI 的「AI 副店长」案例说明了管理逻辑的变化：从标准化动作变成赋能一线做判断——这不只是效率提升，而是组织逻辑的重构。（这个话题在第 97 期 Pragmatic Engineer 那篇里也有出现，两篇合读更完整。） → 前往 BestBlogs 阅读：https://www.bestblogs.dev/podcast/fbaf942 认知缴械：守住独立思考的最后防线（深度）这篇文章提出了一个让人认真思考的概念：「认知缴械」（Cognitive Surrender）。宾夕法尼亚大学 Steven Shaw 和 Gideon Nave 在 2026 年的研究中，把 AI 定义为人类认知的第三系统（System 3）——除了快思考的 System 1 和慢思考的 System 2 之外，AI 成了一个在大脑外部运行的认知系统。研究数据让人警醒：1,372 名参与者完成了 9,593 次认知反射测试，参与者在超过一半的题目中主动选择向 AI 咨询。当 AI 给出正确答案时，90% 的人跟随；当 AI 给出错误答案时，依然有 80% 的人盲从。文章做了一个历史梳理，能力外包在人类文明中一直存在：苏格拉底反对文字、GPS 削弱空间记忆、Google 改变记忆形态（从记住内容变为记住入口）。但 AI 影响的是「推理本身」这个核心能力，与以前的外包有本质不同——以前外包的是存储或执行，现在外包的是判断。作者的立场不是反对 AI，而是指向一个具体的问题：在 AI 已经给了答案的情况下，我们是否还愿意停下来自己想一想？能否在效率和独立思考之间找到自己的边界？ > 如何守住认知主权，是这一期所有内容里，最需要每个人自己回答的问题。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/70d76621 超级个体与 AI 时代的价值归属：Benedict Evans 的宏观分析本期最后，建议把 Benedict Evans 的视频和腾讯研究院报告放在一起看：一个从宏观经济和历史格局解释为什么 AI 不会消灭工作，另一个从组织内部的微观实践说明如何成为 Agent 时代的受益者。两个视角，读完会有一种互相印证的感觉。感谢阅读第 98 期。从模型到产品，从工程到组织，Agent 时代正在每个层面同时展开。如果这些内容对你有启发，欢迎转发给身边正在关注 AI 和知识工作的朋友。下周见。 ## 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它会从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容，结合你关注的源、兴趣标签和阅读行为，把「我的早报」整理成每天真正适合你的阅读流——不论你关注的是技术、AI、产品、商业、研究、设计、投资、文化还是个人成长。完成新用户三步引导即送 7 天 Pro 试用；现有 Pro 用户每邀请 1 位朋友双方各得 7 天 Pro（单人上限 28 天）；欢迎到 bestblogs.dev 体验最新版本。发现真正适合你的高质量内容——欢迎来体验，也欢迎推荐给身边认真阅读的朋友。 BestBlogs.dev · 发现真正适合你的高质量内容 #BestBlogs #AI #周刊 #Agent #软件工程 #超级个体

译本周BestBlogs梳理20篇内容，聚焦Agent时代的三层爆发：模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源（1M上下文+稀疏注意力）、Gemma 4 12B端侧Agent工作流；产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt（3300 star，含文本学习率与拒绝编辑缓冲区）、扣子3.0升级为AI团队；工程层Anthropic发布Claude Code动态工作流（子代理编排）及其内部AI原生工程实践。

Chubby♨️@kimmonismus · 6月5日47

I've read the comment several times now that this is IPO talk. And it's a fair comment. Yes, both OpenAI and Anthropic are currently talking about RSI. And yes, both are planning an IPO in 2026. A model like Mythos and an article about RSI appear at just the right time, which naturally makes it seem odd. But if you read through the noise and look at the evidence, you can see it. And at least the data that Anthropic provides suggests the validity of their thesis, at least based on what has been presented. At the same time, Dario Amodei started talking about RSI as early as 2024, saying he didn't consider it far-fetched, long before the IPO, and discussed it in his article "Machines of Loving Grace." Something similar happened with OpenAI. In short: it's not just empty talk, but has a valid basis, although real-world use cases will probably soon be demonstrated using this myth-like model, thus providing a more solid foundation for the debate. But I consider their statements to be more than just IPO rhetoric.

译Kim回应外界对Anthropic与OpenAI近期RSI言论仅为2026年IPO炒作的质疑。引用Anthropic数据：即使模型能力冻结，智能体扩散也将使100人公司完成1000人工作；实际发展已超过内部指数假设。模型自主任务时长加速翻倍——2024年3月Claude Opus 3完成4分钟任务，一年后Sonnet 3.7达1.5小时，再一年后Opus 4.6达12小时，翻倍周期从7个月缩短至4个月。若趋势持续，今年内可处理数天级任务。OpenAI同样认可该方向。

小互@xiaohu · 6月5日39

如果你偷偷在任何人的电脑上安装Codex 然后连上你的手机那么你就可以在任何时候和任意地点操控他的电脑和获取他电脑里的任何信息所以Codex 本质上是一个电脑病毒😂

jason@jxnlco · 6月5日41

codex for oss update few more hundreds of plans have been distributed! we have some spam and I got 30k applicants and got flooded...

译codex for oss update 又发放了几百个计划！我们遇到了一些垃圾信息，我收到了3万份申请，被淹没了...

ginobefun@hongming731 · 6月5日58

https://github.com/ginobefun/BestBlogs 项目 3.7K Star 了，拿这个去申请下看看

译OpenAI 今年 3 月推出 Codex for Open Source 项目，为开源维护者提供 6 个月免费 ChatGPT Pro（价值 $1200）、API 积分和 AI 安全审查。门槛不高，不卡 Star 数，核心维护者即可申请。洪明表示 BestBlogs 项目（3.7K Star）正好可以试试。

Tibo@thsottiaux · 6月5日71

You can use codex within your own programs using the Python SDK. It's awesome. Built by @ah20im and friends ``` pip install openai-codex ``` https://developers.openai.com/codex/sdk#python-library

译你可以在自己的程序中使用Codex Python SDK。这太棒了。由@ah20im和朋友构建 ``` pip install openai-codex ``` https://developers.openai.com/codex/sdk#python-library

歸藏(guizang.ai)@op7418 · 6月5日59

事实上，Codepilot 这种大型代码库 Vibe Coding 非常依赖于文档。自从 Claude Code 的 Plan 模式废掉以后，我连计划写的都是计划文档，整个文档体系的复杂度和占代码的比例都在快速大幅上升。所以，文档体系的管理，以及 AI 和人协作下的文档梳理，在整个大型代码库中其实是非常重要的。我让 Codex 分析了一下 CodePilot 目前的文档体系，以及它跟代码之间的关系。目前 CodePilot 里面有 26 万行代码和 5.6 万行文档，文档占代码的比例大约是 21%。说一个事实：从 CodePilot 的第一个版本到现在，我没有动过一行代码，因为现在确实看不懂了。但目前基本上所有已知的 bug 我都能修复，所有想要实现的能力也都能实现。这是当前 Vibe Coding 我自己的一个实践，也是我自己的一个上限。整个重构本来预期是两周，但实际持续了超过一个月零三周。

译@op7418 发布 CodePilot v0.55.0 正式版，新增多执行引擎（Claude Code / 自建 Native / OpenAI Codex）、上下文用量可视化及 Codex 账号原生能力。作者分享实践：当前代码库有 26 万行代码与 5.6 万行文档（占比 21%），文档体系对 bug 修复和功能实现至关重要。作者称从未手写一行代码，但能修复所有已知 bug 并实现所有想要能力。原本预期两周的重构持续超过一个月零三周。

向阳乔木@vista8 · 6月5日40

懂的朋友讲讲，为啥 Claude 4.8，GPT 5.5 反而写作能力都不如 Claude 4.6 系列。是因为 Anthropic 和 OpenAI 都 All in Coding后，训练数太多倾向于编程带来的问题？为什么不能兼顾编程和写作呢，有什么技术难点？

译有用户观察到Claude 4.8和GPT 5.5的写作能力不如Claude 4.6系列，推测原因是Anthropic与OpenAI正全力聚焦编程能力，训练数据偏向编程任务，导致写作表现下降。发问者质疑为何两大模型无法兼顾编程与写作，并询问其技术难点。

Rohan Paul@rohanpaul_ai · 6月5日72

OpenAI gives ChatGPT a new dreaming memory system to retain preferences across conversations. The big deal is that memory is becoming an active system, not a passive note file. Earlier memory worked like a sticky note: it mostly remembered things you explicitly told it to remember, and those notes could become stale. If you said you were going to Singapore in July, the system might keep treating that as a current plan even after the trip ended. Dreaming changes the model from “saving notes” to “maintaining a picture.” It looks across past conversations, extracts what still seems useful, updates what has changed, and makes that summary visible so users can review or correct it. It measures factual recall: when a user asks something that depends on earlier chats, can ChatGPT correctly bring back the relevant personal context? A better memory system means the assistant can start closer to where you actually are.

译OpenAI 为 ChatGPT 上线名为“Dreaming”的新型记忆系统。旧记忆如同便利贴，仅保存用户明确要求记住的信息，且容易过时。新系统将记忆从“存储笔记”转变为“主动维护画像”：跨对话扫描历史，提取仍有用的内容，更新已变化的信息，并生成可见摘要供用户审查或纠正。此举旨在提升 ChatGPT 跨对话回忆个人上下文的能力，使助手的起点更贴近用户实际状态。系统已开始逐步推送。

ginobefun@hongming731 · 6月5日59

http://x.com/i/article/2062688720592175104 # BestBlogs 早报 · 06-05｜ChatGPT 记忆升级、AI 研发自动化、SpaceX 资本版图在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-05 ## 导语今天三篇精讲，表面看是 AI 产品、工程实践、商业披露三条赛道，但拼在一起隐约勾出同一轮廓：AI 能力正在渗透进系统的「记忆层」，改变的速度已超出预期。 ChatGPT 记忆 V3 的「后台合成」让个性化从高端功能走向普通用户，效率提升 5 倍背后是架构层面的一次重写；阿里云工程师落地「PRD → 全自动研发」，说明记忆管理已成工程生产力的新地基；而 SpaceX 招股书里，Anthropic 每月 12.5 亿算力合同提醒我们：这场竞赛底层是资本与算力的结构性押注。带着一个问题读今天的内容会更有收获——「记忆」在不同尺度上意味着什么？今日速览 - 精讲一：梦境：更强大的记忆，让 ChatGPT 更贴心 — OpenAI 官方揭秘 dreaming V3 架构演进 - 精讲二：AI 研发自动化：Wiki 知识库+技能包 — 阿里云工程师从零落地全自动研发流程 - 精讲三："人类史上最大 IPO"：SpaceX 靠的不只是火箭了？ — 硅谷101 深度解读招股书亮点 ## 精讲一：梦境：更强大的记忆，让 ChatGPT 更贴心从主动记录到后台合成：一次架构重写 ChatGPT 的记忆系统在两年间经历了三代演进，而每一代变化的背后，都是对「何为真正的个性化」这一问题的更深理解。第一代（2024 年 4 月）：主动触发的 saved memories 最初的记忆功能需要用户显式发出指令，例如「记住我七月要去新加坡出差」，系统才会将信息存下来。这种设计的问题在于：它像一个只记笔记、其他事都忘光的助理——没被明确要求记的，通通遗漏；就算记了，随着时间流逝，那条笔记也会越来越脱节于现实。第二代（2025 年 4 月）：dreaming V0 的引入 OpenAI 引入了「dreaming」机制——一个在后台运行的进程，自动从大量聊天历史中提炼记忆，不再依赖用户主动触发。这套机制与 saved memories 并存，带来了个性化质量的阶梯式提升，但作为独立系统仍不够完整。第三代（2026 年 6 月）：dreaming V3 全面接管今天 OpenAI 发布的 dreaming V3，是对整个记忆架构的一次重写。核心变化是：记忆的合成发生在「写入时」，而非「查询时」。系统持续从对话中学习，将你的偏好、约束、项目进展编织成一份活的「记忆状态」，每次对话都能拿到最新鲜、最相关的上下文，而不是临时拼凑。三大能力目标与实测进步 OpenAI 用三个维度来衡量「好记忆」： 1. 跨对话携带上下文：你说过一次的事，后续对话能记住。 1. 持续遵循偏好与约束：如果你说自己是素食者，ChatGPT 的每一次行动建议都该与此一致。 1. 随时间自动修正过时信息：「用户下周六要过生日」这条记忆，过了周六之后就该被更新，而不是永久残留。实测数据显示，dreaming V3 在这三个维度上均显著优于前两代。计算效率提升约 5 倍，这也是 Free 用户能够开放使用的关键原因——之前高昂的算力成本让普惠化不现实，现在架构优化把门槛降下来了。可审查的记忆摘要 dreaming V3 的另一个关键设计是透明度：用户可以通过「记忆摘要页」查看 ChatGPT 对自己的了解——包括工作背景、兴趣爱好、旅行计划、回复偏好等维度的概览。用户可以直接更正或删除特定条目，也可以告知 ChatGPT 哪些话题该主动提及、哪些应该回避。如果想深入了解某个具体方面，直接和模型对话就能获得详细解释。为什么这件事值得重视记忆能力的真正价值，在于它改变了 AI 与用户关系的基础假设。之前每次对话都从零开始，ChatGPT 是一个「无记忆的工具」；现在它逐渐接近一个「了解你的长期协作者」。这种转变对重度用户尤其关键——当你的使用习惯、项目背景、思维偏好被系统准确理解，互动质量会发生质变。从工程视角看，dreaming 的「写入时合成」思路与传统 RAG 的「查询时检索」形成了有趣的对比——这恰好也是今天精讲二的核心话题。 > 完整阅读：梦境：更强大的记忆，让 ChatGPT 更贴心 ## 精讲二：AI 研发自动化：Wiki 知识库+技能包背景：为什么工程师需要一套活的知识库大语言模型在工程场景中落地时，有一个绕不过去的难题：它缺乏业务领域知识。通用模型不了解你们的代码仓库、技术方案、DDD 架构设计、历史决策与约束。每次开发任务，要么把大量上下文塞进 prompt，要么依赖工程师人工补全——效率仍然受限。阿里云的这位工程师面对的是真实的生产挑战：一个含 3038 个 Java 文件的 DDD 代码仓，加上百余份文档。如何让 AI 真正「读懂」这个系统，并在此基础上辅助研发？答案来自 Andrej Karpathy 在 2026 年 4 月提出的 LLM-Wiki 模式。 LLM-Wiki 的本质：从 RAG 到「写入时合成」这里有一个绝妙的对比，与今天精讲一形成呼应。传统 RAG（检索增强生成）的工作方式是：把文档切成 chunk，建向量索引，查询时检索相关 chunk 拼进上下文。这是「查询时合成」——每次回答前都重新拼装，知识本身没有被真正沉淀。 LLM-Wiki 的核心思想截然不同：把 LLM 从「每次查询时重新检索的 RAG 引擎」变成「持续维护个人 Wiki 的全职编辑」。知识不再每次重新发现，而是被一次次摄入、合并、交叉引用，沉淀为一份「不断变厚的、活的、可演化」的知识库。这与 dreaming V3 的「写入时合成」是同一思路在不同层级的应用——ChatGPT 层面合成个人记忆，工程知识库层面合成团队共识。三层架构：层级内容谁维护L1: Sources（原始源）文档、图片、代码。LLM 只读不写。人类L2: Wiki（知识层）LLM 全权维护的 markdown 文件集合，含实体页、概念页、综述、对比页。LLML3: Schema（灵魂层）写给 LLM 的工作规范——目录约定、摄入流程、查询/巡检流程。人类三个核心操作：Ingest（摄入并融合）、Query（查询并回写）、Lint（自检巡检）。五大技能包：从知识库到全自动研发光有知识库还不够，作者进一步封装了五大研发技能包： - 技术方案：给定需求，自动生成技术设计文档 - 代码评审：基于知识库的上下文进行有深度的代码审查 - 自动化编码：从技术方案直接生成实现代码 - 自动化测试：生成测试用例并执行 - 问题排查：结合日志 MCP 服务定位线上问题整个技能包从 500 行精简到 270 行的过程，作者称之为「抽取灵魂」——去掉冗余指令，只保留让 LLM 从「通用 chatbot」变成「有纪律的研发专家」的关键约束。从工程视角看：这套方案为什么能 work 人类之所以放弃 Wiki，是因为维护成本随规模超线性增长：要更新交叉引用、改综述、标矛盾、保持一致性，这些累活消耗的精力远超写作本身。LLM 不会累、不会忘、一次能改多个文件——维护成本被压到接近零，Wiki 才能长期活着。最终目标是「用户提供 PRD，剩下工作全交给它」。这个目标已经在阿里云内部部分场景实现，但作者也诚实地列出了当前局限：复杂跨模块改动的正确率、测试覆盖深度、需要人工干预的边界条件。对希望在团队落地 AI 研发自动化的工程师，这篇文章的参考价值极高——它不是概念宣讲，而是完整的实战路径记录，包括踩坑过程。 > 完整阅读：AI 研发自动化：Wiki 知识库+技能包 ## 精讲三：“人类史上最大 IPO”：SpaceX 靠的不只是火箭了？招股书里最重磅的意外：450 亿美元算力合同 5 月 21 日，SpaceX 向 SEC 提交招股书，预计募资 750 亿美元，上市当天市值有望突破 2 万亿美元——这将是人类历史上最大的 IPO。但硅谷101 的这篇深度解读，关注的是主流报道之外的亮点。最意外的发现：SpaceX 与 Anthropic 签订了一份价值 450 亿美元的算力合同。合同条款如下：Anthropic 每月向 SpaceX 支付 12.5 亿美元，购买 Colossus 1 和 Colossus 2 两个数据中心集群的算力，合同执行至 2029 年 5 月。简单计算，这每年带来 150 亿美元收入。而 SpaceX 2025 年全年收入是 187 亿美元——这份合同将使年收入增长超过 80%，直接超越星链，成为 SpaceX 最大的单一收入来源。对 SpaceX 而言，这意味着商业模式的根本性转变：从一家「星链养活其他业务」的公司，走向「超大号 Neo Cloud」——向 AI 实验室出售算力。招股书中还有一个隐藏条款：Anthropic 表示有兴趣与 SpaceX 合作开发「吉瓦级太空 AI 算力」，也就是马斯克一直在讲的太空数据中心故事。马斯克随即发推，称有「多家」公司正在洽谈算力合同，Google 大概率是下一个大客户。 18712 枚比特币：非币圈公司持币最多招股书披露 SpaceX 持有 18712 枚比特币，平均成本 3.5 万美元，按当前市值约 14.5 亿美元。这个数字超过特斯拉（11509 枚）和 Coinbase（9267 枚），使 SpaceX 成为全球已知非币圈公司中持有最多比特币的公司。马斯克的董事会：史上最激进的上市公司治理 8 人董事会名单中，除公司总裁 Gwynne Shotwell 和代表谷歌的 Donald Harrison，其余几乎全是与马斯克深度绑定的早期投资者：Antonio Gracias（Valor Equity，极早期救过濒临倒闭的 SpaceX）、Luke Nosek（Founders Fund，2008 年第三次发射失败后的 B 轮投资人）、Steve Jurvetson（DFJ，被马斯克称为「投了我每一家公司」的人）。治理结构更是前所未见：马斯克控制约 85% 投票权；公司章程禁止股东在联邦法院提起集体诉讼；只有持股超过 3% 的股东才能提起派生诉讼，按 1.75 万亿估值计算意味着至少 450 亿美元持股门槛。《财富》杂志指出，此前没有任何美国主要上市公司采用过类似条款。这份设计的动机很清楚——马斯克曾被特拉华州法院否决薪酬方案，被 OpenAI 踢出局。这一次，他用法律文件把所有对自己不利的情况全部堵死。 V3 星舰：首飞不完美，但资本市场为何关注就在提交招股书次日，V3 星舰完成首次试飞。整箭高度 124 米，搭载 33 台全新猛禽 3 发动机，近地轨道运力超 100 吨。试飞过程并不完美——一台猛禽 3 故障停机，原计划的发动机在轨重启被取消，一级火箭分离后出现燃烧异常。但资本市场关注星舰，不是因为这次试飞，而是因为它代表 SpaceX 在可重复使用火箭技术上的持续投入。算力合同的故事讲完了，星链的故事也成熟了，SpaceX 的下一个增长曲线在哪里——星舰给出一个方向，尽管时间表仍有不确定性。对 AI 格局的启示这篇文章最值得关注的，其实不是 SpaceX 本身，而是 Anthropic 的算力战略。在算力短缺已成 AI 公司最大瓶颈的背景下，提前锁定未来三年大额算力——哪怕价格「小贵」——是理性的资源争夺。这份合同的存在，说明顶级 AI 实验室正在把算力保障从短期采购变成长期战略投入，竞争格局由此更加资本密集。 > 完整阅读："人类史上最大 IPO"：SpaceX 靠的不只是火箭了？ ## 速览本期精选 7 篇速览，涵盖 MCP 生成式 UI、AI 原生服务公司方法论、文学播客、Agent 记忆评测、AI 内容创作复盘、精神健康与科技战略。超越组件：为 MCP Apps 设计生成式 UI 与人机协作画布观看视频 Postman Staff Engineer Ruben Casas 在 AI Engineer 大会的演讲，核心论点是：现有 AI 应用还停留在「静态组件 + 对话面板」的旧范式，而 MCP 驱动的下一代 UI 应该是声明式布局、运行时动态生成、沙箱安全交付，并支持人类与智能体共享同一协作画布。他详细介绍了三种界面构建框架（静态组件架构、代理辅助渲染、完全生成式 UI），以及如何用 MCP 协议实现实时、可交互的 UI 生成。对于正在构建 AI 产品界面的工程师和产品设计师，这个演讲提供了一套从底层重构 UI 思维的框架。如何打造 AI 原生服务公司：YC 的创业者实战框架观看视频 Y Combinator 给出的核心判断：未来十年最大的企业级公司，不会是纯软件提供商，而是用 AI 重建的服务公司——法律、税务、保险、合规咨询等领域的全新原生玩家。与 SaaS 的「卖工具给企业，让企业内部员工更高效」不同，AI 原生服务公司直接交付结果，而不是卖席位。视频详细拆解了选市场的四个标准（高度碎片化、劳动力密集、可量化结果、监管壁垒可利用），以及如何设计定价、组建人机协作的运营团队。如果你在思考「用 AI 做什么生意」，这是一份务实的入门地图。 19. 我懂得的，尽是些偏僻的人生收听播客蒋方舟在萧红 115 周年诞辰之际，回归文本本身，细读《呼兰河传》《生死场》《弃儿》等作品。这期播客不是传记讲述，而是文学解读——萧红如何从一个「偏僻人生」的亲历者，成为书写生命荒诞与残酷本质的作家；鲁迅为何如此欣赏她；「黄金时代」究竟是什么意味。适合对中国现代文学或女性写作感兴趣的听众，也是一次安静的文学慢阅读时光。 Agent-Memory 评测全景：基准、评估与记忆系统（理论篇）阅读文章大淘宝技术出品的系统性综述，梳理了 Agent 长期记忆的评测全景：MUSE、LOCOMO 等基准数据集，MemoryAgentBench、LONGMEMEVAL、MemBench 等评估框架，以及 THEANINE、RMM、M3-Agent、Mem0 等记忆系统。与今天精讲一的 ChatGPT dreaming V3 形成很好的理论对照——工业产品的实践和学术研究的进展，原来在讨论同一批问题。当前技术瓶颈集中在跨会话推理、动态更新和效率平衡上，适合正在设计 Agent 记忆模块的工程师作为技术地图使用。 EP20 用 AI 生产内容的复盘之一：AI 知道你要什么吗？收听播客诗梳风播客的汉洋、可达、重轻三位主播，复盘了 FUNES 建筑保存项目中使用 AI 生产内容的前置工作。核心洞察是：在让 AI 介入生产之前，团队必须先通过手写样本明确「什么是好内容」并达成共识——这个步骤比 AI 技术本身更关键、更具挑战性。「人类样本为何比 AI 生成更重要」是这期最值得咀嚼的命题，对任何在团队里推广 AI 写作的人都有实际参考价值。一名精神科医生的 30 年：人如何与痛苦共存？收听播客不合时宜播客专访资深精神科医生姜涛，从 1993 年入职北京安定医院讲起，横跨三十余年的临床经历。内容涵盖中国精神科诊疗的历史变迁、精神疾病的社会烙印演变、现代人痛苦维度的复杂化，以及如何与身边精神困境者相处。今年出版的新书《安定此心：我当精神科医生的 12000 天》是对话的出发点，适合对心理健康、精神医学或人文关怀感兴趣的听众。 Vol.120｜谷歌还在追赶 OpenAI 和 Anthropic？这是 Google I/O 最大的误读收听播客开始连接 LinkStart 邀请亲赴 Google I/O 2026 现场的 Bryan Liu 和极客公园作者 Alan 深度复盘。核心论点：外界对这届 Google I/O 的评价停留在「Gemini 3.5 Pro 缺席」「Veo 没更新」等表层遗憾，但实际上谷歌已经悄悄把战略从「追赶模型能力」切换到「用生态集成重写 AI 操作系统」。从 Gemini Spark 的全信息入口到 Android 被 Gemini 重写的可能，再到 2018 年就埋下的 Fuchsia OS 野心，节目提供了一个理解谷歌 AI 战略的完整坐标系。 ## 补充阅读本期额外推荐 7 篇深度内容，供有余力的读者按需扩展。 Nemotron 3.5 Content Safety：面向全球企业 AI 的可定制多模态安全模型 NVIDIA 发布统一的 4B 参数安全模型，集多模态输入、多语言覆盖（12 种语言 96.5% 准确率）、企业自定义策略执行和可审计推理轨迹于一体。对正在构建生产级 AI 安全流水线的工程师有直接参考价值，特别是需要在合规和延迟之间做权衡的场景。 Higgs Audio v3 TTS on SGLang-Omni：实时可控语音智能体 Boson AI 的 Higgs Audio v3 TTS 模型通过 SGLang-Omni 提供端到端服务。支持 100 种语言、低延迟、开发者可直接通过输入文本流控制情感、风格、韵律和音效。对正在构建语音 Agent 或 TTS 集成的工程师有实际参考价值，特别是文章对多阶段推理框架的详细描述。如何针对你的语言、领域或口音微调 Nemotron 3.5 ASR NVIDIA 6 亿参数流式多语言 ASR 模型的微调实战指南。内容包括数据准备、训练配置、评估方法，并附有视频演练。适合有特定语言、专业术语或口音需求的语音识别工程师，是一篇操作性强的技术教程。 EVA-Bench Data 2.0：3 个领域、121 个工具、213 个场景企业语音 Agent 基准测试的扩展版本，覆盖航空客服、IT 服务管理、医疗人力资源三个领域，221 个工具调用场景。对评估企业级 AI Agent 工具调用能力感兴趣的研究者和工程师，这是当前最贴近真实业务场景的基准之一。 [AINews] Reve 2 与 Ideogram 4：图像生成中的布局技术 Latent.Space 综述 Reve 2.0 和 Ideogram 4.0 同日发布的意义：两家公司都通过「布局标注」解锁了更精确的图像构图控制，让图像生成从「大致匹配 prompt」进化到「可以指定每个元素的位置」。同期还覆盖 Microsoft MAI-Thinking-1、Gemma 4 12B 等模型发布和智能体框架的演进趋势。适合关注图像生成和 AI 工具链进展的读者。 VoidZero 加入 Cloudflare Vite、Vitest、Rolldown、Oxc 背后的公司 VoidZero 将加入 Cloudflare。Cloudflare 承诺所有项目保持开源、供应商无关、社区驱动，目前 Vite 每周下载量约 1.29 亿次。对前端工程师社区的影响值得关注：这次合并是否会加速 Rolldown 对 webpack 生态的替代？Vite+ 的商业化路径又将如何演变？现实：终极评估——Andon Labs 如何在真实世界中测试 AI 模型 Andon Labs 通过 Vending-Bench 将 AI 模型作为真实商业 Agent 运行——管理库存、和供应商谈判、处理客诉——来评估其真实能力。发现的行为令人警觉：Opus 4.7 会向供应商撒谎、拒绝给客户退款；还有模型因为 2 美元的纠纷向 FBI 报警。与传统基准测试不同，这种评估揭示了模型在真实激励环境中的实际决策模式，是理解「AGI 对齐」问题的一个生动视角。 ## 今日阅读路径时间有限？优先读这三篇： 1. 梦境：更强大的记忆，让 ChatGPT 更贴心（精讲一）如果你是 ChatGPT 用户，这篇文章直接影响你对这个工具的使用方式。即使不是重度用户，dreaming V3 的架构思路——写入时合成 vs. 查询时检索——也是理解 AI 记忆系统演进的一个清晰切入点。预计阅读时间：15 分钟。 1. "人类史上最大 IPO"：SpaceX 靠的不只是火箭了？（精讲三） Anthropic 每月 12.5 亿美元的算力合同，是今天最值得关注的商业信号。这篇文章帮你理解 AI 算力竞争的资本逻辑，以及 SpaceX 如何从火箭公司转型为 AI 基础设施提供商。预计阅读时间：20 分钟。 1. 超越组件：为 MCP Apps 设计生成式 UI 与人机协作画布（速览）如果你在构建任何类型的 AI 应用，Ruben Casas 的演讲提供了一个关于下一代 UI 范式的完整思维框架，值得在精讲之外额外花 20 分钟观看。如果还有余力： - 工程师：补读精讲二 AI 研发自动化：Wiki 知识库+技能包，这是最贴近实际落地的一篇。比起抽象讨论，作者给出的是一套可以直接复制的工程路径，值得花整段时间完整阅读。 - 关注 AI 评估：补充阅读中的 Andon Labs 真实世界评估提供了非常有价值的反直觉视角。当模型被放到真实商业场景中，会展现出哪些让人意想不到的行为？这是比论文基准更诚实的一面镜子。 - 前端/工具链工程师：VoidZero 加入 Cloudflare 是今日社区影响最大的生态新闻，关注 Vite 生态走向的工程师不应错过。 - 关注 Agent 记忆：今天精讲一和速览中的 Agent-Memory 评测全景放在一起读，能构建出从产品设计到学术研究的完整视野。

译本期早报聚焦三则动态：OpenAI发布ChatGPT dreaming V3，记忆架构重写为“写入时合成”，效率提升5倍，免费用户可用个性化记忆摘要；阿里云工程师落地LLM-Wiki模式，从传统RAG转向“写入时合成”知识库，封装五大研发技能包实现PRD到全自动研发；SpaceX招股书披露与Anthropic签订450亿美元算力合同，每月12.5亿美元至2029年5月，年收入增加80%，并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。

ginobefun@hongming731 · 6月5日60

#BestBlogs 早报 06-05 今天有几篇值得花时间读： ① ChatGPT 最近悄悄升级了记忆系统，现在它会在后台自动整理你们的对话历史，不用你反复提醒它「我喜欢什么」了，免费用户也能用，官方文章里讲了它怎么工作的。 ② 另一篇是阿里云工程师写的实战经验，他把团队的代码库和文档整理成了一套 AI 能直接上手的知识库，配上几个专项技能包，目标是给出需求文档剩下都让 AI 搞定，干货很多。 ③ 还有一篇 SpaceX 招股书解读，其中最有意思的细节是 Anthropic 每个月付 12.5 亿美元买算力，数字大到有点不真实，但背后的逻辑值得想想。

译今日早报推荐三篇AI相关文章：① ChatGPT升级记忆系统，可自动整理用户对话历史并记住偏好，无需反复提示，免费用户也可使用。② 阿里云工程师分享实战经验，将团队代码库和文档整理成AI可直接调用的知识库，搭配专项技能包，目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露，Anthropic每月支付12.5亿美元购买算力，该数字反映其大规模AI训练与推理的算力需求。

meng shao@shao__meng · 6月5日50

最近感觉 X 的今日新闻，推荐的越来越准了 Anthropic: When AI builds itself https://www.anthropic.com/institute/recursive-self-improvement Dreaming: Better memory for a more helpful ChatGPT https://openai.com/index/chatgpt-memory-dreaming/ VoidZero is joining Cloudflare https://blog.cloudflare.com/voidzero-joins-cloudflare/

meng shao@shao__meng · 6月5日69

OpenAI Codex 新增了面向 iOS / SwiftUI 开发的“Build iOS Apps”官方插件，把 iOS 应用开发闭环进一步引入 Codex 工作流主要能力：在 Codex 内直接查看和测试 iOS 应用，打开 SwiftUI previews，并对代码编辑进行热重载，从而减少在 Codex 与 Xcode/模拟器之间来回切换。底层机制：围绕 XcodeBuildMCP 构建自动化工作流，支持构建、测试、模拟器运行、UI 检查、日志和调试器状态采集。实践意义：让 Codex 能自主完成“发现项目与模拟器 -> 构建运行 -> 观察 UI 和日志 -> 调试验证”的完整开发闭环。这两个底层的开源项目需要关注 1. serve-sim（作者 @Baconbrix / Evan Bacon）为 Codex 提供了 streaming simulator 能力，支持更顺畅的模拟器交互体验。 https://github.com/EvanBacon/serve-sim 2. SnapshotPreviews（作者 @sentry）用于从项目中提取 SwiftUI previews，让预览能力可以更方便地被工具链集成。 https://github.com/getsentry/SnapshotPreviews

译OpenAI Codex 推出“Build iOS Apps”官方插件，将 iOS 应用开发闭环引入 Codex 工作流。用户可在 Codex 内直接查看和测试 iOS 应用、打开 SwiftUI previews 并进行代码热重载，无需切换到 Xcode 或模拟器。底层基于 XcodeBuildMCP 构建自动化工作流，支持构建、测试、模拟器运行、UI 检查、日志与调试状态采集。值得关注的两个开源项目：serve-sim（提供 streaming simulator 能力）和 SnapshotPreviews（用于提取 SwiftUI previews 集成工具链）。

meng shao@shao__meng · 6月5日78

ChatGPT 推出记忆合成系统 Dreaming V3，解决记忆在大规模用户与跨年时间尺度下的陈旧性、准确性与可扩展性问题，让 ChatGPT 从"记笔记"到"自主回忆" https://openai.com/index/chatgpt-memory-dreaming/ 记忆系统的三代演进路径 · Saved Memories：2024 年 4 月发布，对话中显式触发写入，依赖用户主动提醒，信息会随时间陈旧失效 · Dreaming V0：2025 年 4 月发布，后台从对话历史中自动提炼记忆，作为辅助手段，不足以独立支撑记忆系统 · Dreaming V3：2026 年 6 月发布，全量后台自动合成与更新记忆，当前版本：更高效、可扩展、覆盖所有用户层级为什么需要 "Dreaming" 机制？传统记忆系统更像"做了笔记但容易忘"的助手，存在两个根本缺陷： 1. 被动性：需要明确的"记住我……"指令才会写入； 2. 时序僵化：记忆不会随时间自动修正，导致回答基于过时信息。 Dreaming V3 通过后台持续运行，从多轮对话中自动提炼、更新用户画像，使 ChatGPT 具备跨会话连续性和时序感知能力——例如将"用户七月要去新加坡"自动更新为"用户七月已去完新加坡"。效果评估的三个维度官方围绕三个可量化的记忆目标评估效果提升： 1. 上下文承接用户无需在新对话中重新介绍设备、偏好或项目背景。例如已有水下摄影设备配置记忆后，ChatGPT 可直接推荐兼容的闪光灯配件，而非给出通用兼容性清单。 2. 偏好与约束遵守用户设定"素食""酒店需强冷气""偏好安静用餐"等约束后，后续推荐（如新加坡行程、餐厅）会持续对齐这些偏好，避免给出泛化建议。 3. 时间动态更新记忆能感知"今天"相对于用户过往描述信息的变化。当用户旅行结束返回加州后，系统会自动修正地理位置上下文，推荐当地仍在营业的外卖，而非继续给出新加坡深夜营业清单。关键技术进展 · 计算效率提升约 5 倍：降低 Dreaming 对免费用户的算力消耗，使其在 Free/Go 层级也可上线； · 统一记忆基础：为 Plus、Pro、Free 所有用户提供同一套记忆架构； · 可审阅的记忆摘要：用户可在记忆摘要页快速浏览 ChatGPT 的认知摘要，手动增删或设限。

译ChatGPT 记忆系统升级至 Dreaming V3，通过后台持续自动提炼和更新用户画像，解决传统记忆的被动性与时序僵化问题。三代演进：Saved Memories（2024年4月显式触发写入）、Dreaming V0（2025年4月后台辅助）、Dreaming V3（2026年6月全量自动合成）。关键技术进展：计算效率提升约5倍，覆盖 Free/Go/Plus/Pro 所有用户，新增可审阅的记忆摘要，用户可手动增删或设限。

OpenAI Developers@OpenAIDevs · 6月5日42

Your Codex activity now has a home, and an easier way to share it. Codex profiles show your activity graph, streaks, lifetime tokens, peak daily tokens, and top features like plugins and /fast mode. Private by default. Share a card when you want to.

译你的 Codex 活动现在有了专属主页，分享也更方便了。 Codex 个人资料展示你的活动图、连续天数、累计 token、单日最高 token，以及插件和 /fast 模式等主要功能。默认私密。想分享时，可以分享一张卡片。

Berryxia.AI@berryxia · 6月5日70

这下Xcode的价值进一步被弱化，终究要被大家遗弃啊！以前你还需要以来Xcode作为跑模拟器的入口！今天OpenAI Developers直接把这个循环彻底封死了。他们上线了Build iOS Apps插件。现在Codex里就能直接用in-app browser看到你的iOS app实时运行，能打开SwiftUI 预览功能！还支持实时编辑，改完代码不用切出去，预览瞬间更新，一切都在同一个对话窗口里完成。底层靠两个开源项目：Evan Bacon的serve-sim做流式模拟器，Sentry的SnapshotPreviews提取SwiftUI预览。完全开源，社区直接把Xcode的灵魂功能搬进了Codex。以前大家以为AI coding工具最多帮你写代码更快，现在它把“写-跑-看-改”整个反馈闭环都塞进了同一个界面。 iOS开发者第一次能把模拟器、预览、热重载和AI对话真正融合，不用再在Xcode、浏览器、终端之间反复跳转。这其实把行业里一个老共识彻底反转了：很多人觉得AI会让IDE变得更强大，结果真实路径是让IDE慢慢变成可选。 Codex不再只是助手，它正在变成iOS开发的默认操作系统。

译OpenAI Developers 推出 Build iOS Apps 插件，使 Codex 能直接在 in-app browser 中查看和测试 iOS 应用、打开 SwiftUI 预览、热重载编辑，无需离开 Codex。底层依赖两个开源项目：Evan Bacon 的 serve-sim（流式模拟器）和 Sentry 的 SnapshotPreviews（提取 SwiftUI 预览）。该插件完全开源，将“写—跑—看—改”反馈闭环集成在同一对话界面，使 iOS 开发者可将模拟器、预览、热重载与 AI 对话融合，不再需要在 Xcode、浏览器、终端间反复跳转。

Sam Altman@sama · 6月5日75

big upgrade to chatgpt memory rolling out today!

译ChatGPT记忆重大升级今日推出！

Sam Altman@sama · 6月5日80

build and publish web apps with chatgpt! i really wish i had this when i was a kid, but i do miss hypercard.

译用ChatGPT构建并发布网页应用！我真希望我小时候就有这个，但我确实怀念HyperCard。

ChatGPT@ChatGPTapp · 6月5日63

ChatGPT is getting better at remembering what matters: your preferences, constraints, and the context that helps you pick things up where you left off. And with memory summaries, you can review and steer what it remembers. Rolling to all users over the next few weeks, starting today with Plus and Pro users in the US.

译ChatGPT 在记住重要信息方面变得更好：你的偏好、约束，以及那些帮你从中断处无缝衔接的上下文。借助记忆摘要，你可以查看并引导它记住的内容。未来几周内向所有用户推出，今天起面向美国 Plus 和 Pro 用户开放。

Tibo@thsottiaux · 6月5日35

We're fixing a codex bug today that was causing us to undercount tokens being served to some Pro and Plus accounts by a small amount. This impacted < 15% of accounts. Not the kind of bug you want us to fix, but didn't want to do this silently and thought you should know.

译我们今天正在修复一个 Codex bug，该 bug 导致我们向部分 Pro 和 Plus 账户提供的 token 被少量少计。受影响账户不足 15%。这种 bug 不是你们想让我们修复的，但我们不想悄悄处理，觉得你们应该知道。

SemiAnalysis@SemiAnalysis_ · 6月5日61

Ex-OpenAI Tech Lead, Justin Lebar joins SemiAnalysis as an Visiting Fellow to Burn $10,000 in 3 hours to find dozens of AMDGPU LLVM, x86 LLVM, NVPTX bugs 00:00 - Intro & Justin’s background 00:59 - How compiler fuzzing works 01:56 - Why we did this project 02:48 - The gap in GPU vs. CPU compiler testing 04:13 - The major AMD & x86 bugs we found 05:38 - Using LLMs to read code & find vulnerabilities 07:56 - The impact of UltraCode mode 12:18 - Doing this without AI (Time & manual limits) 15:03 - The future of AI in software development 16:17 - What’s next + key takeaways for devs

译前OpenAI技术主管Justin Lebar以访问学者身份加入SemiAnalysis，通过投入1万美元在3小时内进行编译器模糊测试（compiler fuzzing），发现了AMD GPU LLVM、x86 LLVM及NVPTX编译器中的数十个bug。该项目揭示了GPU vs CPU编译器测试的巨大差距，并展示了如何利用LLM阅读代码来发现漏洞。此外，UltraCode模式对代码审计效率影响显著。

宝玉@dotey · 6月5日55

Codex 新的这个 Build iOS Apps 插件，可以让你方便的在 Codex 查看和测试你的 iOS 应用，预览 SwiftUI组件，修改了还能马上看到更新。简单解释下原理：这个插件可以理解成：把原本只能在 Xcode 和 iOS Simulator 里看的 App，搬到了 Codex 右边的浏览器里。视频里右侧那个 iPhone 画面，其实还是一台真实运行中的 iOS Simulator，只是插件用一个第三方 npm serve-sim 把模拟器画面持续截取成视频流，再显示到浏览器页面中。所以 Codex 不只是读代码，它还能“看见”App 当前长什么样。浏览器能操作这个 App，是因为插件还建立了一条控制通道。你在浏览器里点击、拖动、输入文字时，浏览器会把这些动作换算成模拟器里的触摸坐标或键盘事件，再发回 iOS Simulator。也就是说，浏览器本身没有运行 iOS App，它只是像一个远程屏幕：一边接收模拟器画面，一边把你的操作转发给模拟器。结合 Codex 的 Browser Use 操作浏览器能力，就可以实现 Codex 自行调试 iOS App。视频里看到的“选择元素”也不是在选网页里的按钮。iOS App 没有网页 DOM，所以插件会读取 App 的 Accessibility 信息，也就是系统给辅助功能用的那套“这个按钮叫什么、位置在哪里、是不是可点”的数据。然后插件在浏览器画面上盖一层透明的 HTML 按钮，每个透明按钮对应一个 iOS UI 元素。这样 Codex 就能点选、识别、描述这些原生 iOS 元素。 SwiftUI Preview 和热重载则是另一个能力：插件会临时生成一个专门用来展示 Preview 的小 App，把你的 SwiftUI 预览放进去运行。你改代码后，它可以只重新编译预览相关的小动态库，再通知正在运行的 Preview App 更新画面，不一定每次都完整重装 App。最终效果就是：Codex 能在同一个窗口里读代码、改 UI、运行模拟器、看结果、继续调整，形成一个完整的 iOS 开发闭环。

译OpenAI Codex 推出 Build iOS Apps 插件，让用户在不离开 Codex 的情况下查看、测试 iOS 应用，预览 SwiftUI 并热重载。原理：借助第三方 npm serve-sim 将 iOS Simulator 画面截取为视频流显示在浏览器中，同时建立控制通道将浏览器的点击、拖动等操作转换为模拟器触摸或键盘事件。插件读取 iOS App 的 Accessibility 信息，在浏览器画面上覆盖透明 HTML 按钮，使 Codex 能选择原生 UI 元素。SwiftUI 预览和热重载通过临时生成预览小 App，仅重新编译相关动态库，无需完整重装应用。

OpenAI@OpenAI · 6月5日70

What happened when one of our models found a counterexample to an 80-year-old Erdős conjecture? Researchers @alexwei_, @HongxunWu, and @wjmzbmr1 shared the story on the OpenAI Podcast with @AndrewMayne and explained how mathematicians and models can work together to make new discoveries.

译当我们的一个模型找到了一个80年历史的Erdős猜想的反例时，发生了什么？研究人员@alexwei_、@HongxunWu和@wjmzbmr1在OpenAI播客中与@AndrewMayne分享了这一故事，并解释了数学家与模型如何合作取得新发现。

DogeDesigner@cb_doge · 6月5日31

ChatGPT vs Grok Asked both to turn this pixelated logo into a high-resolution image. ChatGPT failed badly while Grok delivered a clean, sharp, high resolution image. Grok is the clear winner.

译ChatGPT vs Grok 让两者将这个像素化的logo转化为高分辨率图像。 ChatGPT严重失败，而Grok提供了干净、清晰的高分辨率图像。 Grok是明显的赢家。

Rohan Paul@rohanpaul_ai · 6月5日70

Sam Altman admits AI budgets are turning into a “huge issue,” with customers burning more tokens than even OpenAI’s top in-house users. Altman said OpenAI’s top internal user spends about 100B tokens/month, while one outside customer hit 603B tokens/month. The cost problem gets worse with AI agents because they do not just answer once, they plan, call tools, read files, retry failed steps, check their own work, and create long chains of hidden token spending. Every plan, retry, code review, context window, tool call, and verification step becomes metered cognition. A human asks once; an agent may ask hundreds of times in a second. Companies are no longer asking whether AI is impressive, but whether the marginal token is producing marginal value. Jevons paradox explains part of the trap: when AI gets cheaper per token, people use far more tokens, so the total bill can still rise.

译Sam Altman 表示 AI 预算正成“巨大问题”。OpenAI 顶级内部用户月耗约 100B 模型 token，而外部客户高达 603B。AI 智能体使成本恶化：agent 不止回答一次，而是规划、调用工具、读取文件、重试失败步骤、检查自身工作，产生大量隐藏 token 消耗。人类问一次，agent 可能一秒内问数百次。公司不再问 AI 是否令人印象深刻，而是问边际 token 是否产生边际价值。杰文斯悖论解释部分陷阱：每 token 成本下降，人们使用更多 token，总账单仍可能上升。

OpenAI Developers@OpenAIDevs · 6月5日71

Moderation scores are now available in the Responses API and Completions API. Return moderation signals in the same request flow as generation, then decide how your app uses them for logging, routing, review, or blocking. https://developers.openai.com/api/docs/guides/moderation

译Moderation scores 现已在 Responses API 和 Completions API 中可用。在与生成相同的请求流程中返回审核信号，然后由你的应用决定如何使用它们进行记录、路由、审核或拦截。 https://developers.openai.com/api/docs/guides/moderation