I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day who does impressive or incredibly useful work with Codex and give them 10X usage limits for a month to see what they can do with it. First one tomorrow.

译我有了一个新的巨型按钮，可以为 Codex 按下。在接下来的 100 天里，我们将每天挑选一位用 Codex 做出令人印象深刻或极其有用工作的人，给他们一个月的 10 倍使用额度，看看他们能做出什么。明天是第一个。

SemiAnalysis@SemiAnalysis_ · 6月8日57

NVIDIA's new Nemotron3 Ultra is defeated by Kimi K2.6 & GLM5.1 on coding tasks like TerminalBench, etc. In order to make the Global Nemotron Coalition training committee train frontier open models, Jensen should invite at least one of the following frontier ai labs to the committee: DeepSeek, MoonshotAI, MiniMax, Qwen, StepFun, zAI GLM.

译NVIDIA的新Nemotron3 Ultra在TerminalBench等编码任务上被Kimi K2.6和GLM5.1击败。为了让全球Nemotron联盟训练委员会训练前沿开源模型，黄仁勋应邀请至少以下一家前沿AI实验室加入委员会：DeepSeek、MoonshotAI、MiniMax、Qwen、StepFun、zAI GLM。

swyx@swyx · 6月8日43

releasing tmr - the biggest code eval launch of the year glad to have played a small part in defining the agenda for this very critical next phase in koding

译swyx 宣布明天将发布"今年最大的代码评测基准"。他在引用推文中提到，已有第二家初创公司基于他的播客内容开展销售和评测，并感慨播客直接或间接影响了许多人的职业路线。

Greg Brockman@gdb · 6月8日68

Codex use-cases: “From software engineering and design to data analysis and operations, Codex is becoming an AI teammate instead of just an AI assistant.”

译OpenAI 公布了数十个 Codex 实际工作流程，展示团队如何用其自动化任务。用例包括：管理收件箱并草拟回复、审阅 GitHub PR、将 Figma 设计转为代码、理解大型代码库、自动分类 bug、用自然语言查询数据集、从提示词部署应用、构建 Mac/iOS 应用、自动创建幻灯片、将 Slack 对话转为编码任务、用 AI 动作操控电脑。Codex 正从 AI 助手演变为 AI 队友。

Peter Steinberger 🦞@steipete · 6月8日60

Here’s your monthly reminder that you shouldn’t be prompting coding agents anymore. You should be designing loops that prompt your agents.

译这是您的月度提醒：您不应再手动提示编码智能体了。您应该设计循环来提示您的智能体。

宝玉@dotey · 6月8日74

之所以研究 Claude Design，是因为最近摸索出一套不错的开发模式： 1. 先用 Claude Design 去设计 App 的 UI 和 UX，第一版本越简单越好。 Claude Design 交付的结果是 HTML + CSS + React + data.js，通过 CSS 一下就可以看清楚设计系统的颜色系统、尺寸规范，通过 React 可以看清楚组件结构，通过 data 可以知道数据结构什么样子。这几个组合可比 figma 对于 AI 来说友好多了，尤其是 data.jsx，这是一般的设计 App 不会有的，但对开发特别重要的。还有一个优势就是交付的结果都是文本格式的，可以一起提交到 git 做版本管理，用 git diff 就可以清楚的让 AI 知道设计稿修改了什么。 2. 把 Claude Design 生成设计稿交给 Claude Opus 4.8 去实现一个 MVP，第一个版本只实现 UI 功能，告诉它技术栈（比如 AppKit 而不是 SwiftUI），通过几个小版本的迭代，让它逐步完善。比如第一个版本只是主界面之所以不用 GPT，是因为 Opus 在 UI 实现上比 GPT 好太多，同样的设计稿，GPT 实现的各种细节问题的，不能很好的遵守设计稿。之所以不一下子实现太多功能，是因为功能越少 Agent 越容易聚焦，做出来效果越好。所以怎么拆分版本，也是用好 Coding Agent 的一种能力。非 UI 的功能，用什么模型没有那么大差别，所以我也会用 Codex 配合非 UI 工作。 3. 每次生成一个版本，要让它可以运行，无论是 Agent 还是人都是需要即时反馈的，有了反馈才知道方向对不对，才知道下一步要做什么。人在测试的时候，能发现各种问题，代码问题就让 Agent 去修改，UI 设计有问题不是马上修改代码，而是要去 Claude Design 去修改设计稿，设计稿修改完了，把设计稿下载回去，替换本地的设计稿文件。设计稿替换后，让 Agent 去 git diff 分析一下变更，给它个截图，都不用多说它就知道怎么改了。 4. 版本稳定后继续新一轮迭代当设计的功能做完之后，不一定是要马上去设计新的功能，而是可以重新审查一下实现的代码，重构优化一下。比如我在第一版实现后，让 Opus 4.8 去做了性能分析，看性能问题在哪，然后告诉我当前用 NSScrollView，内容一多就内存暴涨，建议 NSTableView。我心想这不应该是一开始就该考虑到的么！不管怎么样亡羊补牢也不算晚。性能优化完就继续加功能，更新设计稿，让 Agent 参考新设计稿优化功能。 --- 再回来说研究 Claude Design 的事，因为反复 Claude Design 修改，同步到本地，然后这一步让我后来很烦，因为需要在本地和 Claude Design 网页切换，还要导出下载到本地，解压缩替换。于是我就想能不能在本地就可以重现 Claude Design 直接集成到本地 Agent，所以我去研究了 Claude Design，然后发现完全可以本地跑起来，只是本地 Agent 在工具调用上有些差异，以及不方便直接在设计稿上标记编辑。上周正好 Codex 发布了直接调试 iOS 的功能，它带了标记修改的功能，然后我灵机一动，这不正好可以代替 Claude Design 的标记修改功能么。（图2）问题是 GPT 5.5 模型设计能力不够，在 Codex 里面设计效果也不会好。接着 Cursor 也发布了网页标记功能，这下正好，Cursor 里面可以用 Opus 4.8，做成 Skill 就可以本地运行了，还可以在 Cursor 内置浏览器中，直接标记、评论修改。好在 Claude Code 的核心逻辑都在浏览器前端，他们在网页上做了个 Harness，这给了我分析的便利，耐心一点就可以分析出所有的 Prompt、内置 Skills、初始组件，再针对 Cursor 的工具做一些兼容就可以跑起来了。（图3）测试对比了一下和在 Claude Design 上跑的效果差不多。（图4）归根结底，还是 Claude Desktop 太拉胯了，Claude Design 本应该集成在 Claude Desktop 的，不然也不需要我这么折腾。当然不折腾下我也没机会学习 Claude Design 优秀的设计，真的很棒，接下来会系列更新我的学习心得。推荐去试试最终的 Skill，让你本地就可以跑 Claude Design： https://github.com/jimliu/baoyu-design

译宝玉分享开发模式：先用 Claude Design 设计 App UI/UX，生成 HTML+CSS+React+data.js（优于 Figma，利于 AI 理解和 Git 版本管理）；再用 Claude Opus 4.8 实现 MVP（GPT 5.5 在 UI 实现上差距明显）。因反复在本地与网页间导出替换设计稿繁琐，他编写工具解析 HAR 文件、解密 Claude Design 二进制内容，分析其 Prompt 和内置组件，将核心逻辑本地化集成到 Cursor（利用网页标记功能），配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。

Rohan Paul@rohanpaul_ai · 6月7日63

OpenAI is preparing its biggest ChatGPT redesign yet, before its IPO. To make it into a superapp for coding, AI agents, image generation, and business software. The overhaul is set to begin rolling out in coming weeks. The goal is to make ChatGPT the main entry point for business software, automated task completion, coding work, and higher-margin enterprise revenue before a possible IPO. The changes will put more focus and resources behind OpenAI’s coding tool Codex, showing the stronger belief that AI’s future is less about chatbots answering questions and more about agents doing tasks for users. The changes show OpenAI’s strategy shifting closer to Anthropic’s, which has grown fast by focusing on business products and will make that a key part of its IPO pitch this year. Thibault Sottiaux ( OpenAI Codex engineering lead) said: “It will transcend the actual surface . . . what we’re building towards is where you have your own personal agent that is capable of helping you . . . across everything in your life, be it personally or at work.” --- malaymail .com/news/money/2026/06/07/openai-plans-biggest-chatgpt-overhaul-yet-as-it-eyes-superapp-ahead-of-potential-ipo/222852

译OpenAI 正筹备其 ChatGPT 迄今最大规模的改版，目标将其打造成集编码、AI 智能体、图像生成和企业软件于一体的超级应用。改版将在未来几周内开始推出，重点加强编码工具 Codex，使 ChatGPT 成为企业软件、自动任务和编码工作的主要入口，以推动更高利润的企业收入，为潜在 IPO 做准备。此举显示 OpenAI 策略向 Anthropic 靠拢，后者凭借企业产品快速增长并将在今年 IPO 路演中突出这一方向。Codex 工程负责人 Thibault Sottiaux 表示：“它将超越当前界面……我们正在构建的是每个人都拥有自己的个人智能体，能在生活与工作中提供帮助。”

小互@xiaohu · 6月7日69

据英国金融时报：OpenAI正在准备对ChatGPT进行其推出以来规模最大的一次改版。该公司计划将ChatGPT转型为结合编码工具和人工智能体的“超级应用”，并添加高管们认为能够创造更多收入的产品。

译据英国金融时报报道，OpenAI正在准备对ChatGPT进行推出以来最大规模的一次改版。该公司计划将ChatGPT转型为结合编码工具和AI智能体的“超级应用”，并添加高管们认为能够创造更多收入的产品。

宝玉@dotey · 6月7日68

Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 — Claude Design, running locally. Describe a screen → get polished HTML → click any element in the preview & say what to change. Best w/ Opus 4.8. npx skills add JimLiu/baoyu-design https://github.com/JimLiu/baoyu-design

译Cursor 的新浏览器 + 元素注释将其变成了一个设计工作室。认识一下 Cursor Design 🎨 — Claude Design，本地运行。描述一个屏幕 → 获得精美的 HTML → 在预览中点击任何元素并说出要改什么。与 Opus 4.8 配合效果最佳。 npx skills add JimLiu/baoyu-design https://github.com/JimLiu/baoyu-design

宝玉@dotey · 6月7日76

Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 — Claude Design, running locally. Describe a screen → get polished HTML → click any element in the preview & say what to change. Best w/ Opus 4.8. npx skills add JimLiu/baoyu-design https://github.com/jimliu/baoyu-skills

译Cursor 的新浏览器和元素标注功能，使其变成了一个设计工作室。认识一下 Cursor Design 🎨 — 在本地运行的 Claude Design。描述一个屏幕 → 获得精美的 HTML → 点击预览中的任意元素并说出要修改的内容。最佳搭配 Opus 4.8。 npx skills add JimLiu/baoyu-design https://github.com/jimliu/baoyu-skills

Greg Brockman@gdb · 6月7日62

Whenever I don’t use codex for a task, I ask myself why and usually realize that there’s some missing context, I needed to write a skill, or I just didn’t think to use it. Rarely is it because the task is outside of the capabilities of the model. Overhang right now feels large.

译每当我某个任务没有用 codex 时，我都会问自己为什么，通常会发现是缺少某些上下文、需要写一条技能、或者只是没想到用它。很少是因为任务超出了模型的能力范围。现在的过剩感觉很大。

Elon Musk@elonmusk · 6月7日42

Grep timeout issue fixed in latest Grok Build

译最新Grok Build中已修复Grep超时问题

ginobefun@hongming731 · 6月7日60

http://x.com/i/article/2063404046279692288 # BestBlogs 早报 · 06-07｜多智能体编排、MCP 接口设计、缓存命中率在线阅读每日早报：https://www.bestblogs.dev/explore/brief/2026-06-07 ## 导语欢迎阅读 BestBlogs 每日早报 EP80。本期聚焦智能体时代的「工程底层」：一家从零出发、6 个月内靠多智能体编排拿到 1 亿美元 ARR 的公司，揭示了把「全部软件工程自动化」当作单一赌注的可行路径；Chrome DevTools 团队则在为 MCP 构建 Agent 接口的过程中，发现了 AI 协作界面设计与传统 UX 的本质裂缝。缓存失效、上下文窗口、工具 schema 稳定性，三篇文章指向同一个问题：Agent 系统的可靠性到底靠什么支撑。今日速览：3 篇精讲深度内容、7 条快讯速览、10 条补充阅读，带你掌握智能体工程最新动态。 ## Emergent：六个月 AI 折腾，如何催生一家 1 亿美元 ARR 公司阅读原文 → 从 Dunzo 到 Emergent：一次彻底的认知重建 Emergent 的故事，从一次失业开始。在此之前，创始人 Mukun 在印度超本地配送独角兽 Dunzo 深耕多年。Dunzo 融资约 5 亿美元，拥有近百万合同骑手，每月处理超过 1000 万单配送，是一家骨子里由物流、运营和真实世界摩擦驱动的公司。2023 年底，Mukun 从 Dunzo 离职，陷入创始人特有的疲惫期。他给自己放了半年假。这段时间里，他在笔记本上随意写代码，摸索早期的 GPT-4 和开源音频架构，没有目标，也没有压力。正是这种无结构的探索，给了他一个冷静的基线判断：当时大多数开发团队还在做「代码补全插件（Copilot）」，但指数级增长的深度学习模型意味着全系统自动化完全可行。 > 「我们持有一个非常宏观的判断：AI 能力将指数级增长，我们永远顺着 AI 的方向构建……要么一次性自动化全部软件工程，要么就别做。」这个判断，对比「逐功能替换」的主流路线，是一个极其激进的单点押注。技术底层：多智能体编排与定制容器 Emergent 的竞争对手大多从生成静态原型或前端 UI 入手，本质上是「演示软件」。Emergent 的目标更高：构建能直接被用户商业化的全栈应用。这要求他们走出「一个 Prompt 调一次 LLM」的简单模式，进入复杂的基础设施架构。多智能体编排工作区 Emergent 协调多个专用自主 AI 智能体，包括设计智能体、代码生成智能体和自动化测试智能体。这些智能体通过一个多层分布式记忆网络同步工作区。平台上每个应用构建的成功组件，都会被抽象并索引回这个全局记忆核心，持续驱动平台迭代改进。定制容器架构由于多个 AI 实体需要动态交互源文件，同时不能互相覆盖执行状态，标准虚拟环境远远不够。团队为此设计了专有容器模式： - 状态快照：自建内存快照框架，支持对运行中的应用进程做即时分叉（fork）。 - 快照路由：设计磁盘快照阵列，允许不同评估智能体并发测试替代功能实现。 - 动态 RL 流水线：实现与实时执行输出挂钩的本地强化学习循环。极端工程灵活性为了跟上基础模型的跨越式升级（例如 Anthropic 的 Opus 级模型），Emergent 采用了一个反直觉的策略：主动删除稳定的生产组件，从零重建内部智能体框架。这一策略在不到 9 个月内导致了三次完整的平台架构重写。登顶代码基准的 3 个月冲刺在正式对外发布之前，Emergent 投入 3 个月时间，专攻代码生成基准排行榜，最终登顶第一位。这并非为了排名本身，而是为了在融资和推广之前建立技术可信度。 > 「我们需要一个可验证的第三方信号，证明我们的系统是真实的。排行榜是我们能找到的最直接的证明方式。」结果与意义上线不到 9 个月，Emergent 达到 1 亿美元 ARR，覆盖 190 个国家、850 万用户，其中大多数是没有任何编程背景的普通用户，他们用 Emergent 构建可直接投入使用的商业应用。 Emergent 的故事揭示了一条在 AI 时代独特的增长路径：选择一个足够大的单点赌注（全部软件工程自动化），在底层技术上做出真正的工程创新（多智能体编排 + 定制容器），用可验证的第三方基准积累信任，最终撬动规模化的大众市场。这与传统 SaaS 的功能渐进式迭代路线截然不同。对于今天思考「AI 能做什么」的工程师和创业者来说，这篇访谈提供的不只是一个成功案例，更是一套思考框架：不要问 AI 能辅助哪个环节，而是问 AI 能否一次性接管整个流程。 ## 为智能体构建界面：Chrome DevTools 设计 MCP 工具的经验阅读原文 → 核心问题：Agent 是一种全新的用户类型 Chrome DevTools 团队在为 MCP（Model Context Protocol）构建 Agent 接口时，踩过一个几乎所有人都会踩的坑：把 Agent 当成「自动化后端」来设计。他们很快意识到，这个假设从根本上就是错的。人类和 Agent 可能拥有完全相同的目标，比如诊断并修复一个有 bug 的网页。但它们的认知局限、处理习惯和交互需求截然不同。传统 UX 设计的核心原则是「减少摩擦」，但在 Agent 界面中，这条原则有时反而会制造安全漏洞。「数据倾倒区」：上下文窗口的陷阱团队最初尝试把标准的性能追踪日志直接传给 Agent。一份典型的性能分析报告包含超过 5 万行复杂 JSON，体积达数 MB。结果显而易见：Agent 会立即耗尽上下文窗口，陷入所谓的「数据倾倒区（Dump Zone）」，完全失去有效处理能力。解决方案是主动做信息过滤。Chrome DevTools for Agents 剔除了视觉布局需求和过于密集的文件，改为返回清晰的 Markdown 文件和语义摘要，只突出最关键的性能指标（如最大内容渲染时间 LCP）。让模型直接看到关键句子，而不是被迫阅读整本书。四个工程支柱 1. Token 燃油效率团队引入了一个核心效率指标：「每次成功完成的 Token 消耗数（Tokens per Successful Outcome）」：这个指标衡量 Agent 接口的「燃油效率」：功能完整性（有效性）与 Token 用量及调用时长（效率）之间的平衡。针对 Token 消耗，团队采用了三项优化措施：工具分类（将扩展调试等冷门操作从默认上下文中隐藏）、精简模式（仅暴露三个核心工具）、命令行管道化（让 Agent 在本地完成数据转换，而非占用模型上下文窗口）。 2. 错误自愈每次执行报错都会迫使 Agent 消耗额外 Token 进行诊断重试。解决思路是构建「描述性错误消息」，在错误信息中嵌入明确的上下文。例如，将一个导航失败错误更新为追加说明「未找到要导航的历史条目」，Agent 就能立即自主修复，无需人工干预。 3. 工具可发现性与 Schema 设计将单体端点拆分为细粒度工具组合会引入发现问题。当 Agent 面对数十个微工具时，可能难以找到正确工具。团队的做法是把 API Schema 当作「LLM 的 UI」来精心设计，为每个工具标注精确的激活条件，明确说明何时调用、何时不调用。 4. 三层信任边界 Agent 面对的信任边界不同于人类用户： - 本地环境：开发者自用工具，权限可以宽松。 - CI 环境：自动化流水线，需要受控权限。 - 公网环境：未知来源调用，需要严格沙箱。对 Agent 工程的启示这篇来自 Chrome DevTools 团队的一手经验，对今天所有在构建 MCP 工具或 Agent 接口的工程师都有直接价值： - 不要把 Agent 当成「更快的人类」，它需要专为其认知模式设计的接口。 - Schema 质量直接影响 Agent 的调用成功率，文档写给 LLM 看，不是写给人看。 - 信息密度控制是 Token 经济学的核心，传得越多不等于 Agent 理解得越好。 - 安全边界在 Agent 场景下需要重新设计，传统「减少摩擦」的原则在此可能适得其反。 ## 每个 AI 智能体功能都是一个缓存失效面阅读原文 → 真正的架构问题 OpenClacky 创始人 Yafei Lee 在这篇文章开头给出了一个简洁但深刻的核心命题： > 「每个 Agent 功能都是一个缓存失效面。技能加载新的系统上下文；子智能体工作流分叉前缀；浏览器自动化添加易变的工具输出；压缩重写历史；模型切换会碎片化缓存命名空间——如果你的缓存命中率远低于预期，这很可能就是原因。」这不是一篇讲如何调用 LLM 的文章，也不是讲如何增加工具的文章。它讲的是：在一个功能不断迭代的 Agent 系统中，如何保持缓存前缀稳定。两代失败架构的完整复盘第一代（2024 年至 2025 年初）：RAG 一切第一代架构是教科书式的 RAG 系统：嵌入用户代码库、文档和对话历史到向量存储，每次查询经过混合检索、重排序和查询改写后再进入 LLM。听起来合理，实际上问题重重： - 嵌入成本持续攀升，且数据始终是过时的。每次代码库更新都需要重新嵌入，实时同步不可靠，向量存储的索引一直落后于真实代码。 - 90% 的召回率远远不够。每 10 次检索就有 1 次返回错误上下文，对于多步骤链式 Agent 来说，错误会快速复合累积。团队估计，97% 的召回率可能才是 Agent 产生净正面价值的最低门槛。最终结论：对于在本地代码库上工作的编码 Agent，彻底废弃 RAG，不用嵌入，不用向量数据库，不用检索流水线。需要上下文就直接读文件或用 grep 搜索。第二代（2025 年中期）：多智能体编排第二代架构来自 SWEBench 排行榜的灵感：规划智能体 + 编码智能体 + 审查智能体 + 测试智能体，通过消息总线协调，每个智能体有专属提示词。 SWEBench 分数还不错，产品体验却很糟糕： - 每次智能体切换都是缓存未命中。每个子智能体有自己的系统提示和缓存命名空间。在智能体之间传递上下文意味着将状态序列化为消息，而每次切换都会清空接收智能体的缓存前缀。 - 4 分钟任务变成了 14 分钟。协调开销是真实存在的：智能体相互等待，重新读取上一个智能体已处理的上下文，偶尔还会做出相互矛盾的决策。 - 成本高出 6 倍。四个独立的缓存命名空间、四套系统提示、持续的状态序列化。「让专家分工」的直觉在人类团队中有效，但不适用于 LLM——单个前沿模型本身已经是通才，拆分只是在乘以开销。七项工程决策，实现 90%+ 缓存命中率经历两代失败架构后，团队在第三代架构中总结出七项核心工程决策： 1. 双缓存标记（滚动双缓冲）：在系统提示和对话历史之间维护两个独立的缓存前缀，确保最稳定的部分始终被缓存。 2. 冻结系统提示：系统提示只包含静态内容，所有动态信息（当前文件状态、工具调用结果）都注入对话消息而非系统提示，保持系统提示前缀永远不变。 3. 单 meta-tool 收敛所有扩展能力：用一个统一的 meta-tool 封装所有扩展功能，而非暴露大量细粒度工具，避免工具列表变化导致缓存失效。 4. 固定 16 个工具稳定 schema：工具集固定在 16 个，不随功能迭代增减，保持工具 schema 的绝对稳定。 5. Insert-then-Compress 策略：先将所有历史完整插入上下文，再在后台压缩，把压缩事件的缓存命中率从 0% 拉到 95%。 6. 模型特定状态隔离：模型相关的状态绝不写入系统提示，保证切换模型时不会碎片化缓存命名空间。 7. 会话级缓存预热：在会话开始时主动预热最常用的上下文块，减少冷启动开销。与今日其他内容的关联这篇文章与精讲一的 Emergent 和精讲二的 Chrome DevTools MCP 工具设计形成了一个完整的三角：Emergent 解决的是「如何编排多个 Agent 协同工作」，Chrome DevTools 解决的是「如何设计 Agent 能高效消费的接口」，而 OpenClacky 则深入到更底层，解决的是「Agent 系统在持续演进中如何保持经济可行性」。对于今天在生产环境中运行 Agent 系统、发现成本失控或响应速度下降的工程师，这篇文章提供的不是理论框架，而是经过两代失败验证的具体工程决策。 ## 速览 1. OpenAI 推理模型如何破解 Erdős 80 年悬而未决的数学难题阅读原文 → OpenAI 推理团队成员 Alexander Wei、Hunging Wu 和 Lee J Chen 解释了 test-time compute 如何让通用模型推翻保罗·埃尔德什（Paul Erdős）于 1946 年提出的「单位距离猜想」，这是一个困扰离散几何领域近 80 年的核心开放问题。与传统大语言模型即时输出不同，推理模型会在给定的计算预算内「思考」：生成内部思维链、尝试不同求解策略、通过代码执行验证数学逻辑。菲尔兹奖得主蒂莫西·高尔斯（Timothy Gowers）评价，这项工作「具有划时代意义」，达到了顶级数学期刊《数学年刊》的录用水准。这次突破标志着 AI 在数学发现领域的质变：从辅助工具到能独立解决百年难题的研究系统。 2. 全球互联网上智能体流量已超越人类流量阅读原文 → SemiAnalysis 援引 Cloudflare Radar 数据称，全球范围内 HTML 网页的 AI 智能体流量已超过人类流量。这一数据点意义深远：互联网的主要消费者正在从人类切换为 AI Agent，这将对网站架构、内容策略乃至商业模式产生根本性影响。与精讲二中 Chrome DevTools 为 Agent 设计专属接口的讨论相互印证：专为 Agent 优化的 web 界面，将成为未来基础设施的重要组成部分。 3. AI 的下一阶段：世界模型阅读原文 → AI 架构师 Mert 分析了前沿实验室从「预测下一个 token」到「预测世界的下一个状态」的范式转移。目前存在两个竞争方向：渲染像素（pixel prediction）vs 预测抽象状态（abstract state prediction）。世界模型是让 AI 真正理解物理世界、进行因果推理的关键，也是 Agent 从「执行指令」升级为「理解后果」的技术前提。 4. Context Engineering：从概念框架到工程实现阅读原文 → 作者整合 Matt Pocock 的 Context Engineering 框架和 Michal Cichra 的 Loop 实现，提出完整的 Agent 上下文工程体系：ADR（架构决策记录）记录原因、PRD 记录功能、BDD 记录验证、Loop 强制执行。这与精讲三中 OpenClacky 的缓存工程决策形成互补：精讲三解决的是「如何让上下文保持稳定」，这里讲的是「如何组织上下文使 Agent 做出正确决策」。 5. SpaceX 与谷歌签署每月 9.2 亿美元的云服务协议阅读原文 → SpaceX 与谷歌签署了一项庞大的云服务协议，从 2026 年 10 月到 2029 年 6 月，每月支付约 9.2 亿美元，获得包括约 11 万块 NVIDIA GPU 在内的算力资源。这是近期最能说明 AI 基础设施军备竞赛烈度的单笔交易：马斯克旗下公司以近百亿年均规模押注谷歌云和 NVIDIA GPU，折射出大规模 AI 训练和推理对算力需求的量级。 6. DeepSeek V4 做数学证明，500 倍成本优势阅读原文 → 普林斯顿大学团队提出 Goedel-Architect 框架，以 DeepSeek-V4-Flash 为核心模型，在 PutnamBench（672 道普特南大学生数学竞赛题）上实现形式化定理证明，通过率 75.6%，花费 294 美元。对比：谷歌 Gemini 2.5 Pro 驱动的 Hilbert 系统解同样测试集花费约 17 万美元，通过率 70%。约 500 倍的成本差异，配合更高的通过率，是本周最具震撼性的效率数据点。与速览第 1 条 OpenAI 推理模型破解 Erdős 猜想形成呼应：AI 正在从不同方向快速逼近数学研究的核心难度。 7. 豆包不用负责阅读原文 → 这篇文章通过多起真实案例，聚焦一个没有轻松答案的问题：当拥有 3 亿月活的国民级 AI 应用制造幻觉、误导用户时，谁来负责？河北李先生因信任豆包的退票建议损失 600 元，进而被 AI 引导起诉 AI，最终当然败诉，因为「AI 不具有民事主体资格，赔偿承诺不具法律效力」。文章揭示了三层系统性矛盾：拟人化设计（让用户过度信任）、流量分发（AI 可能被 GEO 优化），以及免责声明（法律零责任）之间的结构性张力。随着 AI 渗透率持续攀升，这个问题只会更难回避。 ## 补充阅读 Legora 如何从 YC 走到 18 个月 1 亿美元 ARR 阅读原文 → 又一个 18 个月 1 亿美元 ARR 的故事，法律 AI 赛道。Legora 结合激进的企业销售、创始人主导的招聘和智能体工作流策略，甚至签下 Jude Law 拍摄品牌广告打破法律科技营销刻板印象。与精讲一 Emergent 对比阅读，看两种 B2C 和 B2B 路径的异同。超越转录：构建真正理解对话的 Voice AI 阅读原文 → Herve Bredin 解释了 pyannote 说话人分离模型如何让 Voice AI 从「识别说了什么」进化到「识别谁在何时说话」。对在构建会议记录、客服分析或多人语音 Agent 的工程师有直接参考价值。 AVGO 财报后分析：300 亿美元 AI 订单与 3 倍积压阅读原文 → Teng Yan 分析博通（Broadcom）财报：300 亿美元 AI 订单 vs 108 亿美元出货量，3 倍积压，可见度延伸至 2028 年。关注 AI 基础设施供应链的读者不可错过，可与 SpaceX-Google 云协议（速览第 5 条）一起阅读，构建算力市场的完整图景。 OpenClaw 的暗工厂：AI 编码智能体如何把发版速度推到读不完 Diff 阅读原文 → Vincent Koc 分享 OpenClaw 如何以每天 3000 次提交的速度运转，把工程师变成「工厂管理者」。与精讲一 Emergent 的多智能体编排形成对照：一个是帮非技术用户构建应用，一个是帮工程师团队极速交付代码。从树到流再回归：统一决策树与扩散模型阅读原文 → 建立层次化决策树与扩散过程之间的数学对应关系，通过共享优化原则 GTSM（全局轨迹得分匹配）将两者统一。适合对机器学习理论感兴趣、希望理解「树与流」这两类模型背后共同数学结构的读者。 ABF 基板危机：隐藏的垄断与二阶危机阅读原文 → Teng Yan 揭示 ABF 基板短缺背后的二阶瓶颈：T 玻璃和微薄铜箔领域的近乎垄断，可能卡住 CoWoS 封装产能。AI 算力扩张的瓶颈往往藏在最不起眼的供应链环节，这篇是很好的案例。 Intel 18A 良率问题深度分析阅读原文 → 对 Intel 内部人士关于 18A 制程良率问题评论的批判性分析，质疑其过去说法与当前进展之间的一致性。关注半导体代工格局的读者，可与 AVGO 分析一同阅读。 Builder 角色崛起：AI 正在将工程、产品、设计熔为一个角色阅读原文 → 作者通过 Cursor 招聘 Design Engineers、Claude Design 画 SVG、OpenAI Sites 等信号，论证 AI 正在将工程、产品、设计三个传统角色熔合成「Builder」角色。与精讲一 Emergent 的「全部软件工程自动化」愿景形成有趣的角色层面呼应。反对可纠正性阅读原文 → LessWrong 上一篇反直觉的 AI 安全思考：「可纠正的 AI」并非无条件的优点，可纠正性可能助长不良行为者，并制造心理不稳定的心智。适合对 AI 安全有深度兴趣、愿意认真考察主流假设的读者，带着批判性眼光阅读效果更佳。为什么软件自动化如此困难阅读原文 → 编码 Agent 已经很强了，但对大型软件组织的实际影响，受到上下文管理、技术债务累积、协调开销和认知衰退等根本性瓶颈的制约。与精讲一 Emergent（乐观视角）和精讲三 OpenClacky（工程视角）一起读，构成对「软件工程自动化」这一命题更立体的认知。 ## 今日阅读路径时间有限？推荐优先读这三篇： 1. 精讲三：每个 AI 智能体功能都是一个缓存失效面（链接）：如果你今天只能读一篇，读这篇。它把 Agent 工程中最隐蔽、最普遍的成本问题讲清楚了，七项工程决策可以直接用于生产环境排查。 1. 精讲二：为智能体构建界面——Chrome DevTools 设计 MCP 工具的经验（链接）：如果你在构建任何 MCP 工具或 Agent 调用的接口，这篇是目前为止最有一手价值的实践总结。Token 燃油效率、Schema 设计、信任边界三个框架，够用很久。 1. 精讲一：Emergent 破亿 ARR 的路径（链接）：作为战略视角的补充。Emergent 的故事不只是一个 ARR 数字，它是「AI 时代是否值得做颠覆式赌注」这一问题的一个真实样本。对比精讲三的工程保守主义，两种思路之间的张力本身就很值得思考。

译本期聚焦三大Agent工程议题：1）Emergent通过多智能体编排+定制容器，6个月实现1亿美元ARR，覆盖190国850万无编程背景用户；2）Chrome DevTools团队为MCP设计Agent接口，提出Token燃油效率、错误自愈、工具Schema设计和三层信任边界；3）OpenClacky创始人指出每个Agent功能都是一个缓存失效面，第一代RAG架构因90%召回率不足和嵌入成本高而失效。

MiniMax (official)@MiniMax_AI · 6月7日60

$0.07 for M3, $3.39 for Opus. Both caught 13 of 17 bugs. Really interesting breakdown from @kilocode Definitely worth the read

译对 Claude Opus 4.8 和 MiniMax M3 进行相同的代码审计：同一代码库、同一提示词，预先植入 17 个已知 bug。MiniMax M3 以 $0.07 抓到 13 个；最便宜的 Claude 运行同样抓到 13 个，花费 $1.30。MiniMax 表示这一对比非常有趣，绝对值得一读。

Rohan Paul@rohanpaul_ai · 6月7日62

AI works better when you give tools and freedom instead of forcing them into rigid, hand-designed workflows—because general learning systems scale better. "Ask not what the model can do for you, ask what.." ~ Claude Code creator Boris Cherny (@bcherny)

译Claude Code创建者Boris Cherny认为，给予AI工具和自由度比强迫其遵循固定手工工作流效果更好，因为通用学习系统扩展性更强。他透露自己已不再手动编写提示词，而是运行自动循环让Claude自行决定任务，他的主要工作是编写这些循环。他预测这种从手动提示到自动循环的转变将在今年剩余时间中成为趋势。

jason@jxnlco · 6月7日48

Codex spin up 1000 agents and make a pr in every GitHub repo to migrate to ruff uv and ty. Only greens PRS. Surely that will benefit the community

译Codex 启动 1000 个 agent，在每个 GitHub 仓库中提交 PR，迁移到 ruff、uv 和 ty。只提交绿色的 PR。这肯定对社区有益。

Rohan Paul@rohanpaul_ai · 6月7日64

Head of Claude Code Boris Cherny at Anthropic's annual developer conference in San Francisco on how his life changed in the last 6 months with AI writing all the code. "About six months ago what happened is all the code that I used to have written by hand now Claude writes. And I just prompt Claude. So I talk to Claude and I'm like, hey, let's build this feature. It builds a feature and it tests it. And then it shows me. And I'm like, yeah, that's good. Or no, wait, make this change. And then it makes the change. " --- From 'CNBC Television' YT channel (link in comment)

译Anthropic 年度开发者大会上，Claude Code 负责人 Boris Cherny 描述了过去 6 个月的转变：他曾经手写所有代码，现在全部由 Claude 编写。他只需用 prompt 与 Claude 对话，让 Claude 构建功能、测试并展示结果，然后给出修改指令。更进一步，他不再手动 prompt，而是运行循环自动 prompt Claude 并决定行动——他的工作变成了写这些循环。Cherny 称这一转变将在今年剩余时间持续。

AYi@AYi_AInotes · 6月7日62

Damn，日本一个前公务员，连地都不会种，靠AI在北海道管了100公顷农场🤯 还自己用ChatGPT和Codex写代码，搞出了一整套全自动农场系统， - ESP32 + LINE 机器人，用于远程控制温室通风/卷帘电机 - 温度监测 + 自动通风机器人 - Airtable 农场数据库（田地、任务、传感器、材料） - 卫星 NDVI 作物健康地图，叠加在他的田地上 - AI 生成布线图这才是普通人用AI的正确姿势！

译一名前日本公务员（不会种地）在北海道用AI管理100公顷农场。他借助ChatGPT和Codex自行编写代码，构建全自动农场系统：ESP32+LINE机器人远程控制温室通风/卷帘电机；温度监测+自动通风机器人；Airtable农场数据库（田地、任务、传感器、材料）；卫星NDVI作物健康地图叠加在田地上；AI生成布线图。展示了普通人用AI解决实际问题的正确方式。

Yuchen Jin@Yuchenj_UW · 6月7日53

Before AI, I’d spend a weekend building 1 useless app. Now I can build 67 useless apps over a weekend, each with a logo, a fancy webpage, and 0 user.

译AI之前，我花一个周末只能建1个没用App。现在我能在一个周末建67个没用App，每个自带logo、精美网页和0个用户。

Berryxia.AI@berryxia · 6月7日43

这个其实实现比较简单，如果只做看板的话。直接做个网页就可以了，在kindle打开即可。之前玩过天气时间的朋友应该都知道。如今你要会的动作是动嘴即可。

译Berry Xia分享把闲置Kindle变看板的方法：只需做一个网页在Kindle打开即可，并通过语音（动嘴）控制。引用推文补充，可用Codex或Claude Code轻松改造任何闲置设备，进一步简化操作。

AYi@AYi_AInotes · 6月7日72

http://x.com/i/article/2063237792746831872 # 我把全网的 Codex Skill 扒了一遍：最该装的几个、安装方法、资源仓库都整理好了，看这一篇就够了！先说结论：装对 create-plan + gh-fix-ci 和几个核心 curated Skill，Codex 立刻从会写代码的聊天机器人变成靠谱的工程师团队。这篇我把全网挖到的整理成五块——必 star 的仓库、按场景分的神级 Skill、保姆级安装、进阶组合技、持续追更的资源，以及装哪几个、去哪装、怎么喊它干活，看完直接抄。说实话，大部分人手里的 Codex，性能只发挥了一半。你让它写代码，它可以kuku写，你让它改 bug，它二话不说kuku改，但它该先规划的时候不规划，该查文档的时候却靠记忆瞎编，CI 挂了还得你一行行喂日志，初始版本质上还是个聪明点的聊天框。 ## 真正把它盘活的开关，叫 Skill。打个比方说，Skill 就是给 Agent 装的一张张岗位 SOP 卡：一个 SKILL.md（外加可选的脚本和参考资料），把遇到这类活该怎么干写死成可复用、可安装、可团队共享的标准动作。比 prompt 工程稳定得多——你不用每次都重新念一遍咒语，Codex 自己会在合适的时候把对应的卡掏出来用。我把官方仓库、Awesome 列表、Reddit、CSDN、B 站、Medium 翻了一遍，把那些被反复点名的神级 Skill、安装方法和资源,全给你整理在这了。 ## 这篇讲五块： ## 1、必 star 的核心 Skill 仓库（去哪找） ## 2、按场景分类的神级 Skill 精选（装哪些） ## 3、保姆级安装与调用教程（怎么装、怎么喊） ## 4、进阶玩法（组合技、自定义、跨平台迁移） ## 5、持续跟进的全网资源（去哪追更新）先把结论甩在前面，你记住这一句就行：装对 create-plan + gh-fix-ci + 几个核心 curated Skill，Codex 就从会写代码的聊天机器人变成靠谱的工程师团队。好了，话不多说，咱们往下扒放干货。 ## 一、核心资源仓库（必 star）找 Skill 别瞎搜，盯住下面这几个源头就够了。 1. 这张表怎么用：官方仓库管地基和精选：github.com/openai/skills 1. Composio 那个管花活和集成：github.com/ComposioHQ/awesome-codex-skills 1. 剩下两个当补充弹药库： > skillregistry.dev > github.com/Dimillian/Skills 两个主仓的 star 都已经过万， 20k+ 量级，热度摆在那，先 star 再说。 # 二、神级 Skill 精选（按场景装）不用一口气全装，按你手头的活对号入座，先把高频的几张卡装上。 ## 规划与元能力（最该先装的前排）这一组是管 Codex 怎么干活的元能力层，社区几乎所有神级"单都把它们排在第一。一句话总结这组：让 Codex 先想清楚再动手，干完能交接，方案还有人帮你挑刺，这是整套打法里收益最高的一档，可别跳过去。 ## GitHub & CI/CD（工程必备） CI 红了那一下最磨人，装了 gh-fix-ci，它自己去读日志、定位、改，你只管 review 结果——光这一个，很多人就觉得值回票价了。 ## 测试、质量、安全 ## 前端、设计与集成 ## 生产力与内容这些大多来自官方 .curated + Composio Awesome + 社区高赞，不是我拍脑袋选的。 # 三、安装与调用（保姆级） ## 第 0 步：先把 Codex 装到最新国内网络慢的话，换镜像源加速。 ## 第 1 步：装 Skill（推荐用内置工具，最稳）直接在 Codex 里喊内置的 installer：想从 GitHub 路径精确装某一个，也行：手动安装（适合批量）把 Skill 文件夹丢到对应目录，重启 Codex 就生效：重启方式：CLI 重开终端，App 重启应用。 > Windows 用户注意：有些教程用 PowerShell 脚本，调 .system/skill-installer/scripts/install-skill-from-github.py 来批量装官方 curated Skill，按你看到的脚本走就行。 ## 第 2 步：怎么喊它干活隐式那条是关键：装好之后你甚至不用记 Skill 名字，把活描述清楚，它自己会去翻卡。 # 四、进阶玩法（给 Agent 玩家）到这一步，基础已经够用了，下面是几个能再上一个台阶的打法。 - 组合技：一个任务同时挂多张卡，比如 create-plan + gh-fix-ci + security-threat-model——先规划、边修 CI、边过安全，一条龙。 - 自定义神级 Skill：用 $skill-creator 快速生成，或者手写 SKILL.md，核心就一条原则——One Skill, One Job：一张卡只干一件事，输入、输出、完成标准写清楚。 - 跨平台迁移：很多 Skill 遵循开放的 Agent Skills 标准，Claude Code、Cursor 之间能互搬，基本就是把路径从 .codex 改成 .claude 的事。 - 当 coding sub-agent 用：把 Codex 塞进你的多代理系统里当强力 coding 子代理，Skill 负责具体 workflow，Codex 负责出活。 - 团队 / 仓库级沉淀：把常用 Skill 放进项目 .agents/skills/，新人一拉代码就自动拥有同一套能力——团队的隐性经验，第一次有了可以打包带走的形态。 # 五、持续跟进的资源 Skill 生态更新很快，这几个地方值得长期蹲： # 最后很多人还把 Codex 当一个更聪明的搜索框，问一句答一句。但它真正的威力从来不在那个对话框里，在你给它装了多少张会自己掏出来用的技能卡上。只不过装备只是其中一半， Skill 会一直更新，今天的神级 Skill，半年后可能就被官方内置了。真正能跟着你换工具、不贬值的，是另一半——你怎么判断这活该拆几步、哪张卡该上、它给的方案到底靠不靠谱。这也是我一直在做的事：一边分享今天就能上手的 AI 实践，一边聊工具之外的那层认知，前者让你现在就用得起来，后者决定你半年后还在不在牌桌上。工具的上限是它自己定的，你的上限是你怎么判断、怎么用它。从混乱到清晰，我们一起慢慢来。 —— （这类能上手 + 有认知的内容我会一直发，觉得有用就关注一下 @AYi_AInotes，也欢迎转发给在用 Codex 的朋友。） #Codex #OpenAI #AIagent #vibecoding （本文基于 openai/skills、Composio Awesome Codex Skills 等公开仓库，以及 Reddit、CSDN、B 站等社区资料综合整理。文中 star 数、Skill 命名、命令语法以各仓库官方页面为准，安装前建议点开链接再核一眼。）

译文章指出，安装 create-plan、gh-fix-ci 等核心 Skill 后，Codex 能从会写代码的聊天机器人变成靠谱的工程师团队。核心资源仓库包括 openai/skills 和 ComposioHQ/awesome-codex-skills（star 数均 20k+）。按场景精选 Skill：规划元能力、GitHub/CI/CD、测试/安全等。安装推荐用 Codex 内置工具，也可手动将 Skill 文件夹放入对应目录后重启。进阶玩法包括任务组合多张 Skill、自定义单一职责的 SKILL.md、跨平台迁移至 Claude Code/Cursor 等。持续更新资源可关注 skillregistry.dev 等。

Rohan Paul@rohanpaul_ai · 6月7日59

"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops. And this is transition we're going to see for the rest of the year." - Boris Cherny, head of Claude Code at Anthropic.

译"我不再手动给Claude写提示词了。我现在写循环，让Claude自己去处理任务。我的工作是写循环。接下来这一年，你会看到这种转变。" ——Anthropic Claude Code负责人Boris Cherny

宝玉@dotey · 6月6日70

Vibe Coding 这个名字不好，容易联想成让 AI 生成垃圾代码。以后程序员无论是前端还是后端，无论你是编程高手还是小白，主流都是人指挥 AI 写代码。 ✅程序员的角色会变成 Tech Lead 这样的角色：分解任务、架构选型、代码审查和调试。至于写代码，会越来越少的手写。 ❌但不建议当老板的角色：我想要什么功能你给我实现，实现不了就开除。如果你还没有习惯指挥 AI 写代码，建议： 1. 开始适应指挥 AI 写代码而不是亲自写代码； 2. 用你能用到的最聪明的模型，不要省钱 3. 开始之前认真设计，至少复杂一点的用 Plan mode 讨论清楚设计，如果你对设计都不参与你对代码库无法了解未来还是会失控 4. 一次不要做太多，AI生成后要做审查，因为 AI 不会担责任，你还是责任主体 5. 刻意的做一些手写代码的练习，尽可能搞懂 AI 生成的代码

译宝玉回应称“Vibe Coding”易联想垃圾代码。未来前后端程序员主流都是人指挥AI写代码，角色变为Tech Lead：分解任务、架构选型、审查调试。建议：适应指挥AI、用最聪明模型、复杂任务先设计、AI生成后必须审查、刻意练习手写代码理解AI输出。

jason@jxnlco · 6月6日26

Me looking at modern GitHub code review bots and then looking at whatever @steipete build in 5 days.

译我看了看现代GitHub代码审查机器人，然后看了看@steipete在5天内折腾出来的东西。

向阳乔木@vista8 · 6月6日43

跟Tom聊完了，直播中讨论的大模型前端审美主观排名： Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1> deepseek v4 flash 不知道和你的实际使用体感一样不一样。声明：都是大家的主观看法，没有Benchmark。

译Vista与Nexu CEO Tom直播，给出大模型前端审美主观排名（无Benchmark）：Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1 > deepseek v4 flash。还邀请元子、姚老师、Nixy聊OpenDesign（5w+ Star）的创作契机与成功原因。

Rohan Paul@rohanpaul_ai · 6月6日80

GitHub released Spec Kit, an open-source toolkit to fix vibe coding’s biggest weakness: the AI often starts coding before the product rules are clear. 109K+ stars ⭐️ It turns vibe coding from “ask the AI to build it” into “write the product spec first, then make the AI build from that spec.” Most AI coding today starts with a loose prompt, then jumps straight into code, which often produces working demos but weak requirements, missing edge cases, and messy rework. Spec Kit pushes the process the other way: first define what the product must do, then clarify gaps, then create a technical plan, then break that plan into tasks, then let the agent implement against those written artifacts. So here the spec is no longer disposable documentation; it becomes an executable development contract that guides Copilot, Claude Code, Codex, Gemini, Cursor, Qwen, and 30+ other agent integrations.

译GitHub 发布开源工具包 Spec Kit，旨在解决 "vibe coding" 的最大弱点——AI 常在规则未明确时就开始编码。它把流程从 "让 AI 直接构建" 改为 "先写产品规范，再让 AI 根据规范实现"。当前 AI 编码模式常因松散提示直接跳入代码，导致需求薄弱、边界遗漏和反复返工。Spec Kit 推动反向流程：先定义产品功能，再澄清差距、制订技术计划、分解任务，最后让 agent 执行。规范成为可执行的开发合约，支持 Copilot、Claude Code、Codex、Gemini、Cursor、Qwen 等 30+ agent 集成。项目已获 109K+ 星标。

Berryxia.AI@berryxia · 6月6日70

卧槽！思路直接被打开了！从此Claude 和 Codex。联姻成功了…

译@lxfater 分享了一种 Vibe Coding 方法：在 Codex 的侧边栏终端输入 Claude，即可同时使用 Claude Code 进行项目规划、Codex 执行具体编码任务。两者结合实现了“鱼和熊掌兼得”，让 Claude Code 的规划能力与 Codex 的执行效率互补，无需切换工具即可完成从设计到编码的完整流程。

宝玉@dotey · 6月6日72

Codex 里面可以 Review 代码的修改（比如选择Last turn就是上一次 AI 更改的），然后可以对部分内容进行评论，评论的内容会直接附加在左侧的会话内，提交就可以作为上下文发给 Agent，让它对评论处理

译Codex 现在支持审查代码修改，可选择“Last turn”查看上一次 AI 更改的内容，并对部分代码进行评论。评论会直接附加在左侧会话中，提交后作为上下文发送给 Agent，使其能针对评论进行处理。

eric zakariasson@ericzakariasson · 6月6日42

>npx --yes was-gpt-here@latest >yes

译如果你仓库里没有至少20个这个函数的副本，你就不是tokenmaxxing。

Lee Robinson@leerob · 6月6日74

Cursor (and coding agents generally) still blows my mind daily. Just today: 1. I shipped a new landing page. I gave a 10min voice note to Cursor, left to go eat dinner, and came back to a 90% finished version. Made some small design and copy tweaks and merged. 2. Had Cursor dig through Search Console and Semrush with computer use, researched places we could improve SEO, and then merged 3 PRs with fixes. 3. Used the Supabase MCP to pull thousands of emails from the Compile waitlist, had it research them with web search based on ideal fit for the event, and got back a CSV with the top people to invite and why. 4. Updated an internal app I built for doing company-wide surveys (think Typeform but Cursor branded) in a few hours before our All Hands. 5. Had a few agents researching furniture I'm hoping to buy. They searched the web for a bunch of variants and then made a custom shopping cart (just an HTML page) with images, prices, links, and tons of details. Super helpful. I don't do this every day, of course, but it's still wild to me this is the new normal for what someone with a computer and AI can do. Most of these were running in the cloud as I was between meetings, just humming away in the background. I could check the app (🔜) to see progress and merge PRs. What a time to be alive. (P.S. if you extrapolated my usage today, I'd still be on the $200/mo plan)

译Lee Robinson 展示 Cursor 编码智能体今天的五个任务：1）10 分钟语音笔记生成 90% 完成的着陆页并合并；2）Cursor 用 computer use 分析 Search Console 和 Semrush 后合并 3 个 SEO 优化 PR；3）通过 Supabase MCP 提取数千封邮件，结合网络搜索筛选参会者并生成 CSV；4）几小时内更新内部全员调查应用；5）多个智能体研究家具并生成含图片、价格、链接的定制购物车 HTML 页面。这些任务在云后台静默运行，可实时查看进度和合并 PR。作者表示仍使用 $200/月计划。

ginobefun@hongming731 · 6月6日65

http://x.com/i/article/2063037236174802944 # BestBlogs 早报 · 06-06｜腾讯 AI、Agent 沙箱、中美算力 > 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-06 腾讯首席 AI 科学家姚顺雨首次公开亮相，直言「下半场才刚开始」，从方法论成熟到寻找好问题的转变值得深思。与此同时，Agent 基础设施的安全边界正在被重新定义——硬件虚拟化的 microVM 与中美算力格局的最新一手观察，同样是今日不容错过的读点。 ## 导语今天是 2026 年 6 月 6 日，BestBlogs 从过去 24 小时收录的内容中精选出今日早报。今日三大精讲涵盖三个相互呼应的维度：人（腾讯首席 AI 科学家姚顺雨的战略判断）、基础设施（Agent 安全沙箱的工程实现）、生态（中美 AI 算力格局的第一手观察）。三篇文章合在一起，勾勒出当前 AI 工业化落地的完整图景——从战略逻辑，到工程实现，再到全球竞争格局的实地素描。速览部分包含 7 篇精选内容：从编写 AI Skill 的实战经验手册，到一位非技术背景销售员用 Claude Code 重建工作流的亲历记，再到微软 Build 大会「智能体工程取代编程」的现场观察、腾讯混元 Stem 稀疏注意力算法的技术突破、多智能体小模型经济模拟的实验报告、Google DeepMind 的 Text Diffusion 低延迟架构探索，以及 Anthropic 关于 AI 递归自我改进的深度长文。补充阅读涵盖强化学习环境质量、Google Gemma 4 12B 发布、AI 行业综合周报，以及 Claude Code 评测与工程实践的两篇深度工程文，还有 Skills 渐进式披露的设计模式。今天的内容聚焦于一个共同命题：AI 工业化的下半场，决胜点在哪里？ ## 精讲一：汤道生姚顺雨对谈：腾讯 AI 的下半场来源：腾讯科技 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/1fa6207b) 姚顺雨：第一次公开亮相，直指战略核心 6 月 5 日，腾讯云 AI 产业应用大会上，腾讯集团高级执行副总裁汤道生与首席 AI 科学家姚顺雨同台对谈，这是姚顺雨加入腾讯后第一次在公司公开活动中正式亮相。姚顺雨的履历颇为显赫：他是 ReAct 智能体范式的提出者，也是 OpenAI 旗下 Operator 和 Deep Research 两个 Agent 产品的核心贡献者。2025 年 12 月正式出任腾讯「首席 AI 科学家」，直接向总裁刘炽平汇报，同时兼任 AI Infra 部与大语言模型部负责人。他到任的第一个重要动作，是从 2026 年 2 月起主导重建混元团队的预训练与强化学习基础设施。这场名为《腾讯 AI 的下半场》的约 45 分钟对谈，实际上是一次罕见的战略公开陈述——一位掌握腾讯模型方向决策权的人，第一次系统性地解释他的判断框架。核心判断：从「怎么训练」转向「找好问题」对谈的第一个核心判断，是关于 AI 范式转移的时间节点。姚顺雨早在 2025 年 4 月就在个人博客发表过《The Second Half》，提出 AI 正站在中场分界线上的判断。八个月后，加入腾讯的决定本身，就是对这个判断的实践注脚。他的逻辑是：过去十年，AI 领域的核心挑战是「怎么训练」——从 AlphaGo 到预训练大模型，每一项突破都是方法论层面的创新。但预训练与后训练体系建立之后，AI 相当于拥有了一把「万能锤」，可以砸向任何钉子。在这种情况下，方法论的稀缺性退场，好问题的稀缺性成为新的核心矛盾。这意味着，AI 竞争的核心不再是谁能造出更强的模型，而是谁能定义什么问题值得解决，以及谁拥有解决这些问题所必须的数据与场景生态。对腾讯而言，这个转变是战略性利好。他指出三个关键词：问题（腾讯有元宝、ima、CodeBuddy、WorkBuddy 等丰富产品场景）、环境（Agent 需要工具和接口才能行动，腾讯的产品矩阵提供了天然的工具生态）、context（最终的竞争壁垒来自谁掌握最原始的用户上下文数据，腾讯有企业与个人两端的海量积累）。他明确表示，context 是 Agent 时代最重要的差异化因素，因为「模型越来越擅长把一个非常复杂的输入变成一个输出，你的竞争壁垒就来自于你知不知道这个人他到底在干什么」。 Hy3 Preview：495 步 Agent 工作流的背后对谈同时披露了 Hy3 preview 的具体数据。这款参数规模为 295B 总参数、21B 激活参数的混合专家模型，在 CodeBuddy 与 WorkBuddy 上首 token 延迟降低了 54%，并且能够稳定驱动最长 495 步的复杂 Agent 工作流。上线 OpenRouter 后，一度拿下周榜调用量与市场份额双第一。值得注意的是，Hy3 preview 版本明确定位为「以实用性为导向」，不是为了刷榜，而是为了收集真实世界反馈，修复榜单无法发现的底线问题。姚顺雨对此的解释颇为务实：benchmark 有价值，但容易 saturate（饱和）；真实世界的 prompt distribution 更复杂、更模糊、多轮，这些是 benchmark 无法覆盖的训练信号来源。 Co-Design：模型与产品如何深度协同汤道生提出的「Co-Design」概念，是整场对谈的另一条主线。他以「产品老兵」的视角，描述了 AI 时代做产品与 PC、移动互联网时代的本质不同：过去的产品像「预制菜」，通过功能菜单满足需求；AI 产品则面对完全开放式的用户输入，产品方甚至无法预知用户会问什么，必须依赖模型能力来理解并响应。这种变化倒逼组织形态向小团队化、实验驱动靠拢。工程师的角色从「写功能」变为「驱动多个 coding agent 的产品 leader」。姚顺雨对 Co-Design 的拆解分三点：其一，预训练是相对 product-agnostic 的，做得扎实可以为多个下游产品提供可泛化的基础；其二，后训练的关键是设立正确的 eval——以元宝为例，真实对话中用户的问题比 benchmark 更模糊、更多轮，这些真实反馈可以发现 benchmark 发现不了的底线问题；其三，LLM 时代与过去 AI 最本质的区别是泛化性——即使目标是 Coding Agent，也需要聊天、搜索、指令遵循、推理等多维度能力，这意味着有多元产品矩阵的公司，数据之间可以相互泛化，形成网络效应。对谈结尾，汤道生宣布腾讯将发布一套「效率智能体工具集」，背后整合了场景连接、Harness 工程体系与混元模型 Co-Design 三重能力。为什么这篇值得精读这篇对谈兼具战略高度与技术细节，且两者并非并列关系——战略判断有工程实现的支撑，工程细节有方法论框架的解释。姚顺雨以 ReAct 提出者和 OpenAI Agent 产品实践者的身份，直接给出了他对「下半场」的第一性原理拆解，而不是泛泛的愿景陈述。外界质疑腾讯「慢了」，姚顺雨的回答是：如果 AI 是一场长期游戏，下半场才刚刚开始，那现在并非晚了；ChatGPT 和 Claude 不会是唯一的超级应用，coding agent 之外还有大量新的产品范式等待探索。这个判断背后的逻辑链——方法论成熟、好问题稀缺、context 是壁垒——值得每位 AI 从业者认真推敲。 ## 精讲二：给你的 AI 智能体一台专属电脑来源：LangChain Blog · 评分 91 · [阅读全文](https://www.bestblogs.dev/article/dc9482cb) 从「让 Agent 跑起来」到「让 Agent 安全地跑起来」 Agent 能力提升的速度，远远超过了 Agent 安全基础设施建设的速度。LangChain 的这篇文章，正面回应了一个越来越迫切的工程命题：当 Agent 需要执行代码、访问文件系统、安装依赖、持久化状态时，应该给它一台什么样的「电脑」？ Satya Nadella 在 Microsoft Build 大会上的判断被引为文章开篇：「Every agent needs a computer.」这不是比喻，而是字面意义上的基础设施需求。Cursor、Claude Code、ChatGPT 的代码解释器之所以强大，正是因为它们拥有了一个可以运行代码、看到错误、修复再跑的反馈闭环——这个反馈闭环，是区分演示 Agent 与生产 Agent 的关键分界线。为什么容器不够用：两个真实案例许多团队在早期原型阶段选择 Docker 容器来隔离 Agent 执行环境。文章以两个具体案例指出，这种方案在生产环境中遭遇两道硬墙。第一道：Agent 本质上执行不可信代码。 Agent 运行的代码可能来自模型生成、用户提示词、克隆的仓库，或者安装的第三方包。没有任何一条路径是完全可信的。2025 年 9 月，npm 生态出现了自我复制蠕虫 Shai-Hulud，在 preinstall 阶段感染了超过 500 个包，第二波在 11 月进一步波及 796 个包和 25,000 多个 GitHub 仓库，且感染发生在任何验证逻辑执行之前。一个会安装 npm 包的 Agent，天然暴露在这类供应链攻击面前。第二道：容器共享宿主内核，不是真正的隔离边界。 CVE-2026-31431（Copy Fail）是一个 732 字节的 Python 脚本，利用 Linux 内核 crypto API 漏洞，可以提权至宿主机 root，覆盖从 2017 年到现在几乎所有主流 Linux 发行版。文章点出了一个令人不安的细节：AI 工具链发现这个漏洞大约用了一小时。这两个案例放在一起，说明了一个清晰的工程结论：对于模型生成或用户可控代码，容器隔离是不够的，需要硬件级别的隔离边界。 LangSmith Sandboxes：microVM 的设计哲学 LangSmith Sandboxes 给出的答案是基于硬件虚拟化的 microVM。与容器不同，microVM 拥有独立内核，每个沙箱实例之间不共享任何内核级别的资源，内核漏洞无法跨越边界影响宿主机或其他沙箱。这个方案的工程特性覆盖了 Agent 执行场景的主要需求： - Serverless 启动速度：微秒级冷启动，而非传统 VM 的秒级。对于需要按需弹起、用完即毁的 Agent 沙箱场景，这是关键。 - 完整机器持久状态：沙箱拥有完整的文件系统、进程空间和网络栈，Agent 可以在同一沙箱内持续工作数小时，维护跨步骤的状态，而不是每次调用都重置环境。 - 快照与分叉：可以对沙箱状态打快照，并从同一快照分叉出多个并行实例。这对 RL 训练（需要在同一环境状态下并行运行多个 episode）和批量评测场景极为重要。 - 蓝图预热：预先配置好的沙箱环境可以池化复用，避免重复安装依赖的冷启动延迟，在大批量任务场景下降低端到端延迟。文章中还描述了一组典型的 Agent 使用场景，帮助读者理解「为什么 Agent 需要一台真正的电脑」：一个 coding assistant 不只是建议修复方案，而是应用修复方案、运行测试套件、确认没有破坏已有功能；一个 CI agent 可以克隆仓库、安装依赖、跑完整测试、开 PR；一个 RL 评测 harness 需要从零到数千个沙箱的弹性扩缩容。这些场景的共同前提：Agent 需要一个有状态的、持续的、安全的工作空间。关联今日主题：精讲一与精讲二的互文这篇文章与精讲一（腾讯 Hy3 驱动 495 步 Agent 工作流）构成有趣的互文：一篇讨论 Agent 能做什么，另一篇讨论 Agent 在什么样的基础设施上才能安全地做。Hy3 preview 能够稳定驱动数百步复杂 Agent 工作流，恰恰需要精讲二所描述的基础设施作为前提。Agent 能力越强，对安全执行环境的要求越高，两者是正向绑定的关系。从整个 AI 行业的视角来看，「给每个 Agent 一台专属电脑」正在成为基础设施的新标配。这不是某一家公司的产品决策，而是 Agent 工作负载对基础设施提出的客观需求。对于正在构建 Agent 代码执行系统的工程师，这篇文章是当日最具工程价值的必读材料：它不只解释了「为什么」，也给出了「怎么做」的工程参考框架。 ## 精讲三：科技爱好者周刊（第 399 期）：中国 AI 大厂访问记来源：阮一峰的网络日志 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/6933ad74) 第一手观察：打破中美 AI 认知的信息茧房 2026 年 5 月上旬，一个由多位美国科技分析师组成的访问团赴华，走访了 14 家 AI 与机器人公司，包括 DeepSeek、月之暗面、MiniMax、智谱、字节跳动、阿里、蚂蚁、小米、零一万物、宇树、魔搭社区等头部机构。访问结束后，Kevin Xu、Azeem Azhar、Nathan Lambert 等多位成员独立撰文分享观感，阮一峰在本期周刊中将关键摘录系统整理，配以简洁导读。这是少见的中美 AI 生态直接对比一手材料。不是二手数据引用，不是媒体转述，而是身处硅谷的分析师在中国实地观察后形成的第一手认知。这类材料的价值，在于它能够绕过两边各自的叙事框架，提供一个相对中立的外部视角。算力：差距是真实的，但效率弥补了大半访问团的最核心发现，围绕算力展开，且得出了两组看似矛盾实则互补的结论。差距的量级：中国 AI 公司普遍反映算力不足，根本原因是美国的芯片出口管制。英伟达最新款 GB300 NVL72 系统在实时推理速度上比三年前的 H100 集群快 30 倍，每颗芯片内存容量高出 3.6 倍，每次推理能耗降低 25 倍，美国公司正在大量订购，而中国公司无法获取。访问团估计，2025 年底美国 AI 算力约为中国的 8 倍，中国目前的总算力大致相当于美国 2023 年的规模。华为 Ascend 950PR 性能大致相当于 2022 年的 H100，且出货量仅为英伟达同期的十分之一左右。效率的弥补：然而，「算力少一个数量级」并不等于「模型能力落后两年」。访问团的关键发现是，芯片管制反而逼出了计算效率创新——中国公司的单位算力支持的 AI 智能是简单扩展下的 4-7 倍。分析师们向中国研究人员透露了 OpenAI 内部每位研究人员拥有的 GPU 数量，对方「简直惊呆了」，然而西方 AI 公司的研究人员仍然普遍抱怨算力不够。这个细节揭示了两种截然不同的稀缺性适应策略。此外，中国的算力分配结构与美国不同：美国的大部分算力用于模型训练，中国的算力同时要服务数亿消费者和快速增长的企业用户，这进一步压缩了可用于训练的资源池，也是促进效率创新的另一个驱动因素。组织与文化：年轻、流动、产学一体访问团的另一组引人注目的观察聚焦在人。中国 AI 公司的员工平均年龄二十五六岁，大多数仍是博士在读，实习期长达 1-2 年，享有与全职员工相同的权限和待遇，可以自由提出想法、开展工作实验。这与西方顶级 AI 公司形成鲜明对比：OpenAI、Anthropic、Cursor 等公司根本不提供实习，其他公司（如谷歌）的实习机会也不会涉及核心模型工作。背后有结构性原因：中国顶尖高校的计算资源根本无法满足优秀博士生的研究需求，而业界公司拥有更丰富的算力。双方的利益在「合作发论文、提供算力与全权限」这个模型下找到了交汇点。结果是一种产学高度交融的人才生态：年轻、灵活、边界感弱，新想法的涌入速度快。开源分歧、竞争格局与 AI 安全态度访问团还记录了若干有意思的切面。开源分歧：一条越来越清晰的界线正在形成——参数规模达到一万亿。部分公司认为开源万亿参数模型是资源浪费，因为没人能在本地运行如此庞大的模型，更好的方式是云端 API；另一些公司则将开源视为信仰和入场券。竞争格局：访问团观察到字节跳动 Seed 部门被全行业敬畏——因为豆包几乎垄断了 AI 用户流量，且他们的模型可以快速推广到海量用户，这是其他公司无法匹敌的渠道优势。DeepSeek 则是最受业界尊重的公司，越来越多地承担基础架构层工作：架构、效率、推理优化，以及华为协议栈适配。 AI 安全态度：访问团与年轻中国研究人员讨论 AGI，得到了几乎相同的答案：「AGI 就是 AI 可以取代我！」对方不只是不害怕，而是对「机器是否真的能超越其制造者」充满好奇。这与西方同行形成鲜明对比——西方许多研究人员深度关注 AI 安全及其社会影响，而中国研究人员更多把安全监管的责任交给政府。为什么这篇值得通读这篇文章的价值不在于任何单一数字，而在于跨越信息不对称的整体视角。中美双方对彼此 AI 生态的认知，经常被媒体叙事和地缘政治情绪扭曲，信息质量参差不齐。这次由技术分析师构成的访问团，提供了一份尽可能接近事实的直接观察。将这篇文章与精讲一（腾讯对 context 数据与问题寻找的战略判断）连读，可以得到更完整的中国 AI 发展图景：一篇是内部视角的战略逻辑，一篇是外部视角的生态素描，两者互补，共同描绘了一幅比任何单一来源都更立体的画面。 ## 速览如何写好 Skill：一份终极实战经验手册腾讯技术工程 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/b7742f5e) 腾讯工程师 jackjchou 整理的 Skill 编写完整方法论，从基础概念、结构设计，到高级技巧、安全规范与工程化评估，覆盖「从没写过 Skill」到「负责团队规范」的完整阅读路径。核心洞察：Skill 本质上是结构化的 Prompt Engineering，它把分散在人脑中的领域知识与流程经验，转化为 AI 可执行的指令集。文章详解 Anthropic 的三层渐进式加载机制（元数据常驻、SKILL.md 触发加载、附件按需引用），指出编写时的常见反模式，以及团队 Skill 规范化管理的要点。正在或计划用 Claude Code、CodeBuddy 等工具提升团队工程效率的读者，这份手册值得当作参考文档收藏。从客户经理到产品经理：Anthropic 销售员如何用 Claude Code 重建团队工作流 Claude Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/8af798c7) Anthropic 客户经理 Jared Sires 没有任何编程背景，却用 Claude Code 从零构建了 CLAFTS（Claude Drafts）——一个嵌入 Gmail 的邮件起草工具。他每天要处理 10-15 个客户电话，加上大量外发邮件，经常工作到晚上 9-10 点。CLAFTS 最终每周为他节省 10-15 小时，分享到内部 Slack 后，24 小时内整个销售团队开始使用。这个案例最有价值的地方，不只是「非技术人员也能用 AI 编程」，而是它展示了 AI 原生工具如何重塑角色定义——Jared 随后转型为 GTM 产品经理，专门识别销售组织的流程问题并构建 AI 解决方案，将自身对业务流程的理解与 Claude Code 的执行能力结合成新的职业路径。 Microsoft Build 主题演讲：智能体工程取代了编程 Cory House(@housecor) · 评分 90 · [阅读全文](https://www.bestblogs.dev/status/2061953686847557962) Cory House 在 X 上的一条观察引发广泛共鸣：微软长达 3.5 小时的 Build 主题演讲，全程没有提及 C#、.NET 或 TypeScript。这三个词曾长期是微软开发者大会的标配符号。这不是偶然的遗漏，而是一个关于技术叙事重心转移的清晰信号：编程语言让位于智能体工程，底层工具让位于能力与流程的整合。结合今日精讲一（姚顺雨对 AI 下半场范式转变的判断）和精讲二（Agent 执行基础设施的演进），这条推文的简短观察有了更丰富的诠释背景。首字延迟降低 3.6 倍，腾讯混元提出 Stem 稀疏注意力算法，长文推理加速新 SOTA 腾讯混元 · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/c1e21993) 腾讯混元发布 ICML 2026 收录论文 Stem，提出两个核心创新：Token 位置衰减（TPD）和输出感知度量（OAM）。TPD 的洞察来自因果注意力架构的递归特性——初始位置的 token 被所有后续层依赖，不应被稀疏化；OAM 则在传统注意力分数之外，引入 Value 向量携带的信息量作为 token 选择依据。两项创新组合，在仅用 25% 算力的条件下逼近稠密注意力的精度，配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍，已开源。这个成果对 Agent 工作流场景尤为重要——长上下文推理是 Agent 的高频场景，首字延迟直接影响系统响应体验。配合今日精讲一中 Hy3 的 495 步工作流能力，构成腾讯 AI 基础设施层面的完整技术布局。千符森林：在 3B 模型上运行一个多智能体经济系统 Hugging Face - Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/d15e5749) Build Small Hackathon 的一份工程实验报告：五个运行在 Qwen2.5-3B 上的林地生物 Agent，在微型经济中以石子为货币相互交易、闲聊、囤积与恐慌，最终涌现出价格泡沫、崩溃与财富分化。作者的核心结论：3B 参数级别的模型是可靠的格式生成器，但是不可靠的推理器——它可以稳定输出 JSON、遵循格式约束，但在真正需要策略推理的场景表现不稳定。另一个值得记录的洞察：「涌现出的戏剧性需要人为设计的稀缺性」——没有刻意设计的约束，多 Agent 经济系统不会自发产生有趣的动态。对于正在探索小模型多 Agent 场景的工程师，这份实地报告比理论分析更直观。 Google DeepMind 的 Text Diffusion：面向低延迟语言生成的新一代架构 AI Engineer · 评分 90 · [阅读全文](https://www.bestblogs.dev/video/93a33f8) Google DeepMind 研究员 Brendon Dillon 解释了 Text Diffusion 作为自回归 LLM 生成替代方向的工作原理与权衡。Text Diffusion 放弃因果约束，改用全双向注意力块，允许从噪声中并行解码整个序列，而非逐 token 生成。代价是单次前向计算量更大，但在特定延迟场景下有优势。Dillon 指出这项技术在批量吞吐上的代价，以及在实时、端侧和交互式产品中的应用潜力。这是值得长期追踪的架构方向，尤其适合对推理延迟有严格要求的工程师和研究者。 Anthropic: 当 AI 开始构建自己 AINLP · 评分 89 · [阅读全文](https://www.bestblogs.dev/article/c965ab9b) Anthropic Institute 递归自我改进进展报告的中文完整翻译，援引了一组内部数据：截至 2026 年 5 月，Anthropic 工程师合并进代码库的代码中超过 80% 由 Claude 编写，每位工程师每季度交付的代码量是 2021-2025 年期间的 8 倍。报告梳理了从「聊天机器人」到「自主智能体」的阶段演变，并讨论了三种关于递归自我改进的未来场景：巨大的科学与医疗收益、人类监督的重要性提升，以及潜在的失控风险。Anthropic 坦诚地公开了内部数据并直视这种趋势的潜在风险，这种做法本身就值得关注。适合对 AI 发展趋势有系统性思考需求的读者。 ## 补充阅读 [如何避免交付低质量的强化学习环境（附示例）](https://www.bestblogs.dev/article/cdd6597f) · Latent.Space · 评分 90 来自 Google Gemini RL 团队研究员的「RL Pet Peeves」系列，专注于环境质量问题：低质量的测试框架（Harness）会系统性地生成垃圾训练数据，破坏模型性能。文章提供了常见故障的分类、具体示例与修复方法，例如 mock API 缓存 bug 导致 Agent 学到错误策略、奖励函数只看测试通过而不看代码正确性等。适合正在构建 RL 训练基础设施的工程师，可与今日精讲二（Agent 执行环境安全）配合阅读。 [Google 发布 Gemma 4 12B：具备高级推理能力的开放模型](https://www.bestblogs.dev/status/2062203526588088452) · Google(@Google) · 评分 92 Google 发布最新开放模型 Gemma 4 12B，整合高级智能体推理、视觉与音频能力，采用统一架构（移除独立多模态编码器），设计在仅需 16GB VRAM 的本地硬件上运行，Apache 2.0 授权。这是开源模型生态的又一次能力跳跃，关注本地部署与开源社区的读者值得关注。 [Qwen3.7-Max 挑战谷歌争夺第三，AI 拯救鲸鱼，微调打破版权对齐](https://www.bestblogs.dev/article/2baac995) · The Batch · DeepLearning.AI · 评分 90 本期 The Batch 包含四条有价值的信息：阿里 Qwen3.7-Max 的市场竞争布局、AI 系统用于防止鲸鱼与船只相撞的公益案例、中国 LLM 访问的灰色市场现象，以及微调可能破坏版权对齐的研究结论。内容跨度广，适合希望保持 AI 领域综合情报视野的读者，尤其是最后一条关于微调与版权的发现值得关注。 [基于顶级 Agent（Claude Code）的 Harness 工程搭建式业务 Agent 评测方案](https://www.bestblogs.dev/article/fcbdb6fa) · 阿里云开发者 · 评分 90 阿里云工程师提出创新评测方案：以 Claude Code 作为 Harness 工程的搭建者和运行者，将评测逻辑从代码转化为 Prompt，实现对业务 Agent 的系统性、快速评测。核心矛盾是业务 Agent 迭代快（天级）但传统评测工程搭建慢（周级），这套「Agent 评测 Agent」的思路打破了这个瓶颈。适合正在为多 Agent 系统建立评测体系的工程师团队。 [分享 Claude Code 团队内部的 5 条工作原则](https://www.bestblogs.dev/article/c8916b4b) · 数字生命卡兹克 · 评分 89 解读 Claude Code 工程总监 Fiona Fung 的分享，提炼 AI 原生组织下规划、自动化、代码评审、团队角色与流程变革的 5 条工作原则。核心判断：在 Agent 时代，写代码已不再是工程瓶颈，瓶颈转移到了验证、代码评审与安全，所有上下游流程都需要重新设计。这套思路与今日多篇文章形成共鸣，是 AI 原生工程组织实践的一手观察。 [Skills 中的渐进式披露：大型智能体流程的最强模式](https://www.bestblogs.dev/status/2062529678590513475) · Daniel San(@dani_avila7) · 评分 90 解释在 Skills 中记录大型智能体流程的渐进式披露模式，分为启动（约 500 token 元数据常驻）、任务匹配（SKILL.md 触发加载）和深度执行（附件按需引用）三个阶段，通过按需加载将 token 消耗优化到最低。这是第一篇速览「如何写好 Skill」的工程补充，两篇配合阅读，可以对 Skill 设计的宏观原则与微观优化有更完整的认知。 ## 今日阅读路径时间有限时，建议按以下顺序优先阅读三篇：第一优先：科技爱好者周刊第 399 期——中美 AI 算力与生态的第一手比较，信息密度最高，跨领域读者都能获益。在中美信息隔离日趋严重的背景下，这类第一手比较材料极为稀缺。第二优先：汤道生姚顺雨对谈——腾讯首席 AI 科学家的战略陈述，与第一篇构成绝佳互文：前者是外部观察，后者是内部视角，两篇合读能拼出更完整的中国 AI 发展图景。他的「下半场才刚开始」与「context 是壁垒」两个判断，值得仔细推敲。第三优先：LangSmith Sandboxes——如果你是正在构建或使用 Agent 的工程师，这篇是当日最具工程价值的文章，直接回答「Agent 安全执行环境」这个已经变得迫切的工程命题，且给出了具体的工程参考框架，读完可以直接用于技术决策。如果还有余力，速览中的如何写好 Skill 和 Anthropic 递归自我改进两篇也是今日高质量内容：前者是可立即落地的实操手册，后者是 AI 发展长线叙事中难得的内部数据视角。

译姚顺雨在腾讯云AI大会上首次公开亮相，指出AI已进入下半场，核心从“怎么训练”转向“找好问题”，认为context是Agent时代关键壁垒，腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型：295B总参数、21B激活参数，首token延迟降低54%，可驱动最长495步Agent工作流。他还提出Co-Design理念，强调模型与产品深度协同，该模型以实用性为导向，不在榜单过度竞争。

ginobefun@hongming731 · 6月6日60

这个有意思

译今天 Y Combinator 发布了 Paxel：一款免费工具，可分析你的 Claude、Codex 和 Cursor 编码会话，并为你生成一份如何用 AI 构建的画像。它在 Docker 中本地运行，你的代码永远不会离开你的机器。试用地址：http://paxel.ycombinator.com 洪明评论说：“这个有意思。”

Tibo@thsottiaux · 6月6日64

Codex papercuts 📉 Codex adoption 📈

译今天 Codex 的生活质量更新从设置开始。你现在可以搜索 Codex 设置，结果按类别分组，无需浏览每个部分即可找到要更改的内容——这使设置和自定义更加便捷。Codex 小修补 📉，Codex 采用率 📈。

OpenAI Developers@OpenAIDevs · 6月6日19

Developers told us building with Codex feels like flying. Go behind the build of Time to Fly 📷

译开发者告诉我们，用Codex构建就像在飞翔。一探Time to Fly的构建过程📷

宝玉@dotey · 6月6日57

现在 Codex 的设置已经多到要靠搜索来解决了。但是作为一个成熟的 Agent，难道交互不应该是在 Chat 里面说一句：“Hey Codex，帮我修改一下 XX 设置”？

OpenAI Developers@OpenAIDevs · 6月6日58

Today’s Codex quality-of-life updates start in settings. You can now search Codex settings, with results grouped by category, so you can find what you want to change without scanning every section – this makes setup and customization easier.

译今日的 Codex 生活质量更新从设置开始。现在你可以搜索 Codex 设置，结果按类别分组，这样无需逐节浏览就能找到想要更改的项——这使设置和自定义更加便捷。

ChatGPT@ChatGPTapp · 6月6日54

Meet Hiroki-san (@tomiyasu16) who is running his farm in Japan with ChatGPT and Codex: https://chatgptpro.substack.com/p/hiroki-tomiyasu

译日本北海道农户Hiroki Tomiyasu（@tomiyasu16）从未学过农业、未继承土地，曾是公务员。他用ChatGPT和Codex自行构建工具运营100公顷农场：通过聊天APP远程控制温室通风口（ESP32板+电机驱动+Cloudflare Workers）；自动检测温度并开窗的机器人；卫星作物健康数据叠加农田地图；Airtable关联地块、任务、物料、传感器；从照片生成电控柜布线图。这些以前只有大型农企才能负担。

elvis@omarsar0 · 6月6日67

Neat little tool! Ran my AI Wrapped, expecting to be humbled. Top 1%. Nice! I use coding agent all day for everything. Try it with `npx standout`

译不错的小工具！跑了一下我的 AI Wrapped，本以为会被打击。前 1%。不错！我整天都用编程智能体做所有事。试试 `npx standout`

eric zakariasson@ericzakariasson · 6月6日71

design mode must know shortcuts: Toggle: ⌘⇧D Tab → next sibling Shift+Tab → prev sibling Enter → first child Shift+Enter → parent Add to chat: ⌘L Drag → box/scribble Shift+click → multi-select Alt+click → add to chat

译设计模式必知快捷键：切换：⌘⇧D Tab → 下一个同级元素 Shift+Tab → 上一个同级元素 Enter → 第一个子元素 Shift+Enter → 父元素添加到聊天：⌘L 拖拽 → 框选/涂鸦 Shift+点击 → 多选 Alt+点击 → 添加到聊天

宝玉@dotey · 6月6日65

Cursor 也支持在浏览器端标记 UI 了，这样修改 UI 起来就方便多了