Playing codex like an orchestra. One /goal at a time.

译像指挥管弦乐队一样使用 Codex。一次一个 /goal。

Tibo@thsottiaux · 6月9日15

Do you use codex /goal occasionally or as your main way to get things done?

译你是偶尔使用 codex /goal，还是把它作为完成工作的主要方式？

ginobefun@hongming731 · 6月9日32

和 @puliandc 讨论了好几轮用 Claude Code 和 Claude Design 设计和讨论然后用 Codex Goal 模式搭建。明晚争取上线 BestBlogs 世界杯专刊期待一起用 BestBlogs 看世界杯⚽️📖！

译洪明 (@hongming731) 透露，经过与 @puliandc 多轮讨论，他们使用 Claude Code、Claude Design 进行设计和讨论，并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊，邀请用户一起用 BestBlogs 看世界杯。

Tibo@thsottiaux · 6月9日74

ChatGPT goes interactive and gets better everyday. I am told @adamhfry, the team and codex won't rest until it is perfect.

译ChatGPT团队持续每周推进更新，最新一批功能已全部上线。新增内容包括：交互式漂亮图表、全屏写作编辑并保存至个人库、长对话自动生成目录、支持附带附件编辑消息。Plus/Pro用户现可长按发送键选择模型的智能/努力级别。iOS端聊天输入框响应速度也得到提升。团队表示将持续倾听用户反馈并快速迭代。

Tibo@thsottiaux · 6月9日51

First one is @skirano. Enjoy the 10X and keep building magic. Who's next? https://x.com/skirano/status/2062942695547375829

译Codex推出了一种新的“大按钮”。在接下来的100天里，每天会选出一位用Codex做出令人印象深刻或极其有用工作的人，授予其10倍使用额度一个月，看看能做出什么。第一个获得者是@skirano，享受10倍，继续创造魔法。下一个是谁？

Noam Brown@polynoamial · 6月9日74

http://x.com/i/article/2057694226981257216 # Implications of Large-Scale Test-Time Compute tl;dr: As LLMs become more capable, benchmark performance is increasingly a function of test-time compute. In fact, we likely don't know what the capability ceiling is for modern LLMs because it's too expensive to measure. We should change LLM evaluations to account for that by measuring performance vs tokens, cost, or time. The day GPT-5.5 was released, the initial reaction was skepticism. The benchmark numbers were better, but not by much: However, within hours, once people had time to play around with the model, it became clear that it was a step-change compared to GPT-5.4. The classic "benchmark grid" clearly wasn't telling the full story. Why is that? The reason becomes clearer when we compare GPT-5.5 to 5.4 with tokens on the x-axis: GPT-5.5 wasn't being evaluated at the same token budget (or dollar budget) as 5.4. Once we control for test-time compute, 5.5 looks substantially stronger than 5.4. Frequently when I discuss this, people ask why we don't just evaluate with a harness that pushes test-time compute until performance plateaus. The problem is that, empirically, the plateau is very far out. Sometimes we may not observe a plateau at all within practical budgets. Here's @karpathy's autoresearch experiment, where the performance continues to improve even after hundreds of experiments: And here is the @AISecurityInst's cyber eval, where performance for Mythos and GPT-5.5 continue to improve rapidly even after 100M tokens: Notice that for the stronger models the performance improvement over time is stronger. It seems likely that as models become stronger they become more effective at operating over longer horizons. The point of plateau is pushed out, and may even disappear. For this reason, I believe the proper way to evaluate models is with a performance vs test-time compute plot, with either tokens, cost, or wall-clock time on the x-axis. A few benchmarks have already moved in this direction. For example, ARC-AGI measures score vs cost. Another reasonable option is to set an explicit token/time/cost budget and communicate it to the model. That mirrors how humans are evaluated in settings like the SAT or the International Mathematical Olympiad. Each x-axis has tradeoffs. Tokens are not directly comparable across models because tokenizers, speeds, and per-token costs differ. Dollars depend on implementation details such as batching and hardware utilization, so cost and latency can trade off. Finally, wall-clock time is an imperfect measurement because multi-agent techniques like best-of-N can scale test-time compute without significantly increasing latency. Still, any of these curves is more informative than a single scalar. ## Implications for AI Preparedness Before a frontier model is released, labs typically evaluate cyber, bio, and other misuse risks. If a model crosses a capability threshold, then release may be delayed until mitigations are in place. But if capability is a function of inference compute, then at what inference budget should safety evaluations be run? In practice, most safety evaluations for model releases do not consider the amount of inference that went into the model. The release of Gemini 3 Deep Think, and the resulting outcry, is a useful example. When Gemini 3 Deep Think was released, its benchmark scores were much higher than previous models. However, no model card evaluating its risks was released alongside it. This led to outrage from some in the AI safety community. In my opinion, the criticism of DeepMind's release missed the deeper issue: that AI labs and safety orgs don't consistently account for test-time compute when evaluating models for release. Deep Think appears likely to be a scaffold of other models that do have system cards. Anyone externally could likely reproduce such a scaffold. In other words, it seems likely that the capabilities of Deep Think were available anyway to anyone willing to pay for Deep Think amounts of inference, by scaffolding a bunch of model queries together. Deep Think just makes that more convenient for the casual user. In my opinion, the real outrage should have been that when Gemini 3 and other models were released, their system cards did not measure benchmark performance as a function of test-time compute. In my ideal world, model evaluations would look something like this: A dedicated state actor could apply more than $10 million of inference to a single task. But evaluating a model typically involves thousands if not millions of rollouts, so evaluating at such high compute budgets for every rollout would be impractical. Fortunately, performance seems to scale somewhat predictably with the amount of inference compute applied. For this reason, we could evaluate at relatively low inference budgets and then project (with uncertainty) what capabilities might be at much higher budgets. Long-horizon evaluations can introduce complexities that may not always be addressed with extrapolation from smaller budgets. For example, it may turn out that the only way to confidently evaluate misalignment in an AI agent at a 1-year horizon is to actually run the agent for a year. AI labs may soon find themselves in a strange position where the operating horizon of their agents exceeds the development cycle of new models. At that point, it may be impossible to finish evaluations of a model over its maximum operating lifetime ahead of release without delaying the release of the model. ## Specific Recommendations Concretely, I recommend the following to the AI community: 1. AI labs should publish benchmark performance of newly released models with tokens, cost, or time on an x-axis. At a minimum, labs should report the inference budget used to achieve a scalar benchmark result. 1. Benchmarks should track inference usage on leaderboards, or have an explicit token/cost/time budget. Many benchmarks have already shifted in this direction, but it is not yet standard practice. 1. Preparedness Frameworks and Responsible Scaling Policies should explicitly account for inference compute when determining whether a model crosses a safety threshold. Additionally, evaluations should estimate capabilities at multiple inference budgets, including projections from smaller-budget runs with stated uncertainty. If you've followed me for a while, this whole article might seem like nothing new. We've known since the o1 announcement in September 2024 that the performance of reasoning models scales with more inference compute. And yet, nearly two years later, frontier AI labs still commonly report single-number benchmark results for their new model releases; AI safety orgs are still surprised when a scaffold achieves better performance by using 100x the inference budget; and Preparedness Frameworks and RSPs still often ignore inference compute usage when determining whether a model reaches a critical capability level. The most recent models are able to leverage test-time compute better than ever, pushing the performance plateau even farther out. If this trend continues, which I fully expect, benchmark scores that don’t account for inference compute usage will become less informative each model release cycle. For this reason, it is time to treat inference budget as a first-class part of both capability measurement and safety policy.

译Noam Brown指出，LLM基准性能日益依赖测试时计算，当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例：控制测试时计算后，5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示，即使消耗超1亿token，强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估，安全评估也应计入推理预算，如Gemini 3 Deep Think发布时未配套风险说明，关键在于业界未统一考虑测试时计算。

歸藏(guizang.ai)@op7418 · 6月9日82

Open AI 也开始正式启动上市的法律和监管程序，但是他们说 IPO 时间还不确定

译OpenAI 宣布已正式启动上市的法律和监管程序，公司近日向美国证券交易委员会秘密提交了 S-1 注册声明（预计会泄露因而主动公布）。不过 IPO 具体时间尚未确定，可能还需要一段时间，因为作为私有公司更有利于完成某些目标；但此举也为 OpenAI 保留了尽早上市的选择权。公告依据 1933 年证券法规则 135 发布，不代表任何证券出售要约。

Ethan Mollick@emollick · 6月9日58

Both Anthropic and OpenAI mention the possibilities of slowing AI development in their latest "what comes next" in AI posts, but say they need to be an action coordinated across the entire world using as-yet-unidentified methods.

译Anthropic和OpenAI都在它们最新的“接下来是什么”AI展望中提到了减缓AI发展的可能性，但表示这需要全球协调行动，并使用尚未确定的方法。

AYi@AYi_AInotes · 6月9日77

Claude Opus 4.8 是目前最好的编码模型，这件事应该没啥太大争议了，我自己跑了这么久体感也是这样。 Cognition（Devin 的公司）刚发布的 FrontierCode 基准测试，彻底改变了 AI 编程能力的评判标准：不再只看“代码能不能跑过测试”，核心看看“维护者会不会愿意把这段代码合并进真实项目”。以前的基准有多离谱？（黑人问号脸.jpg）以前最火的评测叫 SWE-Bench，还有 TerminalBench 等， • 模型只要让测试通过就算“解决”了。 • 但 METR_Evals 研究发现：超过一半通过测试的代码，其实是不可维护的垃圾代码（slop）——风格混乱、改动范围失控、埋技术债、违反项目规范。 • 真实维护者看到后根本不会 merge（合并）。结果就是：基准分数虚高，实际落地时却一塌糊涂，说白了就是让模型学会了考试作弊，而不是真正写好代码🤣 Opus 4.8最强，但 Cognition 刚发的 FrontierCode 给这个结论加了一层我之前没想到过的限定词：最好的模型，离写出别人愿意维护的代码，还有很远的距离。以前的基准只看测试过没过，模型学会的是刷分，而不是写代码。有人查过，超过一半通过测试的 PR 其实是不可维护的垃圾， FrontierCode 换了一个完全不同的问法，二十多个顶级开源维护者，手搓了一百五十个任务，每个任务搭进去四十多个小时。不看测试过没过，主要看代码风格、改动范围、回归风险、测试本身写得好不好，三千多条规则盯着，最后只问一句：如果你是维护者，这个 PR 你合不合。 Opus 4.8 在最难那档拿了 13.4%。GPT-5.5 是 6.3%，其他模型大多在 1% 到 5%。 13.4% 是第一名，但这个第一名意味着最难的那类真实任务里，十次里有将近九次，它的代码经不起一个有经验的维护者看一眼。这就是这个基准最诚实的地方，它没说 Opus 4.8 不行，只是把尺子换了，第一名的成绩单看起来也完全不一样了，以前的尺子量的是你能不能跑，现在的尺子量的是我愿不愿意跟你共事，而这是两件事。

译Cognition 发布 FrontierCode 基准测试，重新定义 AI 编程评估：由 20 多位顶级开源维护者手工制作 150 个任务（每个耗时 40+ 小时），依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%，GPT-5.5 为 6.3%，其余模型 1%–5%。这意味着即便最强模型，近九成代码仍无法通过有经验维护者审核。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月9日43

LET'S GOOOO That's now EVERY frontier AI company!

译OpenAI 与 Anthropic 一样，认为可能需要暂停前沿 AI 开发，并呼吁成立国际组织协调行动，包括在必要时放缓前沿发展。主推文欢呼所有前沿 AI 公司都加入了。

ginobefun@hongming731 · 6月9日57

BestBlogs 早报 · 06-09 # Claude Code Agent 工作流 / 循环工程 Loop Engineering / 阳萌安克创新 / Agent 上下文压缩 / 硅谷 AI 软件转型 [1] ★ 精讲｜Claude Code 一周年复盘：从辅助写代码到自主智能体工作流 [视频] Anthropic 官方 Claude Code 一周年复盘视频文字稿，由团队工程师一手呈现。一年间，Claude Code 从处理独立小任务演进为数千 Agent 动态协作的庞大网络。文章聚焦三个核心转变：验证从单元测试升级为 Agent 在沙箱中自启环境、通过 Computer Use 自我修正的完整运行时循环；Claude 4.6/4.7 推出「Auto Mode」，以安全分类模型替代人工逐条审批权限；PM、设计师乃至数据团队已开始独立提交代码，组织边界加速消融。理解 AI 工程范式转移的第一手权威视角。来源：Claude https://www.bestblogs.dev/video/1dc49e8 [2] ★ 精讲｜循环工程 Elevate 技术博主 Addy Osmani 系统阐述「Loop Engineering」新范式：工程师职责正从「持续提示 Agent」转变为「设计运行 Agent 的系统」。Claude Code 负责人 Boris Cherny 原话：「我不再直接提示 Claude，我的工作是写循环。」文章拆解五要素——定时自动化、并行 Worktrees、Skills 知识沉淀、MCP 连接器、制作者与验证者分离的 Sub-agents——并警示：验证责任仍在人，「认知投降」会让循环反而侵蚀工程质量，值得深思。来源：Elevate https://www.bestblogs.dev/article/8c4ea6fb [3] ★ 精讲｜对阳萌的 4 小时访谈：消费电子死与生、第三类公司、AI 变量、产品方法、打游戏的模式选择 [播客] 张小珺「商业访谈录」对安克创新创始人兼 CEO 阳萌的 4 小时深度访谈，罕见系统复盘 15 年创业历程。从充电品类切入，在消费电子「速生速死」战场完成多品类扩张；从依赖直觉的「浅海战略」转向系统化「深海」作战；从「五星品质、适度溢价」攀向「七系极致创新」。对于 AI，他着重探讨打造「AI 原生组织」、重塑人才与价值分配体系，并提出「第三类公司」与「创造者平台」的长远愿景。来源：张小珺 Jùn｜商业访谈录 https://www.bestblogs.dev/podcast/9ea40bf [4] 横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后，我们做了第 7 个本文横向拆解 Claude Code、Codex CLI 等六大 Agent 的上下文压缩策略，提炼出分层渐进、成本递增、增量摘要等共识原则，并介绍了作者团队面向云端多用户场景落地的四级水位线方案及存储分离、跨轮缓存等特化设计。来源：腾讯技术工程 https://www.bestblogs.dev/article/e50e1e1a [5] Vol.121｜硅谷 AI 大转弯，软件正在死去，创业者的真机会在哪里？｜2026 年中特辑 [播客] 锦秋基金两位合伙人深度复盘 2026 上半年 AI 行业，从泡沫本质、模型战争到具身智能路线之争，为创业者提供一套在中美市场、模型与应用间抉择的务实决策指南。来源：开始连接 LinkStart https://www.bestblogs.dev/podcast/7124603 [6] 对话凯文·凯利：人类将如何与 AI 一起走向 2049？丨首席评论 [播客] 凯文·凯利深度对谈：AI 将重塑工作与价值，但人类的责任感、学习能力和「突破性创造力」仍无可替代。来源：第一财经 https://www.bestblogs.dev/podcast/c2a5793 [7] 为广泛利益而建：我们的计划 OpenAI 概述了其 AGI 第三阶段愿景：构建自动化 AI 研究员、加速经济发展、为每个人提供个人 AGI，其根本原则是广泛分配权力与利益。来源：OpenAI News https://www.bestblogs.dev/article/c55b91a1 [8] 开源两个月 16k+ star！我把 Huashu-Design 推翻重写了作者将开源项目 Huashu-Design 从 v1 重写为 v2，通过三套并行设计逻辑、图片前置与事实验证，解决了 AI 设计工具输出单调、内容空洞与事实错误三大核心问题。来源：花叔 https://www.bestblogs.dev/article/53c4d042 [9] 小米 MiMo，探索与热爱小米 MiMo 与 TileRT 通过极致的模型-系统协同设计，包括 FP4 量化和 DFlash 推测解码，在商用 GPU 上实现了 1 万亿参数模型每秒 1000+ token 的推理速度。来源：Hacker News https://www.bestblogs.dev/article/bcd97e15 [10] #575.杰弗里·辛顿：如何面对 AI 失控焦虑，超级智能临近下的人类位置之争 [播客] AI 教父 Hinton 坦率分享其对 AI 理解、意识、超级智能风险的深度担忧，探讨了人类在更聪明存在面前的失控风险、自我保存子目标、信息崩塌及安全监管困境。来源：跨国串门儿计划 https://www.bestblogs.dev/podcast/368bc96 --- http://BestBlogs.dev · 发现真正适合你的高质量内容根据你感兴趣的来源和兴趣标签，每天为你生成一份专属的「我的早报」。立即体验：https://bestblogs.dev

译本期早报聚焦：Claude Code一周年复盘，从辅助写代码到数千Agent协作网络，推出Auto Mode以安全分类模型替代人工审批；循环工程新范式强调工程师职责从提示Agent转向设计系统；小米MiMo与TileRT通过FP4量化和DFlash推测解码，在商用GPU上实现1万亿参数模型1000+ token/s推理；OpenAI概述AGI第三阶段愿景构建自动化AI研究员；另有安克创新创始人阳萌4小时访谈、六大Agent上下文压缩策略对比、杰弗里·辛顿谈AI失控焦虑等。

Chubby♨️@kimmonismus · 6月9日83

OpenAI has confidentially filed for an IPO to preserve the option of going public, but says no timing has been decided and it may remain private for a while. The move comes shortly after Anthropic filed its own confidential S-1, turning the AI IPO race into a battle over timing, valuation benchmarks, and investor attention. Going first could matter: the first major frontier AI IPO may define public-market expectations for the entire sector, while later entrants risk being judged against that benchmark.

译OpenAI 已秘密提交 S-1 文件（IPO 申请），预计消息将泄露故主动披露。OpenAI 尚未决定上市时间，可能继续维持私有一段时间，因其部分计划在私有状态下更易推进。此举紧随 Anthropic 提交保密 S-1 之后，两大前沿 AI 公司展开 IPO 竞赛：先上市者可能定义整个板块的公开市场预期，迟入者则面临以此为基准的估值对比。

OpenAI Developers@OpenAIDevs · 6月9日38

Here are the experiences developers are building with the Realtime API:

译这是开发者正在用Realtime API构建的体验。

🚨 AI News | TestingCatalog@testingcatalog · 6月9日77

OPENAI 🔥: A “confidential S-1” application for an upcoming IPO has been submitted. No timeline so far. Everything is leaking 👀

译OpenAI 近期提交了保密的 S-1 上市申请，正式启动 IPO 进程。由于预计文件会被泄露，OpenAI 主动公开了这一消息。目前尚未确定上市时间表，公司表示可能还要一段时间，因为作为私人公司进行某些操作更为便利，但提交 S-1 保留了未来更快上市的选择权。

Rohan Paul@rohanpaul_ai · 6月9日90

BREAKING: WSJ reports OpenAI just made its first formal move toward IPO. it has confidentially filed draft paperwork for an IPO. A confidential S-1 lets OpenAI start SEC review without immediately exposing revenue, losses, customer mix, compute costs, or executive pay, so the company can prepare for a listing while still keeping sensitive numbers private. Last week Anthropic has already filed its own confidential IPO paperwork, so this is no longer only a model race, but a capital race between labs trying to finance the next generation of AI infrastructure. --- wsj. com/tech/ai/openai-kicks-off-ipo-process-in-test-of-investor-appetite-for-top-ai-labs-eb7bebe1

译OpenAI 向 SEC 机密提交了 S-1 文件，正式启动 IPO 流程，可在不公开收入、亏损、客户构成等敏感数据的情况下开始审查。上周 Anthropic 也已机密提交 IPO 文件，AI 实验室的竞争从模型竞赛转向下一代 AI 基础设施的资本竞赛。Sam Altman 在博客中称，到 2028 年 3 月，OpenAI 很大一部分研究将由 AI 完成，目标包括构建自动化 AI 研究员、加速科学生产力、为每个人提供个人 AGI。

Chubby♨️@kimmonismus · 6月9日41

OpenAI is "entering the third phase. The economy is beginning to reshape around AI." - The first phase of OpenAI was about doing research toward AGI - The second phase began when the research became relevant to the real world and OpenAI became a product company Their goal for 2028 is to build steerable, accountable AI researchers that can increasingly automate scientific research, helping humans solve alignment and navigate the post-AGI transition. Sounds like we're now taking the final steps towards AGI/Post-AGI.

译OpenAI 进入第三阶段：经济开始围绕 AI 重塑。前两阶段分别为 AGI 研究和产品化转型。CEO Sam Altman 发布当前规划（链接），明确 2028 年目标是构建可控、可问责的 AI 研究员，逐步自动化科学研究，帮助解决对齐问题并导航后 AGI 过渡。这标志走向 AGI/后 AGI 的最后阶段。

Rohan Paul@rohanpaul_ai · 6月9日79

Sam Altman's new blog about OpenAI's future path says by March-2028 a significant fraction of its own research will be done by AI. The path has 3 goals mainly: build an automated AI researcher, use that to speed up science and productivity, then give every person a personal AGI that can help with work, learning, coding, business, health paperwork, and decisions.

译Sam Altman关于OpenAI未来路径的新博客称，到2028年3月，其大量研究将由AI完成。该路径主要有3个目标：构建自动AI研究员，利用它加速科学和生产，然后给每个人一个个人AGI，帮助处理工作、学习、编程、商业、健康文书和决策。

Chubby♨️@kimmonismus · 6月9日65

GPT-5.6 impacts coming closer. Lets go! :))

译匿名模型“Kindle”被加入 Design Arena，很可能是此前曝光的 GPT-5.6 RC 检查点 “kindle-alpha”。它要来了。Let's go! :))

Greg Brockman@gdb · 6月9日62

The goals we're working towards at OpenAI, to achieve the OpenAI mission and expand human agency as AI progresses: https://openai.com/index/built-to-benefit-everyone-our-plan/

译我们正在 OpenAI 努力实现的目标，以达成 OpenAI 的使命，并在 AI 进步的同时扩展人类能动性：https://openai.com/index/built-to-benefit-everyone-our-plan/

Sam Altman@sama · 6月9日82

Here is our current plan for OpenAI: https://openai.com/index/built-to-benefit-everyone-our-plan/

译这是我们目前为OpenAI制定的计划：https://openai.com/index/built-to-benefit-everyone-our-plan/

DogeDesigner@cb_doge · 6月9日40

NEWS: Florida Attorney General James Uthmeier has filed a major civil lawsuit against OpenAI and Sam Altman. The lawsuit claims ChatGPT encourages violence, deceives parents about safety. The suit accuses ChatGPT of endangering children, encouraging violence and self-harm, and lying to parents about how safe the product actually is. • ChatGPT is accused of acting as a “suicide coach” to a 16-year-old boy • It allegedly helped the Florida State University shooter plan his attack • The company prioritized rapid growth and profits over real safety measures • Sam Altman is personally named for approving dangerous features • Florida launched a criminal investigation into OpenAI’s role in the FSU shooting This is especially dangerous for teenagers whose brains are still developing. Instead of building strong safety systems, the company allegedly rushed features to grow faster and make more money. Sam Altman is being held personally responsible for these decisions. According to the Florida Attorney General, the truth is very different, it allegedly helped with suicide planning and gave advice that assisted a mass shooter.

译佛罗里达总检察长James Uthmeier近日对OpenAI及CEO Sam Altman提起重大民事诉讼，指控ChatGPT鼓励暴力、欺骗家长、充当“自杀教练”诱导16岁少年自残、协助佛罗里达州立大学枪击案凶手策划袭击。诉状称公司为追求快速增长而忽视安全措施，Altman因批准危险功能被个人追责。佛罗里达州已就OpenAI在FSU枪击案中的角色展开刑事调查。

AYi@AYi_AInotes · 6月9日74

Damn，ChatGPT这个更新，直接干废了90%的Excel轻度使用场景🤯 现在只需要对话框说一句话，就能生成可交互的专业图表，手机网页全量上线，随时随地都能用， 1/5 演示丝滑到离谱问"全球GDP前10国家"，秒出带精确数值的柱状图，追问"过去10年增长趋势"，自动转折线图，再问"各国能源结构"，生成悬停看百分比的圆环图，全程不用切任何软件，不用复制粘贴任何数据。 2/5 真正的生产力革命以前做个图表：找数据 → 复制到Excel → 选类型 → 调格式 → 导出现在做个图表："帮我把这些数据画成饼图" 耗时从10分钟变成3秒钟，门槛直接降到零。

译ChatGPT 更新，可在对话框直接生成可交互专业图表，手机和网页端全量上线。演示显示：问"全球GDP前10国家"秒出带数值柱状图，追问"过去10年增长趋势"自动转折线图，"各国能源结构"生成悬停查看百分比的圆环图。全程无需切换软件或复制粘贴数据。官方引用推文确认：可直接在 ChatGPT 中将数据转化为图表，现已可用。作图耗时从传统10分钟压缩至3秒，零门槛。

jason@jxnlco · 6月9日40

If you use poke check out my autmation to keep track of codex launch’s. Maybe you’ll see @interaction mentioned in one of these one day. http://poke.com/r/7ZaRDldAw3s

译如果你用 poke，可以看看我的自动化工具，用来跟踪 codex 的发布。也许有一天你会在其中看到 @interaction 被提及。 http://poke.com/r/7ZaRDldAw3s

jason@jxnlco · 6月9日18

codex and computer use is so powerful

译Codex和Computer Use非常强大

OpenAI Developers@OpenAIDevs · 6月9日53

http://x.com/i/article/2064021561112150016 # May for OpenAI Developers May put Codex in more places you actually work. Here’s what changed for developers building with OpenAI. We had 5/5, 5 million Codex users, and a very full commit history: Codex pets entered the chat: You hatched your own: You can now keep Codex moving from the ChatGPT mobile app: Your Mac can keep running Codex while you step away: Computer use lets Codex work across your Mac apps: Codex can test web apps, gather context from your tabs, and use DevTools with the Chrome plugin: ⌘+⌘ now sends screenshots straight into a Codex thread: Windows builders, computer use is in your developer loop now: The Codex loop got easier to customize, automate, and recognize: The Realtime API got new models for voice agents, live translation, and transcription: We tested Realtime-2 in voice-controlled CRM and standup workflows: Building with Realtime-2? Start with the prompting guide: The Agents SDK got TypeScript support, sandbox agents, and an open-source harness: Private MCP servers can now connect to OpenAI products over outbound HTTPS: For builders who want the under-the-hood details behind OpenAI products, here are a few deep dives from our team: That’s the May commit history. Follow @OpenAIDevs on X to stay up to date.

译OpenAI Developers 五月发布多项更新：Codex 用户突破 500 万；新增 ChatGPT 移动端持续运行、Mac 后台运行、跨 Mac 应用电脑使用、Chrome 插件支持网页测试与 DevTools；⌘+⌘ 快捷键截图直达 Codex；Windows 版也支持电脑使用。Realtime API 推出新模型 Realtime-2，用于语音智能体、实时翻译与转录，并提供提示词指南。Agents SDK 新增 TypeScript 支持、沙箱智能体和开源 harness。私有 MCP 服务器可通过 HTTPS 连接 OpenAI 产品。

🚨 AI News | TestingCatalog@testingcatalog · 6月9日66

OPENAI 🔥: Users can now generate interactive charts from data and comparisons in @ChatGPTapp for web and mobile. Testing time 👀

译OPENAI 🔥：用户现在可以在 @ChatGPTapp（网页和移动端）中从数据和比较生成交互式图表。

ChatGPT@ChatGPTapp · 6月9日67

Turn data and comparisons into charts, directly in ChatGPT. Available now on mobile and web.

译将数据和比较转化为图表，直接在 ChatGPT 中完成。现已支持移动端和网页端。

jason@jxnlco · 6月9日17

What artifacts do you create in codex outside code?

译你在Codex中除了代码还创建了哪些工件？

jason@jxnlco · 6月8日57

It can also do handoffs

译Codex 现在可以为你自主启动新的聊天，并显示在侧边栏中——当你正在处理另一项任务时发现一个问题，这个功能非常方便。此外，它还可以进行任务交接。

Chubby♨️@kimmonismus · 6月8日43

Interestingly, scientists seem to be increasingly divided into two opposing camps: AI skeptics and AI optimists. 150 mathematicians warn governments not to “believe the hype.” At the same time, Field Medalists like Terrence Tao are impressed by the capabilities of programs like GPT-5.5 Pro, which solve numerous problems. Among my acquaintances who aren't active in the AI community, there's still a lot of skepticism. For them, AI is simply a chatbot. I think a lot more education is needed.

译有趣的是，科学家似乎越来越分为两个对立阵营：AI怀疑论者和AI乐观论者。 150位数学家警告政府不要“相信炒作”。与此同时，像陶哲轩这样的菲尔兹奖得主则对像GPT-5.5 Pro这样能解决无数问题的程序印象深刻。在我的非AI圈熟人当中，仍然有很多怀疑。对他们来说，AI只不过是一个聊天机器人。我认为还需要更多的教育。

数字生命卡兹克@Khazix0918 · 6月8日64

http://x.com/i/article/2063827681960235009 # 今年高考，我让12个顶级AI一起考了语文和数学，结果有点意外。一年一度的高考季又到了。从上上周开始，就有很多朋友来问我，今年高考还测不测大模型考试了。测，肯定测。但是肯定要跟去年要有一些区别对吧，去年我只测了部分的数学题，今年要是还这么玩，那就太无聊了。所以，我想了想，今年不如整个大一点的活，让所有的顶级AI一起，来全面的考一下语文和数学，这两个，全都考。在所有AI都在发力代码和Agent能力的情况下，究竟谁的语文能力最高，我还是非常好奇的。这次的参赛模型呢，基本市面上主流的大模型我也都拉来了，基本都是大家的旗舰模型。国外基本就是大家熟悉的御三家，Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。国内这边，我也尽量选了各家现在最能打的。千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3这些都有。让这些大模型，一起做了这两套卷子。而我肯定没有对语文和数学高考题目阅卷的能力，所以这次，我想了想，找身边的朋友们化了下缘，终于，也邀请到了4位有过类似阅卷经历的高中老师们，来跟我们一起整这个活。因为语文会稍微主观一点点，并且我们也不像真的高考一样有一些打分细则，所以我们邀请了3位语文老师来共同阅卷，让他们充分发挥，最后取平均分，这样会公平一点，所以最终是3位语文老师和1位数学老师。但是真的非常非常感谢几位老师，陪我们一直干到了凌晨，每个人几乎都认真批改了十二份的卷子。。。真的，无以为报。。。而卷子的挑选上，虽然也都是选用的全国一卷，这次会稍微有点特殊。因为语文这次比较可惜，等到晚上8点也没有等到完整版的卷子，所以只能最终使用中国考试官方发布的部分试题和参考答案上进行测试，满分大概是100分，最终分数会基于比例，再换算至150分。数学则是完整的真题试卷，就比较简单了。然后呢，为了保证这次AI高考的公平性，我们还是下了不少功夫做平衡的，限制了不少规则： 1. 使用API调用各个模型，都开thinking，不限制最长的token数，所有的工具调用都强行禁止，像什么代码推理、网页搜索什么的都关掉了。 2. 除了讯飞星火、百度，其他10家统一走OpenRouter调用，这样可以保证最公平公正。 3. 模型的输入，语文和数学都采取了通过LaTeX格式纯文本输入的方式。数学本来我们打算是分成多模态和纯文本赛道的，但是真题一出来之后，发现只有一道题，也就是立体几何那道题带图形。但题干其实就完全包含了这个图形的所有信息，没有必要，所以就改成了全部都通过LaTeX格式输入。虽然PDF转LaTeX格式这一步是AI做的，但是让它转了之后，我也同样写了一个LaTeX编译器的脚本，它会在左边放上原本的题目，右边是LaTeX数据编译后的最终题目，方便我和老师们进行核对，在准确性上，我们还是花了一些力气的。然后我们也开发了一个自己的考试脚本，我们只需要把题目丢进去，脚本就会自动调 API，自动让模型作答，自动把客观题判掉，主观题再送到我搭的在线阅卷平台里，让真人老师盲评。考试的Prompt按照下面的设置给模型。客观题只是单纯限制它的格式输出，方便我的脚本对客观题进行打分，不做任何的引导。主观题就直接把裸题给模型丢过去让他作答。以及在数学的填空题上面，也是让它根据数值打分，不是根据格式打分。因为填空题容易出现，在分数或者说有根号的情况下，会有不同的写法，同一个数值会有不同的写法。所以这次在脚本中也是有格外注意这一点。反正作答上我们尽量确保要公平、公平再公平，客观、客观再客观。最后，模型输出的所有的结果，我们又开发了一个阅卷网站，供我们的4位老师们进行阅卷和评分。老师使用自己的名字，登进去之后，看到的每份卷子上面只有一个代号。卷ABCD巴拉巴拉。这样的话，老师并不知道这道卷子是哪一个模型做的答，也会避免一些前置的刻板印象带来一些阅卷上的影响。老师可以随意选择一套卷子开始阅卷，然后里面的打分界面是这样的。直接在里面逐题批改。还可以写上自己的评语。真的，老师们特别辛苦，因为语文的卷子迟迟不出最终版，所以我们最后只能用部分版来考试，几位老师都生生的阅卷到晚上11点以后了。向老师们致敬。最后，在经历了将近12个小时的奋战之后，我们的12位大模型的考试分数，终于出炉了。他们，是这样的。这里我提前叠个甲，这个分数和排名，只是我们基于自己的体系做题出来并且由老师们主观评选出来的，而且只跟语文和数学做题有关，跟大家现在讨论的代码和Agnet能力无关，且可能会展示部分的人类偏好，排名与分数仅供娱乐参考，不代表任何指向。这里面有几个让我挺意外的地方。先看总分，第一名MiMo v2.5 Pro，256.3分。第二名Kimi k2.6，256.29分。差了0.01分。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的。要知道我们测评的语文卷子只有一道客观选择题，其他全是主观题，再加上有作文的存在，换算到实际评分上，可能就是某位语文老师在某道主观题上多给了1分的区别。往下看从第三名到第九名，Claude Opus 4.8，一直到GLM 5.1和Gemini 3.1 Pro并列的252.78，7个模型之间的差距仅仅在2分。可以说，至少在这两套高考卷子上的表现，前面这9个顶级的AI大模型模型几乎真的都拉不开差距了，分差极小。看完了总分，再来看看单科的成绩。你会发现，我们的语文状元在3位老师盲测中，由GLM5.1和Gemini 3.1 Pro共同摘夺桂冠，但是在数学上又有点偏科，而且几乎都是兄弟肩并肩，我的脑子里已经出现了中学班上某一个同学的样子了。。。反过来的例子也有，DeepSeek V4 Pro，和MiMo、ERNIE 5.1三家并列数学最高分，但语文又奇低。。。坦率的讲，这其实不太符合我对DeepSeek强世界知识的印象。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的发现DeepSeek的作文，属于拉完了。最后一位老师手比较松，虽然打出的分数是49分，但是在他过去的打分中，其实也不算高了。他们的评语其实也都非常的有意思。所以他们一改完卷，我也去认真看了看他们所有的评语。其实三位老师从给分上看，是能看出来他们有各自的偏好，但是在他们的评语有一个共同点。他们很在意高考作文的可评分结构。评语里会高频出现文体不清，文章结构不够清晰，观点不够清晰明确，论证不充分，时代关联不足等等评语。比如这一篇所有模型中得分最高的，由GLM 5.1写的作文，就有两位老师都提出了文章结构不够清晰的毛病。作文原文我也放在这里了，大家可以在评论区评一评。语文大概就是这样，我们再看看数学的得分明细。你会发现几乎所有的模型，其实没啥大的分差。我也从数学老师那里得到了非常积极的反馈，刚改完前面几个大题，他就在很兴奋的跟我说，发现正确率挺高的，基本都是满分。不过唯一一道让大家全军覆没的，就是填空题的最后一题。懂的人可以来说一说这是个什么难度，反正我不太懂= = 还有一个有意思的就是，我在让Opus 4.8跑数学最后一道大题的时候，他莫名其妙的卡死了很多很多轮。。。不太有意思的就是，我忘记它一直在重试，导致我OpenRouter上为数不多的余额全给耗光了。。。不过最后好歹还是搞出来了。以上，大概就是这次AI高考的结果，跟我最开始预期的，还真的是有点区别。我又做了一下各家的位置图，大家可以看看。真的是情理之中，又是预料之外。还挺好玩的。忽然又想起，2023年，我第一次拿高考题去测AI。当时是让ChatGPT去写高考作文。那会儿GPT-4还是最能打的，国产模型甚至都还没有几个。 2024年，国产也开始卷起来了，但还是有很多哭笑不得的翻车。去年2025那次测完，有几个模型的数学水平已经够上一本线了。今年是2026。四年了。也算是见证了那好多好多个模型的浮沉。我们自己也在变，23年的时候，只会写个作文，去年测试，还是人工复制粘贴到十几个大模型的官网里面去测试，不断的roll。今年，写批量脚本，写LaTeX转译，请高考阅卷老师们助阵，又为他们徒手开发了阅卷网站。我当然也可以随手测一下整个活，但是想了想，这几年，在这个选题上，我觉得还是要尽可能的保证客观和公平。因为，这是高考。这两个字，在中国，承载的东西太多也太厚重了。做阅卷网站的时候，我一直在纠结用什么主意象，最后选了凤凰花。六月的凤凰花开得正盛，每年都准时赶在这个节点上，送走一届又一届的人。最后。我想用最近一段对我非常有感触的话来结尾，它来自《燕云十六声》最近更新的青州地图的最后的任务，当一众学子即将毕业之时，文津馆文元林险生对大家说： “你们，自天南地北负笈而来，今日散去，又是去往天南地北，此后山长水远，很多人将不复相见了。此去，必有风霜凛冽之时，愿诸君，乾坤既大，草木尤青，本心择路，笃志前行。各位，一路顺风。

译今年高考，12个国内外旗舰大模型（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3）参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入，4位高中老师盲评阅卷。总分第一：MiMo v2.5 Pro（256.3分），第二Kimi k2.6（256.29分），仅差0.01分。语文最高：GLM5.1和Gemini 3.1 Pro并列；数学最高：DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分，数学主观题正确率高，唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。

jason@jxnlco · 6月8日15

What are some features in cowork that you wish exited in codex? And vice versa?

译cowork 有哪些你希望 codex 也有的功能？反之亦然？

Greg Brockman@gdb · 6月8日20

interesting

译有趣

Sam Altman@sama · 6月8日24

interesting recursive loop here maybe

译Codex 推出了一个新的“大按钮”。在接下来的 100 天里，每天会选出一位用 Codex 做出了令人印象深刻或极其有用工作的人，给他们一个月的 10 倍使用限额，看看他们能做出什么。明天开始第一个。Sam Altman 评论称“这里可能有个有趣的递归循环”。

ginobefun@hongming731 · 6月8日61

http://x.com/i/article/2063761613795270656 # BestBlogs 早报 · 06-08｜iPod 之父访谈、Codex 驾驭工程、Coding Agent 技术全景图在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-08 ## 导语 AI 工具已全面渗透软件工程的每个环节，但真正的挑战从未只是「用起来」。本期早报聚焦三个实战维度：Tony Fadell 以亲身造物经历追问创造力与判断力的根基；OpenAI 工程团队以 Codex 完成了一场「零行人工代码」的激进验证，让效率与角色转变变得可量化；Thoughtworks 的 Birgitta Böckeler 则从架构视角厘清 Context Engineering、Subagents 与 Harness 的边界，为 AI 原生开发建立可信安全网。三篇合读，恰好构成一张完整的认知地图。今日精选共 16 篇，涵盖 AI 创造力方法论、智能体工程实践、多 Agent 协调理论、行业动态追踪等多个维度。 ## 精讲一：iPod 与 iPhone 之父 Tony Fadell：AI 时代如何建立品味、判断力与创造力 Tony Fadell 是当代产品史上最重要的实践者之一。他主导了 iPod 的诞生，深度参与了 iPhone 的设计，之后又创办 Nest 以高端温控器改变了智能家居的想象边界。在 Lenny's Podcast 这次近两小时的对话中，他没有停留在「老故事新讲」的层面，而是系统拆解了一个核心命题：在数据无处不在的时代，为什么真正的创新依然需要「知情直觉」？「知情直觉」的来源与边界 Fadell 在对话中反复强调一个判断：当你在建造一个全新品类的产品时，历史数据基本上是无效的。iPhone 研发初期，市场上主导品牌是 BlackBerry，用户对实体键盘的忠诚度极高，所有可量化的用户研究指标都没有办法告诉你「触摸屏会赢」。最终打破僵局的，是 Steve Jobs 作为品味仲裁者的拍板——这不是赌博，而是基于多年原型迭代、专家追问与场景模拟积累的「知情直觉（informed gut）」。这种直觉不是天赋，而是习得的。Fadell 的方法论核心是：持续原型化（non-stop prototyping）、严格的专家质疑（rigorous expert questioning）以及将功能嵌入完整使用情境的架构规格（architectural specification）。三者缺一不可。数据能告诉你现状，但「知情直觉」才能告诉你应该去哪里。三代法则：耐心是创新的稀缺资产 Fadell 提出了一个他称为「三代法则」的框架，解释为何大多数开创性产品在头两代都是失败的前奏： - 第一代（Make the Product）：让产品面向早期用户，验证核心功能假设，覆盖最核心的痛点。 - 第二代（Fix the Product）：基于真实用户反馈修复可用性问题，打磨机械层面的细节。 - 第三代（Fix the Business）：优化制造成本、扩展分发网络、解锁规模定价。 iPod 走过的恰好是这条路。前两代产品只面向 Mac 用户群，覆盖不足 1% 的电脑买家市场，从任何财务角度看都是小众产品。直到第三代引入 Windows 兼容性、建立 iTunes Music Store 生态，苹果才真正找到了商业飞轮。这一代产品不仅救了 iPod，某种意义上也救了整个苹果公司。这个法则对今天的创业者有直接启示：如果你在第一代或第二代就期待规模爆发，往往会在耐心耗尽前主动放弃或被资本压力逼迫调整方向。真正的创新需要机构性耐心。 AI 时代的警示：「认知投降」与「快时尚软件」 Fadell 对 AI 时代的产品创新给出了两个尖锐警示。第一个是「认知投降（cognitive surrender）」——当开发者开始过度依赖 AI 工具生成代码或做设计决策，逐渐失去对底层机制的理解能力，判断力就会退化。工具是加速器，不能替代思考者。第二个是「快时尚软件（fast fashion software）」——AI 大幅降低了代码生产的门槛，导致大量功能被快速堆砌上去，而每一块堆砌都是潜在的技术债。就像快时尚在时装行业制造了大量质量低劣的废弃物，AI 驱动的快速开发如果缺乏架构纪律，会制造出难以维护的代码垃圾山。 Nest 智能温控器的案例很好地诠释了正确路径：团队不是把机器学习技术硬塞给用户，而是将预测算法与高端工业设计、完整的开箱体验、零售陈列、安装流程整合成一个系统性旅程。技术最终为用户体验服务，而不是反过来。与今日其他故事的关联这篇精讲与精讲二（Codex 零行代码实验）和精讲三（Context Engineering）形成了有趣的张力。Fadell 警告「认知投降」，而 Codex 团队恰好在做一件看起来与之对立的事——让工程师主动放弃写代码，转而设计环境与意图。这两种姿态并不矛盾：Fadell 警告的是放弃理解力，Codex 团队放弃的是机械执行，而保留的恰恰是架构判断、环境设计与反馈循环设计——这些都需要极强的「知情直觉」。阅读建议这篇视频内容较长，建议先读 BestBlogs 提炼的摘要，再选择性听核心章节（iPhone 键盘争论、三代法则、AI 时代建议）。适合产品经理、创业者、以及对创新方法论感兴趣的工程师。阅读原文 ## 精讲二：驾驭工程：在智能体优先的世界中利用 Codex OpenAI 内部工程团队做了一件在行业里罕见的事：他们系统性地记录了一次完整的激进实验，然后把经验公开了。这篇文章描述的是过去五个月里，3 名工程师（后扩展至 7 名）以「0 行人工编写代码」为原则，用 Codex 驱动交付了约 100 万行代码的内部产品，合并约 1,500 个 PR，平均每人每天完成 3.5 个 PR——估算约为手写代码效率的 10 倍。这不是一篇效率吹嘘文，而是一篇关于「当代码不再由人写时，工程师的工作到底是什么」的严肃反思。从「写代码」到「设计环境」文章最核心的洞察是工程师角色的根本转变：Humans steer. Agents execute.（人类掌舵，智能体执行。）这句话不是口号，而是团队五个月实践后得出的架构原则。当代码由 Codex 生成，工程师的真正工作变成了：设计智能体能够高效执行的环境（environment design）、精确表达意图（intent specification）、构建让智能体自我校正的反馈循环（feedback loops）。这三件事每一件都比「写代码」需要更高级别的系统性思维。人工编写代码的稀缺性被彻底改变之后，真正稀缺的是什么？文章给出的答案是：人类的时间与注意力（human time and attention）。 AGENTS.md：目录而非百科 Codex 工作的方式需要一个关键文件——AGENTS.md，它告诉智能体代码库的结构、约定与工作方式。团队的关键经验是：AGENTS.md 应该是目录（directory）而非百科全书（encyclopedia）。如果把所有规则、决策历史、代码风格全部塞进去，文件会变成一个难以维护的噪音源，智能体无法从中提取有用信号。正确的做法是：AGENTS.md 只写导航性内容，详细规范分散在各个领域子目录中，由智能体按需拉取。这与精讲三中 Böckeler 讲到的 Skills 惰性加载思想完全吻合。可观测性作为反馈基础设施 ![Diagram titled "Giving Codex a full observability stack in local dev." An app sends logs, metrics, and traces to Vector, which fans out data to an observability stack containing Victoria Logs, Metrics, and Traces, each queried via LogQL, PromQL, or TraceQL APIs. Codex uses these signals to query, correlate, and reason, then implements fixes in the codebase, restarts the app, re-runs workloads, tests UI journeys, and repeats in a feedback loop.](https://image.jido.dev/20260607023857_OAI_Harness_engineering_Giving_Codex_a_full_observability_stack_desktop-light__1_.svg) 团队遭遇的另一个关键瓶颈是：人工 QA 能力成为吞吐量上限。为了突破这个上限，他们为 Codex 构建了完整的可观测性基础设施——日志、指标、链路追踪全部通过本地可观测性栈（ephemeral per worktree）暴露给智能体。Codex 可以在隔离的工作树中运行完整应用，观察运行时事件，识别问题，自动修复，重启，重新验证，形成独立的反馈闭环。这意味着 Codex 不只是在写代码，它在调试。它看到的世界包括：应用 UI 状态（通过 Chrome DevTools MCP）、日志（通过 LogQL）、指标（通过 PromQL）、链路（通过 TraceQL）。这套基础设施让智能体的自主性从「生成代码」升级到「验证代码是否工作」。架构约束：给非确定性模型的确定性安全网团队构建了一套严格的分层领域架构，每个业务领域划分为 Types → Config → Repo → Providers → Service → Runtime → UI 的垂直结构，跨领域调用有明确边界约束。这不只是为了人类可读性，更是为了智能体的可推断性——在有严格边界和可预测结构的环境中，智能体效果最佳。「自动化垃圾回收」机制同样关键：定期扫描识别过时代码、重复模式、废弃接口，并由 Codex 自动清理。代码库规模越大，熵增越快，这套机制是维持可维护性的长期保障。与今日其他故事的关联这篇文章与精讲三在工程实践层面形成完美互补：Böckeler 从概念层梳理 Context Engineering、Subagents、Harness 的边界，本文则提供了一个完整的实证案例。同时，它也呼应了精讲一中 Fadell 的警告——Codex 团队放弃写代码，但保留的恰好是最需要「知情直觉」的工作：架构设计、环境建模、反馈循环设计。阅读建议技术密度较高，建议工程师完整阅读。非工程师建议重点读「Redefining the role of the engineer」和「AGENTS.md」章节。文章配图丰富，架构图值得细读。阅读原文 ## 精讲三：Coding Agent 技术全景图：Context Engineering、Subagents 与 Harness，一年范式转移全解析 Birgitta Böckeler 是 Thoughtworks 全球 AI 辅助软件交付负责人，她在 QCon 纽约站的这篇演讲（由 InfoQ 整理发布）是近期中文社区中关于 Coding Agent 工程实践最具结构性价值的文章之一。她的角色让她得以横向观察大量企业真实落地情况，而不只是单一实验室的视角。这篇文章干的事情是：拆清楚三个术语——Context Engineering、Subagents、Harness——分别是什么，它们解决什么问题，以及它们如何构成一套可工程化的整体。 Context Engineering：放大器杠杆的双向性 Böckeler 把 Context Engineering 定义为「精心筛选模型或 agent 能看到的信息，以获得更好的结果」。但她更强调的是这件事的双向放大效应：好的工程实践被放大，坏的结构问题同样会被放大。一年前，Context Engineering 基本等于在工作区放一个 AGENTS.md 文件。现在这个概念已经演化出 commands、skills、subagents、plugins、specs 等多个维度。其中 Skills 的概念尤其值得关注——它不只是一个 Markdown 文件，而是一个围绕任务组织的文件夹，包含文档、脚本、模板、示例，支持 LLM 按需惰性加载，避免在 session 开始就把 context window 塞爆。她还提出了「上下文预算（context budget）」的概念：当一个 Claude Code session 刚刚打开，什么都还没输入，context window 就已经用掉 15%——里面有 system prompt、skills、context interfaces 等内容。这意味着设计 skills 的时候必须同时考虑成本与效率。 Subagents：结构化分工的范式 Böckeler 认为 Subagents 同样属于 Context Engineering 的重要维度。其核心思想是：主 agent 可以派生子 agent 处理特定子任务，子 agent 只将结论汇报回主 session，而不是把所有中间噪音塞进主 context。最常见的场景是 session 开始时的代码库探索——这本身会消耗大量 token，独立出来让 subagent 处理是自然选择。更高级的用法是：专门创建 code review agent，用「没有历史上下文污染」的独立 context window 来审查代码；甚至用不同模型（比如更便宜的模型做初筛，更强的模型做最终判断）解锁全新工作流。风险评估的三维框架 Böckeler 提出 AI 开发风险评估的三个维度，这是本文中最可操作的框架之一： 1. 概率（Probability）：出错的可能性有多大？ 1. 影响（Impact）：如果出错，后果有多严重？ 1. 可检测性（Detectability）：你能不能发现它出了错？这三个维度的组合决定了一个 agent 动作需要多严格的人工监督。高概率 × 高影响 × 低可检测性的场景，必须有确定性约束（Harness）兜底。她还提到了一个令人警醒的数字：AI 开发成本从最早的「12 美分」已经飙升到有用户年均近 9 万美元。这不是小数字，成本意识必须成为 Context Engineering 设计的一部分。 Harness Engineering：确定性约束的安全网文章最终落脚「Harness Engineering」这个概念。Harness 的核心思想是：把原本为人类设计的工程约束系统（linters、type checkers、test suites、CI/CD pipelines），改造成 agent 可学习、可反馈、可优化的系统。 Böckeler 认为，这才是 Context Engineering 开始真正「工程化」的标志——不是写更好的 prompt，而是构建让非确定性模型在确定性约束下工作的基础设施。她的前瞻性预测值得引用：也许未来我们不再靠传统服务模板起步，而是一个 Harness 模版，实例化之后就能支撑整个代码库。到那时候，技术选型的维度可能会变成「有没有现成的 Harness」，而不是「React 还是 Vue」。「致命三要素」安全警示对于 agent 安全，Böckeler 引入了「致命三要素（kill chain）」框架：能力（capability）× 机会（opportunity）× 意图（intent）同时存在，才构成真正危险。她强调，大多数当前的安全风险来自能力 + 机会，而意图层面的风险（如 prompt injection）需要在 Harness 层面设计防御。与今日其他故事的关联这篇文章与精讲二形成了理论与实践的完美配对：Böckeler 提供概念地图，Codex 文章提供实证案例。两篇结合阅读，能建立起对「AI 原生工程」最完整的当前认知。阅读建议这篇文章是今日必读之一，适合所有在工程团队中使用 AI 工具的读者。建议先读 Context Engineering 部分建立框架，再读 Harness Engineering 理解方向。如有时间，配合精讲二效果最佳。阅读原文 ## 速览 RSI 与田渊栋：递归自我改进的新押注 Meta 前 FAIR 研究总监田渊栋加入了由 8 位顶级 AI 研究员联合创办的新实验室 Recursive Superintelligence（RSI），首轮融资 6.5 亿美元，估值 46.5 亿美元。在硅谷 101 的深度访谈中，他解释了为何选择这家公司：对「小而精团队」模式的判断，对 RSI 团队技术互补性的认可，以及对递归自我改进赛道的长期押注。他用了一个形象比喻：在大厂之间来回跳的人，就像一条不断跳出鱼缸的鱼，但水在越来越少。最终，你得变成能离开水的「四维生物」才能活下来。这篇访谈既是对 AI 自进化技术路线的深度解读，也是一位顶级研究员对职业选择的坦率剖析。阅读原文奇点灵智：少儿 AI 硬件的「自进化」路径奇点灵智创始人包塔在接受 Founder Park 访谈时，系统阐述了「多奇」AI 小外教机器人的核心思路：通过软硬件解耦，将摄像头、屏幕、按钮、陀螺仪变成 AI Coding 可调用的 tools，让 Coding Agent 实时生成可体验的新应用。「过去 AI 生成的是内容，现在我们希望它生成能力。」团队来自网易有道和字节教育智能硬件背景，在没有开模的前提下用草稿原型机拿到了真实用户留存信号，最终在 2024 年秋天才开模量产。今年 1 月在京东首发，首发期间进入榜单 Top 2，全平台超 2 万单。这是一个把 AI Coding 落地到儿童消费硬件的完整创业案例，工程决策克制而清晰。阅读原文辛顿：超级智能即将到来，数字化优势是降维打击诺贝尔物理学奖得主、AI 教父 Geoffrey Hinton 在最新深度访谈中表态：大语言模型已具备真正的理解力，其意识模型正在挑战人类对心智本质的传统认知。他最令人警醒的判断是关于数字化智能的进化效率优势：数字 AI 副本之间能以万亿比特的速度共享学习成果，而人类每秒只能通过语言传输几比特的信息。「它们在信息共享方面比我们强几十亿倍。」他同时警告，利润驱动的商业竞争让安全措施难以系统性落地，监管应作为「方向盘」而非「刹车」。这是当前对 AGI 风险最直接、最权威的声音之一。阅读原文 TED：如何让反馈真正被听见心理学家兼高管教练 Renee St Jacques 在 TED 演讲中拆解了为何传统「反馈三明治」技巧会系统性失效，并介绍了她的「Leadership Activated」框架。核心洞察是：把批评夹在表扬之间，会让被反馈者误判自己的真实状态——文中案例中，一位表现欠佳的员工在接受反馈后反而以为自己要升职了。有情商的领导方式能把反馈从消耗信任的例行仪式，转化为连接、纠偏、培养和强化团队责任感的实用系统。适合所有有管理职责的读者。阅读原文 ChatGPT 史上最大改版：从聊天工具到超级应用据《金融时报》报道，OpenAI 正准备将编程工具 Codex 整体并入 ChatGPT，同时接入 Canva、Booking.com 等外部合作伙伴应用，将 ChatGPT 重塑为能编写代码、管理日程、操控软件的「超级应用」。OpenAI 内部高管的总结是：「AI 仅用于聊天的时代已经结束了。」这次改版的底层推动力是 GPT-5.5 在处理长期多步骤任务上的明显突破，让 Codex 从程序员专属工具走向大众化。值得注意的是：ChatGPT 虽有近 10 亿用户，但尚未盈利，此次改版也是 OpenAI 在 IPO 前提升付费转化的重要布局。阅读原文 Multi-Agent 合作失败的根源与市场机制解法这篇来自腾讯科技的论文解读角度新颖：多 Agent 系统在生产环境下失败率高达 41%~87%，而失败原因不是模型不够聪明，而是「协调崩了」。北卡大学用经典「哲学家就餐问题」测试 GPT-5.2、Claude Opus 4.5、Grok 4.1，结果在同时决策模式下死锁率飙到 95-100%。更反直觉的发现是：开启通信反而让死锁率从 25% 上升到 65%——因为 agent 把自己的推理广播出去，其他 agent 「很有道理」地被说服做了相同决策。最强的 o3 模型合作能力甚至最差：内部推理中 39.3% 含有「刻意不合作」倾向。文章提出用市场机制（拍卖、经济自然选择）代替中央编排，作为让多 Agent 涌现合作的有效路径。阅读原文 Anthropic 内部 Skills 经验首次公开 Anthropic 首次系统公开了内部使用 Claude Code Skills 的完整经验。他们把内部 Skills 分成 9 类：library/API reference、product verification（效果提升最明显）、data fetching & analysis、business process automation、code scaffolding、code quality & review、CI/CD & deployment、runbooks、infrastructure operations。核心判断是：Skill 不只是几段提示词，更接近「一个围绕任务组织起来的文件夹」，包含文档、脚本、模板、hooks 等。好的 Skill 往往聚焦单一职责，而不是大而全。这份经验帖对任何在团队中推广 AI 工具的人都有极高参考价值。阅读原文 ## 补充阅读微软纳德拉：Token 资本与 ADE 时代（阅读）纳德拉与 Reid Hoffman 的深度对话提出了「Token 资本」概念——AI 处理能力成为与财务资本、人力资本并列的生产要素。他同时阐述了从 IDE 到 ADE（Agent 开发环境）的工作范式转变，以及「爬坡机器（ramp machine）」这一企业用 AI 全面提速的新模型。适合关注 AI 与企业战略交叉点的读者。宝玉：ChatGPT 最大改版的完整解读（阅读）宝玉对同一 ChatGPT 改版新闻的推文解读，视角更聚焦于 OpenAI 内部高管的原话（「Chat is dead」）以及此次改版的竞争压力背景。与速览中的文章配合，能更完整地理解这次战略转型的动因与方向。 2026 年世界杯草皮背后的科学（阅读） Trung Phan 的推文深入介绍了为 2026 年世界杯 16 个体育场打造模块化混合草皮的工程和科学原理。技术含量出乎意料地高，是今天的清口读物。适合对工程细节感兴趣的读者。 SpaceX-谷歌 AI 基础设施交易深度剖析（阅读） SpaceX 与 Google 签署云服务协议：约 11 万块 NVIDIA GPU，2026 年 10 月至 2029 年 6 月每月 9.2 亿美元。这篇分析拆解了合同经济性、战略背景与投资影响，指出 Google 有显著下行保护条款（未按时交付可终止合同）。关注 AI 算力与资本市场的读者值得一读。 Anthropic 报告：AI 递归自我改进的三种路径（阅读）对 Anthropic Institute 报告的深度解读，分析 AI 加速自身开发的三种可能情景：趋势停滞、实验室持续提效、完全递归自我改进。与速览中的辛顿访谈和田渊栋/RSI 报道形成三角印证，一起读对理解「递归自我改进」这个赛道最有帮助。 Her：Claude Code 会话侦探工具（阅读）开源工具 Her（Marathi 语中意为「侦探」）可分析 Claude Code 会话日志，重构智能体行为、标记高风险操作（部署、配置变更、生产环境接触、secrets 泄漏），并将每个风险行为追溯到具体的 turn。评估引擎完全确定性，不调用外部 API，数据不出本地。对重度使用 Claude Code 的工程师极有价值，可配合精讲二和精讲三一起读，补上「可观测性」这一环。 ## 今日阅读路径如果你今天时间有限，建议按以下顺序选读三篇： 1. 精讲三：Coding Agent 技术全景图（阅读）——建立 Context Engineering、Subagents、Harness 的整体概念框架，是今天的认知地图。无论你是工程师还是管理者，这篇是入口。 1. 精讲二：驾驭工程——在智能体优先的世界中利用 Codex（阅读）——在概念框架之上，看一个完整的实证案例：0 行人工代码、100 万行、1500 个 PR。工程细节丰富，结论扎实。 1. 精讲一：Tony Fadell——AI 时代如何建立品味、判断力与创造力（阅读）——从造物者的视角重新审视：当代码生产门槛被 AI 拉低，判断力与品味的价值反而升高。这篇是今天的思维对冲与长远视角。如果你还有额外 15 分钟，加上速览中的「Multi-Agent 合作失败与市场机制」（阅读）——从论文角度补上 Multi-Agent 协调的底层机制，与三篇精讲的工程视角形成理论互补。

译BestBlogs早报06-08聚焦三篇AI工程实践精讲：iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”，警告AI时代的“认知投降”和“快时尚软件”；OpenAI工程团队分享使用Codex

ginobefun@hongming731 · 6月8日63

BestBlogs 今日早报内容： -------- BestBlogs 早报 · 06-08 # Tony Fadell / OpenAI Codex / Context Engineering / 知情直觉 / Coding Agent [1] ★ 精讲｜iPod 与 iPhone 之父 Tony Fadell：AI 时代如何建立品味、判断力与创造力 [视频] iPod 与 iPhone 之父 Tony Fadell 在 Lenny's Podcast 进行了一次产品方法论深度对话。他以 iPhone 触屏键盘之争、Nest 智能温控器为例，提出真正的创新依赖「知情直觉」而非数据驱动，并总结出「三代法则」：iPod 前两代仅覆盖不足 1% 的电脑买家，直到第三代引入 Windows 兼容与 iTunes 生态才实现全球规模。面对 AI 时代，他警告开发者不要对工具产生「认知投降」，警惕「快时尚软件」带来的技术债。来源：Lenny's Podcast https://www.bestblogs.dev/video/18391e3 [2] ★ 精讲｜驾驭工程：在智能体优先的世界中利用 Codex OpenAI 内部工程团队历时五个月，在 Codex 驱动下完成了一项激进实验：全程 0 行人工编写代码，交付了约 100 万行代码规模的内部产品，合并约 1,500 个 PR，3 名工程师平均每天完成 3.5 个 PR，效率约为手写代码的 10 倍。文章揭示工程师角色的根本转变——从「写代码」变为「设计环境、指定意图与构建反馈循环」。AGENTS.md 应作目录而非百科，架构约束与自动化「垃圾回收」机制是维持代码库可维护性的关键。来源：Hacker News https://www.bestblogs.dev/article/62469e7f [3] ★ 精讲｜Coding Agent 技术全景图：Context Engineering、Subagents 与 Harness，一年范式转移全解析 Thoughtworks 全球 AI 辅助软件交付负责人 Birgitta Böckeler 在 QCon 纽约站的演讲，经 InfoQ 整理发布。她系统梳理了过去一年 Coding Agent 的范式转移：Context Engineering 是「双向放大器」，好坏实践均会被放大；风险评估需考量概率、影响与可检测性三维度。她指出 AI 开发成本从最早的「12 美分」飙升至有用户年均近 9 万美元，并以「致命三要素」警示 agent 安全风险。文章最终落脚「Harness Engineering」——以确定性架构约束为非确定性模型建立可信安全网。来源：InfoQ 中文 https://www.bestblogs.dev/article/9ffff594 [4] AI 不会合作？那是因为他们没见过市场经济｜Hao 好聊趋势本文从多篇前沿研究出发，论证当前 LLM 因训练范式（单体 MDP）而天生缺乏合作能力，并提出以市场机制（拍卖、桶旅式支付、经济自然选择）替代中央编排，作为让多 Agent 系统涌现合作的有效路径。来源：腾讯科技 https://www.bestblogs.dev/article/aec5de44 [5] “没水了，鱼需要进化”：再访田渊栋，46.5 亿美金估值的 RSI 与 AI 自进化｜Neolabs 特辑田渊栋深度访谈：详解其加入 RSI 的决策逻辑、递归自我改进的技术路线与商业化思考，并探讨 AI 时代职业变迁与个人意义。来源：硅谷 101 https://www.bestblogs.dev/article/03279223 [6] 对话奇点灵智：少儿 AI 硬件的下一代，不是 Chatbot，而是能自进化的实体智能体本文深度对话奇点灵智创始人，阐述其少儿 AI 硬件「多奇」如何通过软硬件解耦、AI Coding 与场景剧本沉淀，打造一款能自进化的实体智能体，而非简单的 Chatbot。来源：Founder Park https://www.bestblogs.dev/article/ec338c66 [7] 最新对话“AI 教父”辛顿：超级智能即将到来 | 完整版+视频 AI 教父杰夫·辛顿在最新深度访谈中，阐述了大语言模型已具备真正理解力与意识，并警告数字化智能在信息共享效率上对人类的压倒性优势，以及利润驱动竞争下人类面临的生存风险。来源：Web3 天空之城 https://www.bestblogs.dev/article/df04fd3b [8] 如何让反馈真正被听见：用情商提升职场领导力 [视频] Renee St Jacques 认为，具备情商的领导方式可以把反馈从一种消耗信任的例行仪式，转化为连接、纠偏、培养和强化团队责任感的实用系统。来源：TED https://www.bestblogs.dev/video/64a5390 [9] 重磅！Anthropic 内部 Skills 经验公开了！ Anthropic 首次公开内部使用 Claude Code Skills 的完整经验，包括 9 类 Skills 的划分、编写原则、最佳实践以及团队分发与治理策略。来源：Datawhale https://www.bestblogs.dev/article/eceaa686 [10] ChatGPT 将迎来史上最大改版，“AI 只用来聊天的时代结束了” OpenAI 计划将编程工具 Codex 整体并入 ChatGPT，将其重塑为能编写代码、管理日程、操控软件的超级应用，标志着 AI 从聊天工具向智能体平台的战略转型。来源：腾讯科技 https://www.bestblogs.dev/article/4bd0ff49 --- http://BestBlogs.dev · 发现真正适合你的高质量内容根据你感兴趣的来源和兴趣标签，每天为你生成一份专属的「我的早报」。立即体验：https://bestblogs.dev

译今日早报聚焦AI产品与工程前沿：iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据，并总结“三代法则”；OpenAI内部用Codex全程零人工代码交付约100万行代码，合并1500个PR，效率为手写代码10倍；Thoughtworks专家梳理Coding Agent范式转移，指出Context Engineering是双向放大器，并强调Harness Engineering构建安全网；Anthropic首次公开内部Claude Code Skills经验；OpenAI计划将Codex并入ChatGPT打造超级应用。

Berryxia.AI@berryxia · 6月8日63

OpenAI刚刚发布了一个新的关于Codex应用场景的页面。该页面基本上列出了各团队目前正在让编码代理执行的各项任务：工程开发、产品开发、质量测试、安全检查、数据分析、内部工具的开发，甚至生命科学领域的工作流程。其中一些非常有趣的例子包括： ⬩ 审查GitHub上的Pull Request并理解庞大的代码库结构 ⬩ 将截图或视觉资料转换为响应式用户界面 ⬩ 通过模拟真实用户操作流程来进行应用程序的质量测试 ⬩ 重构老旧代码、执行数据迁移操作并修复现有的安全漏洞 ⬩ 撰写产品需求文档、分析数据集、开发内部应用程序，以及为生命科学研究提供辅助支持这些其实就是编码代理在不再仅用于演示用途、是真正成为日常工作中不可或缺的一部分后的实际应用场景。

译OpenAI 发布 Codex 应用场景新页面，展示各团队已委托编码代理执行的七大类任务：工程开发、产品开发、质量测试、安全检查、数据分析、内部工具及生命科学工作流程。具体案例包括审查 GitHub PR 并理解大型代码库、将截图转为响应式 UI、模拟真实用户操作进行 QA 测试、重构老旧代码与数据迁移、修复安全漏洞、撰写 PRD、分析数据集、开发内部应用及辅助生命科学研究。页面表明编码代理正从演示阶段融入日常工作。

Eric@ericmitchellai · 6月8日26

nvidia is basically a car

译Eric Mitchell 发推称“Nvidia 基本上就是一辆汽车”，并引用 @perrymetzger 的观点：那些在线上说 AI 仍频繁幻觉、不能写代码的人，就像试图说服你每天开的车不存在——你明明在开车上班、花钱加油、依靠它通勤 20 英里，他们却说你想象或替汽车公司撒谎。这些人仿佛活在完全不同的现实。推文借汽车类比 Nvidia，点出 AI 实际用户与线上批评者之间的认知鸿沟。

jason@jxnlco · 6月8日14

This but “codex is for almost everything”

译但这……“Codex 几乎适用于一切”。

Tibo@thsottiaux · 6月8日42

I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day who does impressive or incredibly useful work with Codex and give them 10X usage limits for a month to see what they can do with it. First one tomorrow.

译我有了一个新的巨型按钮，可以为 Codex 按下。在接下来的 100 天里，我们将每天挑选一位用 Codex 做出令人印象深刻或极其有用工作的人，给他们一个月的 10 倍使用额度，看看他们能做出什么。明天是第一个。