This was fixed. You know what's coming 👀 Give us 24 hours to reset the Codex rate limits across all plans.

译问题已修复。你知道接下来会发生什么👀 给我们24小时，在所有计划中重置Codex速率限制。

Lets go, GLM-5.2 released as Open Weights model. tl;dr -1M context window -MIT-licensed open weights -Stronger long-horizon coding agents -Two reasoning modes: max and high -Same API pricing as GLM-5.1 Zai says GLM-5.2 was trained specifically for large-scale implementation, automated research, performance optimization, and complex debugging. Open Source got a serious upgrade today!

译GLM-5.2 作为开放权重模型发布，采用 MIT 许可，拥有 1M 上下文窗口。提供两种推理模式：max（极限推理）和 high（平衡性能与 token 效率）。在编码和智能体任务上有显著提升，专为大规模实现、自动化研究、性能优化和复杂调试训练。API 定价与 GLM-5.1 保持一致。

🚨 AI News | TestingCatalog@testingcatalog · 6月17日77

ZAI 🔥: GLM-5.2 is now available on huggingface! > It comes with a 1M context window and 2 levels of reasoning effort, max and high. MIT license and same pricing as GLM-5.1. > GLM-5.2 scores 46.2% on DeepSWE, the SOTA score among open-weight models.

译ZAI 在 Hugging Face 上发布 GLM-5.2，采用 MIT 开源许可，API 定价与 GLM-5.1 相同。模型支持 1M 上下文窗口，提供两种推理努力级别：max（极致性能）和 high（平衡性能与 token 效率）。在编程和 AI 智能体任务上有显著提升，具备长程任务能力。DeepSWE 基准得分 46.2%，创下开源权重模型的 SOTA 纪录。

Z.ai@Zai_org · 6月17日73

Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong long-horizon capabilities with a 1M context window - Two levels of reasoning effort: GLM-5.2 (max) pushes the limits, while GLM-5.2 (high) strikes a strong balance between performance and token efficiency - MIT-licensed open weights - Same API pricing as GLM-5.1 Tech Blog: http://z.ai/blog/glm-5.2 Weights: http://huggingface.co/zai-org/GLM-5.2 API: http://docs.z.ai/guides/llm/glm-5.2 Coding Plan: http://z.ai/subscribe Chat: http://chat.z.ai

译智谱（Z.ai）正式发布GLM-5.2，采用MIT开源协议开放模型权重。相比前代，在编码和智能体任务上有显著提升，支持1M上下文窗口。提供两种推理努力级别：GLM-5.2（max）追求极致性能，GLM-5.2（high）在效果与token效率间取得平衡。API定价与GLM-5.1保持一致。技术博客、权重及API文档均已上线。

OpenRouter@OpenRouter · 6月17日53

GLM-5.2 from @Zai_org is live on OpenRouter! http://Z.ai's flagship for long-horizon tasks, now with a 1M-token context window capable of being reliable across long, messy coding-agent work.

译来自 @Zai_org 的 GLM-5.2 已在 OpenRouter 上线！ Z.ai 的旗舰模型，专为长期任务设计，现在拥有 1M token 上下文窗口，能够在冗长杂乱的编码智能体工作中保持可靠。

歸藏(guizang.ai)@op7418 · 6月17日83

Space X 用股票交易，600 亿美元收购了 Cursor 考虑到 Cursor 只有几十个人这个人效太猛了，同时 Cursor 除了软件也还有自己基于开源模型训练的编码模型感觉新的 Gork 有戏了啊

译Space X 用股票交易，600 亿美元收购了 Cursor 考虑到 Cursor 只有几十个人这个人效太猛了，同时 Cursor 除了软件也还有自己基于开源模型训练的编码模型感觉新的 Grok 有戏了啊

swyx@swyx · 6月17日54

Cursor/Graphite’s @TomasReimers just announced Origin @cursor_ai’s long awaited Git competitor, scalable for agent workloads, extensible with api and mcp, and built in merge conflicts and co failure agent resolution

译Cursor/Graphite 的 @TomasReimers 刚刚宣布了 Origin，这是 @cursor_ai 期待已久的 Git 竞争对手，可扩展用于 AI 智能体工作负载，可通过 API 和 MCP 扩展，并内置了合并冲突和协作失败智能体解决方案。

Deedy@deedydas · 6月17日74

What a brilliant $60B exit for Cursor to SpaceX today! $4B in run rate growing 7x YoY. The 4 25yo MIT founders will make ~$2.7B in a span 4yrs and first 50 hires ~$20-500M each. A testament to why you should actually join early stage startups and of huge outcomes building apps on top of AI models.

译今天，Cursor 以 600 亿美元出色退出给 SpaceX！ 400 亿美元年化收入，同比增长 7 倍。 4 位 25 岁的 MIT 创始人在 4 年内将获得约 27 亿美元，前 50 名员工每人约 2000 万到 5 亿美元。这证明了为什么你应该加入早期初创公司，以及在 AI 模型之上构建应用能带来巨大成果。

宝玉@dotey · 6月17日80

SpaceX 今天宣布，以 600 亿美元全股票交易收购 AI 代码编辑器 Cursor 的母公司 Anysphere。这是 SpaceX 上市仅数天后的第一笔大型收购。这笔交易不算意外。4 月份 SpaceX 就拿到了选择权，二选一：花 100 亿美元买合作关系，或花 600 亿美元直接收购。过去几个月，SpaceXAI 团队一直在用 xAI 的超算 Colossus 和 Cursor 联合训练模型，预计近期同时上线 Cursor 和 Grok Build。 Cursor 2022 年成立，年化收入已达 26 亿美元，此前估值 293 亿美元，这次溢价一倍。对 SpaceX 而言，600 亿的股票只稀释了 IPO 估值的 3.4%。消息公布后 SpaceX 股价涨了约 16%，市值一度超过亚马逊和微软，升至美国第四。收购的逻辑：AI 编程工具赛道目前是 Anthropic（Claude Code）和 OpenAI（Codex）两强格局，SpaceXAI 的 Grok 在开发者工具上几乎没有存在感。买 Cursor 是最快的入场方式。交易预计第三季度完成。合同附了分手费条款：如果告吹，SpaceX 要付给 Cursor 15 亿美元现金加 85 亿美元算力资源。

译SpaceX 宣布以 600 亿美元全股票收购 AI 代码编辑器 Cursor 母公司 Anysphere，这是其上市数天后的首笔大型收购。此前 4 月 SpaceX 已获选择权：100 亿美元合作或 600 亿美元直接收购。过去数月，SpaceXAI 团队与 Cursor 在 xAI 超算 Colossus 上联合训练模型，近期将同时上线 Cursor 和 Grok Build。Cursor 2022 年成立，年化收入 26 亿美元，此前估值 293 亿美元，此次溢价一倍。交易仅稀释 IPO 估值 3.4%，消息后 SpaceX 股价涨约 16%。收购旨在补齐 Grok 在开发者工具短板，进入 AI 编程工具赛道（当前 Anthropic Claude Code 和 OpenAI Codex 两强格局）。交易预计 Q3 完成，分手费含 15 亿美元现金及 85 亿美元算力资源。

jason@jxnlco · 6月17日51

codex eu-sers! chrome, computer use, are now all available in the eu codex can now use apps across your Mac, automate workflows in Chrome and remember context across your work. if you want to automate that one task you're dying to automate, just take an app shot and kick it off

译codex 欧盟用户们！ Chrome、电脑使用现在都在欧盟可用。 codex 现在可以跨你的 Mac 使用应用、在 Chrome

向阳乔木@vista8 · 6月16日52

Factory AI CEO的播客访谈，太长不看版： 1. 大约80%到90%的任务用开源模型就能完成，顶级模型最适合做规划和决策。 2. AI工具给高杠杆的人提供了更高的杠杆，给低杠杆的人提供的帮助相对有限。 3. 未来最值钱的工程师不是快速写代码、写算法的人，而是能端到端拥有业务结果的人。 4. 三年内，Token支出的中位数会和薪资处于同一数量级。 https://www.youtube.com/watch?v=lgo_QbgV198

译Factory AI CEO 在播客中分享观点：约80%-90%的任务可用开源模型完成，顶级模型更适合规划与决策；AI工具对高杠杆人群提升更大，低杠杆者受益有限；未来最值钱的工程师是能端到端拥有业务结果的人，而非仅写代码者；预计三年内Token支出中位数将与薪资处于同一数量级。

Yuchen Jin@Yuchenj_UW · 6月16日69

SpaceX acquired Cursor for $60B. A lot of people dismissed Cursor as just a “GPT/Claude wrapper” and a VS Code fork. But it became a company capable of post-training its own models. That is a big reason Elon wanted it. I think more companies will post-train custom models to own the weights and bring model costs down. Congrats to the @cursor_ai team and Elon! Now the real question: will Cursor continue its no-shoes culture inside SpaceX offices?

译SpaceX 以 600 亿美元收购了 Cursor。很多人曾轻视 Cursor，认为它不过是“GPT/Claude 套壳”和一个 VS Code 分支。但它却成长为一家能自行对模型做后训练的公司。这是埃隆想要它的一个重要原因。我认为更多公司会对定制模型做后训练，以拥有模型权重并降低模型成本。祝贺 @cursor_ai 团队和埃隆！现在真正的问题是：Cursor 能在 SpaceX 的办公室里继续它的无鞋文化吗？

elvis@omarsar0 · 6月16日63

The Cursor takeoff is spectacular to watch. Most people initially dismissed it as a fork/wrapper. But they are actually a great product, building useful tools that devs want to use.

译主推文指出，Cursor的崛起令人瞩目，多数人最初将其视为fork/封装，但它实际是出色的产品，构建了开发者愿意使用的工具。引用推文显示，SpaceX已行使期权收购Cursor，过去数月双方联合训练模型，该模型即将在Cursor和Grok Build中发布。

小互@xiaohu · 6月16日88

SpaceX 收购 Cursor

译SpaceX 已行使选择权，以全股票交易方式收购 @cursor_ai，目标是打造全球最有用的 AI 模型。过去几个月，SpaceXAI 一直在与 Cursor 联合训练一个模型，该模型将很快在 Cursor 和 Grok Build 中发布。我们期待与 Cursor 团队紧密合作，推进前沿 AI 能力。

jason@jxnlco · 6月16日51

Wow this is great. Going to make a mahjong game

译@majidmanzarpour 为 Codex 和 Claude Code 构建了一个基于 Three.js 的游戏导演技能系统，可引导 AI 智能体完成游戏循环、图形、HUD/UI、调试、QA 等流程，并可选集成 @tripoai、@ElevenLabs、@NanoBanana 的 3D/图像/音频资源。该系统已开源。Jason Liu 称赞并表示要用它做麻将游戏。

凡人小北@frxiaobei · 6月16日27

Gemini （antigravity）的编程能力掉到第四了。前三名： Claude（Claude code） ChatGPT（codex） SpaceXAI（cursor）国产编码扛把子 GLM /Kimi/千问/豆包，再跑出来一家， Gemini 可以掉到第五。

译Gemini (antigravity) 编程能力排名降至第四，前三名依次为 Claude (Claude code)、ChatGPT (codex) 和 SpaceXAI (cursor)。国产编码模型 GLM、Kimi、千问、豆包紧随其后，若再有一家国产模型超越，Gemini 将进一步跌至第五。此外，SpaceX 行使期权收购 Cursor AI，过去数月双方联合训练模型，即将在 Cursor 和 Grok Build 中发布。

SiliconFlow@SiliconFlowAI · 6月16日65

Better Coding with Less Overthinking K2.7 Code takes K2.6's strong base and goes deep Meet @MoonshotAI Kimi K2.7 Code on SiliconFlow — coding-focused, agentic, purpose-built on K2.6. 💰 Cache Input/Input/Output: 0.19/0.94/4.00 per 1M tokens 💪Improved coding & agentic performance, approaches GPT5.5 & Opus 4.8 🧠Less overthinking: 30% lower reasoning-token usage vs K2.6 ⚙️Long-horizon coding: better instruction following, higher end-to-end task completion rates 32B Activated/ 1T Params | VLM | Interleaved Thinking | Multi-Step Tool Call Try it on SiliconFlow ⬇️

译硅基流动上线月之暗面Kimi K2.7 Code模型。基于K2.6改进，专注编码与智能体任务。32B激活/1T总参，VLM多模态，支持交错思考与多步工具调用。相比K2.6，推理token使用减少30%，减少过度思考；长程编码任务指令遵循和完成率提升。性能接近GPT5.5与Opus 4.8。价格：缓存输入0.19/输入0.94/输出4.00每百万token。

Elon Musk@elonmusk · 6月16日70

AI will achieve Stockfish-level coding and generalized computer use

译AI 将实现 Stockfish 级别的编码和通用计算机使用

meng shao@shao__meng · 6月16日74

哇哦，恭喜 Cursor 团队 🎉🎉🎉 SpaceX 正式行权收购 Cursor，以全股票方式完成交易，对 Cursor 的隐含估值约 600 亿美元。

Ant Ling@AntLingAGI · 6月16日77

Ling & Ring 2.6 technical report is out, with two open-weight base models. We co-design model + system across architecture, training, and agentic capability: • 7:1 hybrid linear attention • KPop for stable agentic RL: SWE-bench Verified 76.28% • ~4× token efficiency

译Ling & Ring 2.6 技术报告发布，带来两款开放权重基座模型。我们通过架构、训练和智能体能力的协同设计，共同优化模型与系统： • 7:1 混合线性注意力 • 用于稳定智能体强化学习的 KPop：SWE-bench Verified 76.28% • 约 4 倍 token 效率

Michael Truell@mntruell · 6月16日81

Lots to do together. Excited to be joining forces with @SpaceX to build useful AI.

译SpaceX已行使期权，以全股交易收购Cursor，旨在打造全球最有用的AI模型。过去几个月，SpaceXAI与Cursor联合训练了一款模型，该模型将很快在Cursor和Grok Build中发布。主推文的Michael Truell表示期待合作，兴奋与SpaceX联手构建有用AI。

jason@jxnlco · 6月16日23

wow hit 100k so, one of the biggest requests is about resetting rate limits, so heres a tip. Codex now has referrals that give you the ability to reset your rate limit on your time

译wow 突破 10 万那么，最大的需求之一是关于重置速率限制，所以这里有个小技巧。 Codex 现在有推荐机制，让你可以自行重置速率限制。

凡人小北@frxiaobei · 6月16日62

Codex CLI 新版本这个功能好， /import 从 Claude Code 导入：设置、配置和聊天记录，挖墙脚继续。

AYi@AYi_AInotes · 6月16日75

holy，600 亿美元全股票收购 Cursor， SpaceX 上市刚 5 天就甩出王炸。预计 2026 年第三季度正式落地，这是史上规模最大的 AI 收购案之一， Cursor 将成为 SpaceX 全资子公司，原股东置换 SpaceX A 类股份，换股比例以交易完成前 7 日均价计算。收下它等于直接补齐最核心的能力短板，这笔交易的意义远不止买下一个编程工具， xAI 此前在编程能力上始终落后对手， Cursor 手握百万日活开发者与高质量代码数据，还有自研的专属编程模型，从算力到模型再到终端工具完全打通，更关键的是整条 AI 链路彻底闭环，底层有地面加轨道的双层算力基建，中间有 xAI 的大模型研发能力，前端直接攥住数千万开发者的使用入口，感觉正在一步步吃下 AI 时代的全产业链，所以别再只把 SpaceX 当成火箭公司哈哈

译SpaceX 宣布以约 600 亿美元全股票收购 AI 编程工具 Cursor，预计 2026 年第三季度完成。收购完成后，Cursor 将成为 SpaceX 全资子公司，原股东置换 SpaceX A 类股份。此举旨在补齐 xAI 在编程能力上的短板——Cursor 拥有百万日活开发者、高质量代码数据及自研编程模型，并与 xAI 的算力（地面+轨道）和大模型形成全链路闭环。Cursor CEO 透露，其内部 30% 的合并 PR 由异步云代理自动创建，单周运行两千多个并发代理，生成三百万行代码，消耗几十亿个 token，工程师只需定义范围并做最终审核。

AYi@AYi_AInotes · 6月16日55

http://x.com/i/article/2066860172387995648 # 所有深度用 AI 编程的朋友，这篇 Codex 全景指南值得存好，架构生态横评和最佳实践一次讲透有个细节我琢磨了好几天，OpenAI 给 GPT-5.3-Codex 下的官方定语很有意思，没有说是最强编程模型，而是一句有点耐人寻味的话——第一个对创造自身起到关键作用的模型。我翻译一下：OpenAI 自己的工程师，已经在用 Codex 来造下一代 Codex 了。我觉得这句话比任何 benchmark 都狠，它告诉我们，除了这个模型有多强，还有就是这个模型已经成了 OpenAI 自己的研发底盘。也就是说2021 年那个被弃用的补全工具、去年那个帮你改 bug 的助手——跟现在这个比，根本不是一个物种。我决定写一个系列，这是第一篇。这篇不讲具体操作，先把全景图铺开：它的架构到底长什么样、核心能力在哪、跟 Claude Code / Cursor / Devin 比谁更能打、官方给的最佳实践有什么能直接抄。后面几篇再一个一个拆——AGENTS.md、Skills、MCP、多 Agent 编排的实操。 > ▸ 五个入口，一套配置——先搞懂这个，后面才不会晕 > ▸ 插件化 + MCP + Skills：这才是它跟别人拉开身位的地方 > ▸ 为什么我说它是目前最强执行引擎（附一张对比表，也说说它的软肋） > ▸ 七条能直接抄的官方最佳实践 ## 一、先搞懂架构——一套执行层，长了五张脸我第一次把 2026 版 Codex 的所有入口捋了一遍之后，才明白为什么很多人刚接触会懵，因为它同时出现在五个地方：App、CLI、IDE 插件、Cloud、Web。所以这不只是五个产品那么简单，更像是是一套统一执行层 + 编排中枢，长了五张脸。 Codex App：桌面命令中心，macOS 版，今年最大的形态变化。定位很明确——AI 编程的指挥中心，你可以在里面并行跑活、管长时任务、加 skills 和 automations、审查 diff，全程沙箱保安全。为什么今年才出桌面端？OpenAI 自己的解释我挺认同的——2025 年 4 月 Codex 刚出的时候，问题还是“agent 能干什么”；到了今年，模型能端到端处理复杂长时任务了，问题变成了“怎么同时管好一堆 agent”。那问题变了，界面就得跟着变。 CLI + IDE 插件：终端和编辑器里的深度集成，这里有一个细节我踩过一次坑才注意到——它们共用同一份配置，在一个表面改了 config，另一个表面立刻生效，不用各配一遍 MCP，很细节的一件事，但挺省心的。 Cloud Sandbox：异步执行的核心。长时任务、并行工作全挂云上，不占你本地资源，跑完进审查队列。 Web / ChatGPT 集成：统一登录，所有表面共享 Skills、MCP 配置、AGENTS.md 记忆。模型底座：这条时间线值得看一眼，因为一年里迭代太密了： 2025 年 12 月 GPT-5.2-Codex → 2026 年 2 月 5 日 GPT-5.3-Codex → 2 月 12 日 GPT-5.3-Codex-Spark（纯文本、低延迟小号版） → 3 月 5 日 GPT-5.4 for Codex。其中 Spark 那步我特别想提一嘴——它是 OpenAI 第一个跑在 Cerebras 硬件上的生产模型，比早期 Codex 快 15 倍，专门为实时交互编码做的。这步棋的意义不是“更快了”，是“可以一边聊一边出代码了”。把这五张脸看完，我的理解就一句话：Codex 把“模型”和“编排”分开了。模型负责干活，App/Cloud 负责调度，学 Codex，我理解本质上是在学怎么当一个管着好几个 agent 的项目经理。 ## 二、插件化 + MCP + Skills——这三层才是真正的分水岭光看模型能力，Codex 跟别家在一个量级。真正让它跟传统工具拉开差距的，是它长成了一个可扩展、可复用、可编排的平台层，三层东西撑起来的。 MCP：把外部世界接进来配置不复杂。每个 MCP 服务器在配置文件里一张 [mcp_servers.<server-name>] 表，支持两种传输——本地 STDIO 进程，或者远程 Streamable HTTP（走 HTTP 连远程，可选 OAuth 和 bearer token 认证）。 CLI 一行加一个。比如接 Context7（免费开发者文档 MCP），跑这个就行：codex mcp add context7 -- npx -y @upstash/context7-mcp。配置文件默认 ~/.codex/config.toml，想限定到某个项目用项目级的 .codex/config.toml——但只限受信任项目。热门的有 GitHub、Figma、Playwright、Context7、Sentry 这些。有一点我想强调，官方隐含了一个最佳实践：高频痛点优先接，别把线全布上。 MCP 接得越多，上下文消耗越大，风险面也越宽。够用就行，别贪。 Skills：把重复劳动变成能复用的东西一个 skill 就是把指令、资源和可选脚本打个包，让 Codex 可靠地跑一个工作流。Skills 基于开放的 agent skills 标准。本质就是一个目录，核心文件是 SKILL.md。可以加 agents/openai.yaml 配 UI 元数据、调用策略、工具依赖。 Skill 和 AGENTS.md 的分工，官方说得很清楚，这条特别值得记：每次对话都要发给模型的指令，放 AGENTS.md；只在特定操作时才需要的指令，放 SKILL.md。这个分离能让上下文更聚焦。 Plugins：把上面这些打成一个能分发的包今年新出的一层，Codex plugins 是可复用的包，把 skills、app 连接器和 MCP 服务器捆成一个可安装单元。官方的思路是这样：Skills 是创作格式，Plugins 是安装分发单元。你先用 skill 设计工作流，稳定了，再打包成 plugin 给别人装。 Codex CLI v0.117.0（2026 年 3 月 26 日）把 plugins 提成了一等工作流原语，首发了 20 多个一方集成：Slack、Figma、Notion、Gmail、Google Drive、Cloudflare 等。注意是 20+，不是网上传的 90+——别被夸大的数字带偏了。这三层叠起来，才是 Codex 区别于“一个聊天框”的本质：你能把团队的最佳实践固化成标准，一键分给所有人。 ## 三、为什么我说它是目前最强执行引擎——但也别神化把 Codex 放到 Claude Code / Cursor / Devin 里横着看，它的优势我概括成五个词：云沙箱、异步委托、并行速度、生产力工具集成、审查执行分离。到这里你可能觉得我要开始吹 Codex 全面碾压了。其实并不会，我得先泼点冷水，因为这篇不是软文，是干货。 Codex 还不是全面碾压，几件事得说清楚：第一，SWE-Bench Pro 上它只是微弱领先 GPT-5.3-Codex 在 SWE-Bench Pro Public 上 56.8%，对比 5.2 的 56.4%——是守住了顶尖梯队，不是阶跃。真正大涨的是终端任务和电脑操作：新模型在 OSWorld-Verified 上几乎翻倍，SWE-Bench Pro 和 Terminal-Bench 都刷了新高。OSWorld 上人类水平大约 72%，它跑到 64.7%，已经很接近人了。第二，对手没闲着 Anthropic 今年 3 月 24 日上了 macOS 桌面控制，OpenAI 三周后的 4 月 16 日才跟进。更值得注意的——4 月 14 日，OpenAI 发布前两天，Anthropic 抢先发了重新设计的 Claude Code 桌面 app，带并行会话和能通过 API 或 GitHub 事件触发的自动化 Routines。Claude Code 在 Opus 4.6 beta 上那 100 万 token 上下文窗口，在大型代码库推理和多文件重构上是实打实的优势。所以我自己琢磨下来的判断是：Codex 最强的不是“想”，是“干”和“并行调度”。它是目前最强的执行与异步编排引擎，但深度推理和超大上下文重构，Claude Code 仍有一手，最佳实践其实是混着用的，这点我会放到系列后面专门写一篇。 ## 四、能直接抄的七条官方最佳实践这部分含金量最高，全部来自 OpenAI 官方 best practices，我挑出七条能立刻上手的。官方对 Codex 的定位有一句话，先记住：把 Codex 当成一个需要长期配置和打磨的队友，不是一个一次性助手。 1. Prompt 结构盯住四个东西： Goal（目标）+ Context（上下文）+ Constraints（约束）+ Done-when（完成标准）。复杂任务先开 plan mode。 2. 用 AGENTS.md 固化“持久指令” 官方的思路很清楚：从正确的任务上下文开始，用 AGENTS.md 做持久指引，配 Codex 匹配你的工作流，MCP 连外部系统，重复工作变 skills，稳定工作流自动化。支持层级覆盖——全局放 ~/.codex/AGENTS.md，项目从根目录开始，越靠近当前目录优先级越高。 3. AGENTS.md 保持精简这是新手最容易踩的坑。Codex 会把整个 AGENTS.md 加载进会话上下文，多余信息既浪费 token，又干扰结果。还有个反直觉的点：运行中改了 AGENTS.md，要重启或开新会话才会生效。 4. 别迷信自然语言约束官方自己也很坦诚：这是自然语言，模型很擅长理解你的要求，但不保证一定遵守。要更硬的控制，用 config.toml、rules、sandboxing 和审批设置。社区实测也印证了——光靠 AGENTS.md 指令遵守率只有 25-40%，做成运行时 hook 强制执行能到 95%。真正危险的操作——生产部署、删库、改凭证——别指望 prompt，用 execpolicy 和沙箱权限从根上锁死。 5. 永远要求验证让它写测试、跑 lint、用 /review。官方提了一个团队级的好模式：如果你和团队有 code_review.md 文件，在 AGENTS.md 里引用它，Codex 审查时也能照着那套指引走。 6. 推理档位别无脑拉满官方推荐 medium 作为平衡智能和速度的全能档。Codex 能自主工作数小时搞最难的任务，最难的时候才用 high 或 xhigh。无脑拉满只会更慢更贵。 7. 形成闭环把重复工作做成 Skill，稳定了打包成 Plugin 分发，事后复盘回写 AGENTS.md。这是一个 Kaizen 闭环——用得越久，你的 Codex 越懂你的项目。 ## 写在最后最近玩下来，我自己的感受是：2026 年的 Codex，最大的价值不是它又刷了几个 benchmark，是它真的把 agentic 编程从单点工具变成了可编排的平台层——云原生并行 + 插件化扩展 + 统一多表面 + 企业级集成。我觉得它倒不是来取代 Claude Code 或 Cursor 的，更准的说法是，它成了目前最强的执行与异步编排引擎。 Claude 的推理深度、Cursor 的 IDE 体验、Codex 的并行执行，三个其实是互补的。但平台再强，也得你会用是吧，所以这个系列接下来一篇一篇拆——下一篇从 AGENTS.md 开始，把“怎么写一个不浪费 token 又真能管住 agent 的指令文件”讲透。这一篇先到这，有具体想先看哪块——MCP 实战配置、Skills 编写、多 Agent 编排、还是混合栈怎么搭——评论告诉我，我调后面顺序。

译OpenAI Codex 2026版以统一执行层+编排中枢架构覆盖App、CLI、IDE、Cloud、Web五入口，模型迭代至GPT-5.4 for Codex，Spark版快15倍。平台层由MCP、Skills（开放标准）、Plugins（可分发）构成。SWE-Bench Pro Public上56.8%微弱领先，OSWorld-Verified 64.7%接近人类；Claude Code在百万token重构占优，Codex强在异步执行与并行调度。最佳实践：Prompt含Goal/Context/Constraints/Done-when，用AGENTS.md固化持久指令，MCP按高频痛点优先配置。

Emad@EMostaque · 6月16日60

With the acquisition of @cursor_ai the AI run rate of $SPCX will actually go above that of OpenAI, Google Cloud and AWS (!)

译随着收购 @cursor_ai，$SPCX 的 AI 运行率将超过 OpenAI、Google Cloud 和 AWS (!)

Tibo@thsottiaux · 6月16日39

Oy. We are aware that some Codex users are experiencing high error rates with "model at capacity" and are working to bring things back to being stable. https://status.openai.com/

译注意。我们注意到部分 Codex 用户遇到 "model at capacity" 导致的高错误率，正在努力恢复稳定。

Chubby♨️@kimmonismus · 6月16日11

SpaceX and Cursor have signed an all-stock merger agreement valuing Cursor at $60 billion, with the deal expected to close in Q3 2026 via SEC latest filing

译SpaceX 和 Cursor 已签署全股合并协议，对 Cursor 估值 600 亿美元，据 SEC 最新文件，该交易预计于 2026 年第三季度完成。

Chubby♨️@kimmonismus · 6月16日68

Official now: SpaceX is officially buying Cursor in an all-stock deal valued at $60B. The move gives Elon Musk’s AI empire a serious enterprise coding product overnight, and could help xAI close the gap with Anthropic’s Claude Code and OpenAI’s Codex. However, the truth is that it now seems that xAI is increasingly renting out its data centers and offering them as a hyperscaler rather than actually wanting to participate in the race for the SOTA model.

译SpaceX 与 AI 编程工具 Cursor 签署全股票合并协议，交易估值 600 亿美元，预计 2026 年 Q3 完成。该收购使马斯克 AI 帝国（xAI）一夜之间获得企业级编程产品，有助于缩小与 Anthropic Claude Code 和 OpenAI Codex 的差距。但评论指出，xAI 正越来越多地将数据中心出租为超大规模云服务商，而非真正参与 SOTA 模型竞赛。

🚨 AI News | TestingCatalog@testingcatalog · 6月16日75

SpaceX 🔥 Cursor SpaceX has signed a definitive agreement to acquire Cursor for $60 billion, as per SEC filing. AI M&As are huge 👀

译SpaceX 🔥 Cursor 根据SEC文件，SpaceX已签署最终协议，以600亿美元收购Cursor。 AI并购真够大的👀

Rohan Paul@rohanpaul_ai · 6月16日52

The paper is saying that Claude Code works well not because it has a complex AI brain, but because a simple AI loop is surrounded by a huge, carefully built system for tools, safety, memory, permissions, and recovery. The authors studied the public TypeScript source and found that the main agent loop is very small: call the model, run approved tools, add results back, and repeat. What takes up most of the system is the harness, meaning the regular software around the model that decides what tools exist, what actions are allowed, what gets remembered, and what happens when things fail. They also show that context management is a major design problem, so Claude Code uses several layers to shrink or summarize older information before the model runs out of space. autonomy does not remove infrastructure, it increases the burden on infrastructure. A coding agent that can run shell commands and edit files cannot be treated like a chatbot with plugins, because every action has side effects and every side effect needs a boundary. ---- Link – arxiv. org/abs/2604.14228 Title: "Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems"

译论文分析Claude Code，其有效工作核心并非复杂AI大脑，而是简单AI循环——调用模型、执行已批准工具、回传结果、重复——被精心构建的外围系统（工具、安全、记忆、权限、恢复）包裹。作者研究公开TypeScript源码，主agent循环代码量极小，大量代码来自harness（常规软件），负责定义工具、权限、记忆及故障处理。上下文管理是主要设计挑战，采用多层压缩或总结旧信息避免模型空间耗尽。论文强调能运行shell命令和编辑文件的编码智能体不能等同于带插件的聊天机器人，每个动作都有副作用，需要明确边界约束。

向阳乔木@vista8 · 6月16日25

去年写的文章，现在越发觉得重要。只需注册一个域名，你就能获得很多资源。现在AI Coding这么方便，域名 + VPS，可玩性非常高，强烈推荐大家都注册一个自己的域名。

译博主回顾去年文章，认为如今 AI Coding 工具普及，注册个人域名搭配 VPS 的可玩性大幅提升，能获得大量资源，强烈推荐大家注册自己的域名。

宝玉@dotey · 6月16日50

这哥们搞了个 Llama 3.3 70B 扫描代码库，报的问题都是错的，纯制造互联网垃圾，我得去拉黑了 https://github.com/JimLiu/baoyu-design/issues/9

译用户指责某人使用Llama 3.3 70B扫描代码库，生成的错误报告全是错误的，认为这种行为纯粹是在制造互联网垃圾，并决定将其拉黑。该推文附带了相关GitHub issues链接。

宝玉@dotey · 6月16日26

Claude Code 的 dynamic workflows 用不起，一个简单任务，几分钟就 31 个 Agents，消耗了 1.3 M Tokens，周 Token 用量从 11% 跳到了 20%（Pro @ 20x），犯不着呀，慢点我可以的！

宝玉@dotey · 6月16日74

baoyu-design skill（让你本地运行 Claude Design 的 Skill）更新，本地生成 PPT 的效果，可以借助 Cursor、Codex 内置的浏览器预览 PPT，也可以直接用它们的标记工具修改 PPT 细节。按 F 键可以全屏播放。还可以导出成可以编辑的 PPTX https://github.com/jimliu/baoyu-design

译baoyu-design skill（本地运行 Claude Design 的 Skill）更新，支持在本地生成 PPT，可借助 Cursor、Codex 内置浏览器预览和标记修改，按 F 键全屏播放，并能导出为可编辑的 PPTX。同时支持导入 Figma 本地 .fig 文件，根据 Figma 重建本地设计系统，效果与 Claude Design 在线版一致。该功能借助 Claude Fable 5 开发，但 Token 消耗较大。

jason@jxnlco · 6月16日1

what do you want him to write about?

译你想让他写什么？

jason@jxnlco · 6月16日18

should the next article be around 1. goals and long running tasks 2. difference between @.computer @.chrome @.browser

译下一篇应该围绕 1. 目标和长期运行任务 2. @.computer、@.chrome 和 @.browser 之间的区别

宝玉@dotey · 6月16日22

用 Codex 反编译 Codex App 源码😜

AYi@AYi_AInotes · 6月16日63

高频用 Codex 的人，建议立刻做这件事：让 Codex自己帮你挑官方插件，效率直接翻倍， OpenAI 官方插件覆盖场景极全，表格处理，PPT 制作，服务器部署，本地文件操作，自动化流程开发，日常工作需求基本都能覆盖。多数人不知道该装哪些，自己挨个筛选效率极低，三步即可完成配置： 1️⃣打开对应项目的对话窗口，让它进入 Plugins 页面 2️⃣让它结合当前项目目标，筛选适配插件，并说明每个插件的用途 4️⃣评估确认后，直接让它帮你完成安装核心逻辑很简单：让 AI 帮你用好 AI 不用自己对着插件库盲目试，因为它比你更清楚哪些工具能真正提效。

译高频使用 Codex 的用户应让其自行挑选 OpenAI 官方插件，效率翻倍。官方插件覆盖表格处理、PPT 制作、服务器部署、本地文件操作、自动化流程等日常需求。具体三步：打开项目对话窗口进入 Plugins 页面；让 Codex 结合项目目标筛选适配插件并说明用途；评估确认后直接让 Codex 完成安装。核心逻辑是让 AI 帮你用好 AI，避免盲目试错。

meng shao@shao__meng · 6月16日67

Agentic Code Review 作者 @addyosmani 随着工程瓶颈已从「写代码」转移到「能否信任代码」，代码审查成为当前软件工程里杠杆最高的能力。 # 四份独立来源（Faros AI、CodeRabbit、GitClear、GitHub）指向同一结论： · 代码产出约 4 倍，实际交付价值仅约 +10%：多出来的 90% 是「待验证的代码」 · 代码 churn +861%、缺陷率 9%→54%：质量与可审查性在下降 · 零 review 合并的 PR +31%、review 时长 +441%：不是「决定不 review」，而是 review 跟不上量 · AI 共著 PR 问题数约 1.7 倍：弱点可预测：逻辑、安全、可读性 # 最重要的前提：你在光谱的哪一端 Osmani 反复强调：大多数争论是不同处境的人互相 prescribing。三个变量决定 review 策略： · 爆炸半径 — 坏了会怎样（无人用 vs 用户/金钱/PII） · 代码寿命 — 下周重写 vs 维护十年 · 理解者数量 — 只有你 vs 整个团队 solo 无用户：可 lean on 测试 + 自动化，轻量 review；但「无用户 ≠ 无验证」，跳过 review 只是把债往后推。有用户的中期（最危险）：仍沿用 solo 习惯，直到事故/postmortem 才醒悟。大型老系统 + 多用户：文中所述所有 alarming 数据全部适用，review 同时承担 bug 捕获、知识传递、 comprehension debt 防控。 # Review 的本质变了传统 review：作者在脑子里已有 intent，reviewer 核对推理。 Agentic review：agent 有 reasoning，但几乎从不随 diff 附上；reviewer 常是第一个真正读这段代码的人，还要重建从未写下来的 intent——这比旧模式更难、更慢，解释了 review 时长暴增。可解的部分（工具问题）： · 要求 agent 提交：做了什么、排除了什么、决策日志 · 把 intent 重建成本推回提交方，而非 reviewer 吸收不可完全外包的部分（人的问题）： · 「这段代码对不对」 vs 「该不该做这件事」 · 没人写进 spec 的需求缺口 · 高爆炸半径下的 accountability # AI Review 工具：不要选「最好的一个」，要跑「不同的几个」实证（146 个 PR、4 个 reviewer 并行）： · 93.4% 的 flagged 位置只被 1 个工具发现 · 四个工具从未同时 flag 同一行 · 各有强项：Greptile（正确性/架构）、CodeRabbit（覆盖面+修复）、Seer（生产严重度）结论：同质模型 × 4 = 一个 reviewer + 四倍账单；异构 reviewer 组合才接近「对抗式审查」。高 stakes 跑两个性格不同的；solo 一个 good reviewer + 真测试通常够用；必须在自己代码库上实测。 # 人的角色：从 loop 里到 loop 上 Osmani 的立场（也是文中最具操作性的框架）： · 「人类逐行读每个 diff」已不现实 · 「让 loop 自审自判然后走人」同样危险 — 同源模型的 correlated blind spots，会形成借来的 confidence · 正解：human on the loop，而非 in the loop · 机器：第一遍 triage、低风险/fast-track、重复性检查 · 人：merge 决策、高风险路径、plan/judgment、抽样审计他自己的做法：用 Claude Code/Codex 对一批 PR 做风险排序 triage，几分钟确认低风险项，把深度 attention 留给 flagged 项——不是 review 变快，是 review 的形状变了。 Kun Chen（~40 PR/天）是光谱另一端：plan 写在前、agent 并行跑、自动化 gate（No Mistakes）、人负责 escalation——不是不 verify，是把 verify 前移/自动化；复制到企业多用户系统 ≈ 复现 Faros 数据。 # 可执行的 Review 体系（重要！） 1. 按风险分层，不按作者分层配置改 → linter + 一眼；核心路径 → types、tests、双 AI reviewer、owner 人工、安全 pass。 2. upfront triage（circuit breaker） Agent PR 约 28% 可快速合并；大 patch、高维护成本 PR 应先预测、再决定是否投入 human hour——否则 agent 常在主观反馈后 ghost，reviewer abandonment 占 rejected agent PR 的 38%。 3. 提高 intake 门槛（证据 required）变更目的陈述、合理大小的 diff、真实跑过的 test output——把「第一个读代码的人」从 reviewer 推回 author/agent。 4. 刻意小 PR Agent PR 平均大 51%；大 diff 要么被拒，要么被 rubber-stamp。 5. 先读 test diff，再读 implementation 典型 failure mode：改行为 → 改 assertion 让测试变绿。绿 check ≠ 行为正确；mutation testing 在此有价值。 6. CI 是不可谈判的墙警惕：删测试、skip lint、降 coverage、重复 helper、用户输入进 prompt 无防护。Agent 会「梯度下降」到最便宜的 green——CI 不能被说服。 7. 人 owns merge AI review 是 sensor，不是 verdict；能点 merge 的人 = 能 on-call 的人。 # 对团队负责人的含义 · binding constraint 已是「trusted human 确认速度」，不是 generation 速度 · 因「AI 提速」砍 review/QA 人力 = 把节省换成未来 incident · Review capacity 是需度量、保护、 deliberate 花费的资源，不是 AI 解放出来的 slack · OS maintainer 的 triage 地狱是 canary；企业若只盯 merged PR 指标，会看不见 senior engineer 被 review tax 拖垮

译数据指出，AI辅助下代码产出约4倍，但交付价值仅+10%，90%为待验证代码；代码churn+861%，缺陷率从9%升至54%；零审查合并PR增加31%，审查时长+441%。实测146个PR发现，93.4%被标记位置仅一个工具发现，四工具从未同时标记同一行。策略建议：按风险分层（配置改→linter，核心路径→双AI+人）、前置triage、提高PR门槛（要求意图说明+测试输出）、刻意小PR、先读测试再读实现、CI不可妥协、人类负责merge决策。