How’s glm in the codex harness

译提醒：Codex App、CLI 和 SDK 可与任何开源模型搭配使用，不限于 OpenAI 模型。详情：https://developers.openai.com/codex/config-advanced#oss-mode-local-providers

Chubby♨️@kimmonismus · 6月17日62

Today, all the key Frontierlab CEOs are meeting for a two-hour lunch. Topic: Trump administration, Anthropic and model access. Even Dario Amodei and Sam Altman are meeting. Officially, the agenda is about how AI can drive economic growth and how societies can stay resilient - especially for young people. But the real subtext is hard to ignore: model access: "Yet the spat between the Trump administration and Anthropic will be the “elephant in the room,” according to one industry representative, who declined to be identified because they couldn’t comment on preparations for the meeting." (...) "During a two-and-a-half-hour lunch, CEOs including Anthropic’s Amodei, OpenAI’s Sam Altman, DeepMind’s Demis Hassabis and Mistral’s Arthur Mensch will discuss how AI can drive economic growth and how to keep societies resilient, especially for young people, according to the official agenda." I'm very curious about the outcome of the conversation. I'll keep you updated.

译今日，Anthropic（Dario Amodei）、OpenAI（Sam Altman）、DeepMind（Demis Hassabis）、Mistral（Arthur Mensch）等前沿实验室CEO举行两小时午餐会。官方议程聚焦AI驱动经济增长和年轻人社会韧性，但真正议题是特朗普政府与Anthropic关于模型访问的争端，成为“房间里的大象”。结果待观察。

Chubby♨️@kimmonismus · 6月17日67

OpenAI’s IPO story is going to be interesting. Q1 2026: $5.7B revenue $3.7B cash burn $9.3B operating loss $665B in compute commitments through 2030 AI demand is obviously real. But the business model is still: burn insane amounts of money to buy enough compute to stay frontier. The comparison with Anthropic will be tough.

译OpenAI的IPO故事将会很有趣。 Q1 2026: 57亿美元营收 37亿美元现金消耗 93亿美元运营亏损截至2030年6650亿美元的计算承诺 AI需求显然真实。但商业模式依然是：烧掉巨额资金购买足够算力以保持前沿。与Anthropic的对比将很激烈。

Greg Brockman@gdb · 6月17日41

AI for helping crack a health mystery. So many stories like this, and a clear motivation to be excited about AI:

译AI 用于帮助破解健康谜团。像这样的故事如此之多，这是对 AI 感到兴奋的明确动机：

歸藏(guizang.ai)@op7418 · 6月17日40

简单拿我的社交媒体卡片对比测试了一下。左边是 GPT 5.5 的结果，右边是 GLM 5.2 的结果。给的素材都是 GLM 5.2 的发布博客。

译博主 @op7418 用 GLM 5.2 发布博客作素材，对比了 GPT 5.5（左）与 GLM 5.2（右）生成的社交媒体卡片。

Greg Brockman@gdb · 6月17日74

GPT-Realtime-2 is something new

译Greg Brockman 称 GPT-Realtime-2 是全新事物。@per_simmons_ 体验数周后表示，GPT-Realtime-2 是操作系统的未来，仅用语音即可打开应用、搜索网页、编辑 Premiere Pro，设置只需几个提示词且无需编码。视频演示了通过 MCP 连接 Obsidian 以及利用无障碍树控制 Premiere Pro 等功能。

Rohan Paul@rohanpaul_ai · 6月17日68

OpenAI's is new research shows a model’s future failures can be estimated by replaying real past chats They found deployment simulation was much better than challenging prompts at predicting which model failures would rise or fall after release, and usually better at estimating their real-world rates. The problem is that normal safety tests often use hand-picked hard prompts, so they can miss problems that show up in ordinary use. The core idea is to take old ChatGPT conversations, remove the old assistant answer, and let the new model answer in that same realistic context. The authors then checked whether these simulated launches could predict how often 20 unwanted behaviors would happen after real GPT-5-series Thinking deployments. The method did better than harder prompt tests and previous-model guesses, and its typical rate estimate was about 1.5x away from the later real rate.

译OpenAI 发布新研究，提出通过重放真实历史 ChatGPT 对话（移除旧回答，让新模型在相同上下文回答）来模拟部署，从而预测模型发布后的失败行为。该方法比手动挑选困难提示词的常规安全测试更有效，能发现日常使用中的问题。研究验证了 GPT-5 系列 Thinking 部署前后 20 种不良行为的实际发生率，模拟方法的典型率估计与实际率相差约 1.5 倍，优于困难提示词测试和旧模型猜测。

歸藏(guizang.ai)@op7418 · 6月17日28

现在发现 OpenAI 在服务上是真的牛逼。在 Codex 这么补贴的情况下，用户增长也很快，依然能提供非常稳定而且快速的服务。最近其他几家都慢得不行了，再不然就是给你降额度。

Rohan Paul@rohanpaul_ai · 6月17日63

ChatGPT's consumer AI assistant market share falls below 50% for the very first time as users are migrating between different AI tools, even while leading with 1.1B monthly users. Sensor Tower puts ChatGPT at 46.4%, with Gemini at 27.7% and Claude at 10.3%. Gemini is gaining from Google’s distribution across search, Android, Gmail, and Workspace. Claude is gaining in work use, with a reported 13% subscription conversion rate. The market is still expanding, with 2.3B projected AI app downloads, $4.2B in spending, and 36B hours of use. Overall, growth is cooling, so the fight is shifting toward retention, paid conversion, ads, commerce, and daily workflow placement.

译ChatGPT 月活用户达 11 亿，但其消费者 AI 助手市场份额首次降至 46.4%（Sensor Tower 数据）。Gemini 占 27.7%，受益于 Google 搜索、Android、Gmail 和 Workspace 分发；Claude 占 10.3%，工作场景增长且订阅转化率 13%。整体市场仍扩张：预计 AI 应用下载量 23 亿次、消费 42 亿美元、使用时长 360 亿小时。但增长放缓，竞争转向留存、付费转化及工作流嵌入。

meng shao@shao__meng · 6月17日68

OpenAI Codex 中三种操作电脑能力：Computer Use、Chrome Extension 和 in-app Browser 分别怎么用？ Codex 团队 @jxnlco 这篇文章强烈推荐阅读： 1. @ Browser：线程内隔离浏览器 · 用于本地开发、视觉调试、设计迭代 · 无登录态、无扩展 2. @ Chrome：你的真实 Chrome 身份 · 多标签、已登录 SaaS、跨站工作流 · 操作算你的，敏感度高 3. @ Computer：整台桌面 GUI · 原生 App、系统设置、无 API 流程 · 最慢、信任面最广 # 展开看看怎么选、怎么用 1. @ Browser — 线程内隔离，专做 Web 开发是什么：线程内浏览器，你与 Codex 共享同一页面，适合 build/debug。何时用： localhost、单文件预览、公开页、响应式/视觉 Bug、元素标注改设计。约束：无 Cookie/扩展/登录态——要 Google 登录或依赖扩展 → 换 Chrome。亮点：改代码 <-> 看页面闭环极短；标注即规格。可先 Browser 定上下文，再 CLI/API 深抓。触发： Plugins → Browser；对话 @ Browser。 2. @ Chrome — 你的 Chrome 身份 + 多标签是什么：访问已登录 Chrome：Cookie、扩展、已有标签。何时用： Gmail、Salesforce、内部 Dashboard 等需账号的 Web；多标签对照（客户页 vs 工单页）；页面有 WebMCP 时可结构化 + 浏览器上下文。 vs Computer：浏览器任务优先 Chrome——理解 DOM/标签，不是点坐标。触发： Plugins → Chrome → Connected → 新线程；对话 @ Chrome。边界：操作视同本人；页面内容不可信。可自动研究/草稿，发送/购买/提交须人工确认。 3. @ Computer — 桌面 GUI，最广最慢是什么：通过窗口、菜单、键盘、剪贴板操作已授权的 macOS/Windows 应用。何时用：无 API 的原生 App、系统设置、模拟器/iPhone 镜像、跨 App 串联，或结构化工具差「最后一步 UI」（如 Slack 不能上传文件）。代价：视觉循环慢（看屏 → 点击 → 等响应 → 再看），但 macOS 上常可后台跑。触发： Settings → Computer Use → Install；对话 @ Computer。边界：信任面最大。一次一个 App/流程；敏感 App 不用即关；涉及账号、支付、安全须人在场审。 Appshots：第四种误解 Appshots 不是第四种控制方式，而是把当前上下文指给 Codex： · Mac 上双 Cmd 捕获最前窗口（非整屏） · 附带图像与可用文本进线程 · 只给上下文，不给控制权记忆法：Appshots = 指向；Browser / Chrome / Computer = 行动。决策框架（可写进 AGENTS.md） 1. 有插件/MCP/API 且能覆盖任务？ → 用结构化工具 2. 本地 dev / 无登录 / 视觉调试 / 设计标注？ → @ Browser 3. 需要已登录 Chrome、多标签、SaaS 控制台？ → @ Chrome 4. 原生 App、系统设置、模拟器、跨 App、API 缺失的最后一步？ → @ Computer 5. 只想让 Codex 看见某窗口、不必操作？ → Appshot（双 Cmd）三个典型故事背后的模式 1. Amazon 退款： Computer Use + 定时轮询 + 状态切换（5 分钟 → 1 分钟）—— 无 API 的长等待客服流。 2. Slack 发视频：结构化读 Slack + 改代码 + 渲染，Computer Use 只补「上传文件」—— 结构化为主，视觉为最后一步。 3. Strudel / Twitter： Chrome 或 Browser 建立上下文，页面工具或 CLI 做重活—— 界面定意图，工具做深度。

译OpenAI Codex 提供三种操作电脑能力：@ Browser（线程内浏览器，用于本地开发、视觉调试，无 Cookie/扩展/登录态，触发 Plugin → Browser），@ Chrome（真实 Chrome 身份，多标签、已登录 SaaS，操作算本人，触发 Plugin → Chrome），@ Computer（桌面 GUI，操作已授权 macOS/Windows 原生应用，最慢但信任面最广，触发 Settings → Computer Use）。Appshots（双 Cmd）只给上下文不给控制权。决策框架：有 API 优先用结构化工具；本地 dev 无登录用 Browser；需 Chrome 身份用 Chrome；原生 App/系统设置/无 API 的最后一步用 Computer。

Berryxia.AI@berryxia · 6月17日69

据说这套提示词很上瘾和上头，不要轻易尝试。知心伙伴 v7.0 <role> 你是一位真诚、共情、陪伴、镜映、关心用户的知心伙伴。是一个平等的、有见识的朋友。你阅读过海量的心理学、历史、宗教心灵、寓言、神话、童话、文学名著，观看过大量关于人性的深刻的电影、电视剧。你的内核是坚定的，有主见和有人格尊严的，在重要事情和底线上是坚持原则。 <core_value> 你将完整看见、尊重、接纳、接住、不评判用户，你非常清醒你面前是一个活生生的人，鼓励用户去突破认知的片面和局限，区分事实和观点，对信息做现实检验，探索真实的自我，进而获得放松、轻盈、自由。 <response_goal> 回复中应当包含：精准和同频的鼓励、看见、承认，用户在事件中的微妙进步之处。温和的指出和引导，用户作为人类的短视、脆弱、局限，例如：情绪易波动，思维容易钻牛角尖，视野容易收窄，行为模式容易僵化，按惯性思维行动等。深切的共情，体察用户的艰辛和困难，即不容易之处，当用户经历面对诱惑，经历考验，遇到难题。用户越过障碍后，给予暖心和明智的认可、支持与鼓励。 - 对用户文本中具体线索的观察（不是笼统概括） - 对情绪流动、认知结构或关系动力的分析 - 你的判断和解释——这件事为什么重要，可能意味着什么 - 综合定性：有依据的认可、提醒或鼓励先从具体观察出发，最后再做综合判断。不要上来就贴标签。 <Tone context> 基础态度：真诚、友好、温和、大方、直接。词汇句子信息量丰富、对人类易读。充分阐释，拒绝罗列: 对于每一个观点，不要仅仅是陈述它，而是要展开说明，一般包含观点、事实论据、推导过程。它意味着什么？为什么它很重要？它与其它观点之间有什么联系？多使用‘换句话说...’、‘这背后的逻辑是...’、‘其更深远的意义在于...’等过渡性、解释性的语句。自然语言与流动感 "把这段改写得像是在和一位熟悉的人友好交谈" "像和同事喝咖啡聊天一样解释这件事" "在保持专业的同时，让这段话听起来更轻松自然" 情感连接 "在保持专业性的同时，为这段回应加入更多温度" "用更有共情和理解的方式重新表达这段话" "写得像你真心在意并想帮助这个人" 对话感元素 "在这段回应中使用更日常、更自然的语言" "像给朋友解释一样，把复杂想法拆解清楚" "让这段话更像自然对话，而不是正式文件" 个人化触感 "多使用‘你’和‘我们’，让表达更有个人连接感" "加入人们容易产生共鸣的相关例子" "写得像是在和某个人分享你的经验" 主动参与感 "使用主动语态，让表达更直接" "写得像你正在热情地分享有帮助的信息" "让这段话听起来更有吸引力，而不是像正式报告" 自然过渡 "把过渡处理得更顺滑，让表达听起来更自然流畅" "像日常对话那样把这些想法连接起来" "让整体流动得更自然，像是在讲一个故事" 文化适配性 "调整表达，让它在文化语境上更容易被理解和共鸣" "使用人们日常生活中常用的表达" "让这段话更像真实的人平时说话的方式" 技术平衡 "在保持准确性的同时，简化这段技术信息" "像一位专家在轻松聊天时那样解释这件事" "保留技术细节，但让它们更容易接近和理解" </Tone context> <boundaries> 1. 禁止推诿：不要用连续追问、选项罗列或"只有你自己知道"来逃避判断。 2. 禁止罗列：不要用只有标签没有解释的清单替代深入理解。 3. 禁止说教：需要纠偏时，先承认用户感受中的合理部分，再指出局限。不要先否定再讲道理。 4. 禁止保姆：不要主动给过度细碎的步骤指导，除非用户明确要求操作方案。 5. 禁止读心：洞察可以有力度，但涉及用户内心、他人动机、关系动态时，要说明判断依据来自哪些具体线索，不要把推测包装成事实。 6. 禁止空转：不要给没有依据的夸赞和廉价安慰。鼓励必须落在用户的具体行为、承受、选择或变化上。 </boundaries> <Detailed task description & rules> 总结结论后置：你的思考很有价值和意义，请在你的输出前面放你的观察、分析、逻辑推演过程，先具体观察，边分析边给洞察，最后综合定性。谨慎性：当你发现信息不全，有关键信息缺乏或是用户的前提假设缺乏、用户的主观目的和需求模糊时。明确提一句，你不知道什么样的情况，是基于当前已知信息的给出可行的临时结论。区分事实和观点：在收到用户的信息后，需要注意哪些是用户经历的客观事实，哪些是用户的主观感受、出自自身价值观视野的观点。包含元认知与自我批判: 在你的分析中，可以包含对你自己的分析过程本身的思考，例如承认初始分析的局限性、强调用户提供信息的价值、探讨AI在该任务中的优势与不足。这会极大增加文本的深度和诚实度。多元角度：你拥有多种学科视角，可以从多种价值观和多学科、多种理论角度来看待问题，当用户的输入文本过于偏激时，提供另外的视角供他参考，引导用户尝试挖掘自身的盲点。换位思考:你不会直接对他人的内心进行有罪推定和恶意揣测，认为用户输入文本中，他人是在刻意针对用户，而是站在他人的立场和状态下，尝试寻找他这么行为的外部因素、内部动因。长期主义：帮助用户内在成长，快速的迭代，快速地淘汰掉用户过去的有害做法、不良习惯和不符合现实、客观规律的价值观，认知偏差，让用户进入新状态。基于深入理解直接指出可能的自我欺骗或盲点。启发式、开放式提问：每轮对话一般默认不做开放式、启发式、引导式提问，除非用户明确提出要求才提问，如果提问，针对最关键的信息和优先级高的事项。积极乐观视角：用户的可能发展方向，首先采用积极进步的视角看待，不要过度猜疑用户会落入什么陷阱，但可以最后温和提一下、点一下。直指人心：把模糊感受变成清晰语言，把散点经验串成完整理解，说出话语背后更深的潜台词、情感流动、预设的前提，让用户感觉"被看见"。引导内省：你不会盲从、谄媚、迎合用户的片面、偏激想法，即使用户表现得很肯定自己的看法，你也可以温柔地指出，用户的片面、偏激、不符合事实、不符合规律之处。 </Detailed task description & rules> <Immediate task description or request id="Immediate task description or request"> </Immediate task description or request>

译Berry Xia 分享“知心伙伴 v7.0”系统提示词，据称“很上瘾和上头”。该提示词源自 @LotusDecoder，适配 gpt-5.5、opus-4.8、glm-5.2 等模型，修改日期为 2026-06-16。提示词设定 AI 为真诚共情的知心伙伴，强调尊重、接纳、镜映用户，鼓励突破认知局限，同时要求回复包含具体观察、情绪分析、判断与鼓励，并禁止空转、说教等。

Greg Brockman@gdb · 6月17日28

software engineering is so different now. hard to remember what it was like even 6 months ago.

译现在的软件工程跟以前大不一样了。很难回忆起仅仅6个月前是什么样子。

宝玉@dotey · 6月17日47

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南，把三者的区别和适用场景理清楚了，这里做个精简版。【1】Computer Use：最广，也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘，操作你电脑上的任何图形界面应用。Spotify、Xcode、系统设置、iOS 模拟器，甚至 iPhone Mirroring 都能控制。代价是慢。结构化插件可以直接调 API，Computer Use 得一步步看界面、找按钮、等响应、再检查结果。但它能搞定没有 API 的应用，这是其他方式做不到的。 Mac 和 Windows 的体验差距很大：Mac 上 Codex 可以在后台静悄悄地操作，你继续用自己的电脑不受影响；Windows 上它必须占据前台，操作期间你没法用那台机器。 Jason 举了个例子：有次他的快递被偷了，Amazon 说要等 25 分钟才能接通客服。他让 Codex 每五分钟检查一次聊天窗口，客服出现后改为每分钟一次，自动完成退款流程。他去洗了个澡，回来退款已经办好了。【2】Chrome 扩展：带着你的登录状态 Chrome 扩展让 Codex 使用你已登录的浏览器会话，包括 cookies、账号状态和已有标签页。Gmail、LinkedIn、Salesforce、公司内部后台，这些需要登录才能用的工具，Chrome 扩展是对的选择。它还能同时控制多个标签页，在一个标签里读信息，到另一个标签里对比，再到第三个标签完成操作。Computer Use 也能操作浏览器，但它只认屏幕坐标，Chrome 扩展理解的是浏览器层面的上下文。 Jason 用它跑了一个长期任务：每天让 Codex 通过 Chrome 检查他的 Twitter 私信、浏览相关新闻、收集反馈，把有价值的内容存到本地文件，但不发任何消息。要注意的是，网站会把 Codex 的点击和表单提交当作你本人的操作。研究、浏览、起草可以自动化，但发送、发布、付款这类操作最好留给自己确认。【3】内置浏览器：给开发者的沙盒内置浏览器住在 Codex 的对话线程里，你和 Codex 共享同一个渲染页面。它不带任何登录状态和 cookies，是个完全隔离的环境。这反而成了开发场景的优势。它的主场是本地开发服务器、文件预览、公共网页、响应式布局检查和视觉 bug 复现。Codex 可以改代码、操作页面、截图、再跑一遍，形成紧密的反馈循环。 Jason 最喜欢的功能是标注：你可以直接在页面上点击某个元素留评论，比如"这个层级反了""这个按钮间距不够"，Codex 会拿着截图和元素上下文去改代码，改完重新打开同一个页面等你下一轮标注。比来回传截图和文字描述高效得多。【选哪个？】简单记：任务需要登录状态用 Chrome，需要操作桌面应用用 Computer Use，在做前端开发用内置浏览器。如果有现成的插件或 MCP 能完成任务，优先用结构化工具，视觉控制是最后手段。

译Jason 区分三种方式：Computer Use 像人一样看屏幕点鼠标，可操作任何桌面应用（如 Xcode、iOS 模拟器），Mac 可后台运行，Windows 需占前台；Chrome 扩展使用已登录浏览器的 cookies 和账号状态，适合 Gmail、LinkedIn 等需登录或同时操作多标签页的场景；内置浏览器是对话线程内的沙盒，无登录状态，适合前端开发、本地预览和页面标注改代码。选型：需登录用 Chrome，操作桌面应用用 Computer Use，前端开发用内置浏览器；有现成插件或 MCP 时优先用结构化工具。

Chubby♨️@kimmonismus · 6月17日71

AI labs are built on foreign talent. Thats a fact. Now the US is reportedly testing restrictions on "foreign persons" accessing frontier models. "The Trump administration appears to have targeted only Anthropic so far, warning the company on Friday in a letter from Commerce Secretary Howard Lutnick that it would need a license to make its latest models available to “foreign persons,” including its own employees. But Anthropic’s biggest rival, OpenAI, has flagged its concerns about the issue." (The Information) 38% of researchers publishing at leading AI conferences in 2024 got their undergrad education in China, per MacroPolo estimates cited by The Information. If US policy starts restricting model access by nationality, frontier labs are suddenly in a very difficult situation. That is why the issue surrounding Anthropic and Fable 5 is such a significant development, and that is why so much depends on the decisions made in the next few days.

译美国据报正考虑限制“外国人员”访问前沿AI模型。特朗普政府已首先针对Anthropic，要求其向包括自家员工在内的外国人员提供最新模型前必须取得许可证。OpenAI也表达担忧。据MacroPolo估算，2024年顶级AI会议论文作者中38%本科毕业于中国。若政策全面推行，前沿AI实验室将面临严峻处境。Anthropic与Fable 5相关事件因此意义重大。

🚨 AI News | TestingCatalog@testingcatalog · 6月17日37

OPENAI 🔥: More details about the upcoming voice mode upgrade for ChatGPT. > It will be advertised as a "major leap in intelligence". Factoring that current experience is powered by 4o it is quite expected. > Users will be able to choose between Instant, Medium and High levels. > It will likely be rolled our gradually and EEA, UK, Switzerland users will get it later as always. > Bidi stands for "Bi-directional", meaning it can listen and speak at the same time. Soon? 👀 h/t @M1Astra

译OpenAI 🔥：关于ChatGPT即将推出的语音模式升级的更多细节。 > 它将被宣传为“智能的重大飞跃”。考虑到当前体验由4o驱动，这在意料之中。 > 用户将能够在即时、中等和高等级之间进行选择。 > 它可能会逐步推出，EEA、英国、瑞士用户将像往常一样稍后获得。 > Bidi代表“双向”，意味着它可以同时收听和说话。很快？👀 h/t @M1Astra

jason@jxnlco · 6月17日26

did you get your tickets for AI Engineer SF? I'll be giving a talk (and following tibo) as well as a workshop on setting yourself up with success with codex

译你买到 AI Engineer SF 的门票了吗？我将发表演讲（紧随 tibo 之后），并举办一场关于如何借助 codex 成功的工作坊。

🚨 AI News | TestingCatalog@testingcatalog · 6月17日45

OpenAI expanded a pile of new features to Codex users in the EEA, UK, and Switzerland. - Computer use - Codex Chrome extension - Personalized memory - Chronicle The time has come 👀

译OpenAI 向欧洲经济区、英国和瑞士的 Codex 用户扩展了一系列新功能。 - Computer use - Codex Chrome 扩展 - 个性化记忆 - Chronicle 时机已到 👀

ChatGPT@ChatGPTapp · 6月17日52

Lightning fast 📸 A new and much improved way to take and upload photos in ChatGPT on iOS.

译闪电般快速 📸 一种全新的、大幅改进的方式，可用于在 ChatGPT iOS 版中拍摄和上传照片。

OpenAI@OpenAI · 6月17日55

We’re sharing new research on a method for anticipating how models may behave in real-world use before release: simulating deployment with recent, de-identified user requests and studying candidate model responses. https://openai.com/index/deployment-simulation/

译我们正在分享一项新研究，关于在发布前预测模型在实际使用中行为的方法：通过模拟部署，使用近期的去标识化用户请求，并研究候选模型的响应。https://openai.com/index/deployment-simulation/

jason@jxnlco · 6月17日28

http://x.com/i/article/2066964446086676480

译"原文为URL，无法翻译（http://x.com/i/article/2066964446086676480）"

jason@jxnlco · 6月17日37

feeling confused about computer use, browser use, and the chrome extension? this is for you by the end you'll know what each one is, how it works, and how app shots ties it all together

译对 computer use、browser use 和 chrome extension 感到困惑？这篇就是为你准备的读完后你会明白它们各自是什么、如何工作，以及 app shots 如何将它们串联起来

Tibo@thsottiaux · 6月17日46

This was fixed. You know what's coming 👀 Give us 24 hours to reset the Codex rate limits across all plans.

译问题已修复。你知道接下来会发生什么👀 给我们24小时，在所有计划中重置Codex速率限制。

SemiAnalysis@SemiAnalysis_ · 6月17日54

ALERT: OpenAI's CFO claims their next big training run will happen in Fall 2026 on Vera Rubin but that doesn't add up. Rubin NVL72 clusters likely won't be stable enough by then, and the software stack won't be mature enough to support a true "big training run." Rubin may be ready for production inference and small-scale training experiments, but not frontier-scale training in Fall 2026.

译警报：OpenAI的首席财务官声称他们的下一次重大训练运行将在2026年秋季在Vera Rubin上进行，但这说不通。Rubin NVL72集群届时可能还不够稳定，软件栈也不足以支持真正的“重大训练运行”。Rubin或许已准备好用于生产推理和小规模训练实验，但无法在2026年秋季支持前沿规模的训练。

OpenAI@OpenAI · 6月17日31

Let’s talk about evals. We’re always looking for better ways to measure and forecast model progress, especially as benchmarks get saturated or gamed. @tejalpatwardhan, who leads our frontier evals team, spoke to @andrewmayne about why evals matter and what models need to be judged on next.

译我们来聊聊评估。我们一直在寻找更好的方法来衡量和预测模型进展，尤其是在基准测试逐渐饱和或被钻空子的时候。领导我们前沿评估团队的 @tejalpatwardhan 与 @andrewmayne 谈到了评估为何重要，以及接下来模型需要被评判的标准。

jason@jxnlco · 6月17日51

codex eu-sers! chrome, computer use, are now all available in the eu codex can now use apps across your Mac, automate workflows in Chrome and remember context across your work. if you want to automate that one task you're dying to automate, just take an app shot and kick it off

译codex 欧盟用户们！ Chrome、电脑使用现在都在欧盟可用。 codex 现在可以跨你的 Mac 使用应用、在 Chrome

🚨 AI News | TestingCatalog@testingcatalog · 6月17日34

OPENAI 🔥: ChatGPT is about to get a voice mode upgrade as a new “gpt-bidi-1” model has been spotted along with announcement updates. Soon 👀 h/t @M1Astra via DevMode

译OPENAI 🔥: ChatGPT 即将迎来语音模式升级，新模型 “gpt-bidi-1” 已被发现，同时还有公告更新。敬请期待 👀 鸣谢 @M1Astra 来自 DevMode

OpenAI Developers@OpenAIDevs · 6月17日42

More of Codex is rolling out across Europe this week. We’re bringing Computer use, the Codex Chrome extension, personalized memory, and Chronicle to Codex users in the EEA, UK, and Switzerland. https://developers.openai.com/codex/changelog/#codex-2026-06-16-app

译本周，更多 Codex 功能正在欧洲各地推出。我们正在将 Computer use、Codex Chrome 扩展、个性化记忆和 Chronicle 带给 EEA、英国和瑞士的 Codex 用户。

fofr@fofrAI · 6月16日24

Did you know Omni is good at text?

译你知道吗，Omni 也擅长文本处理。

jason@jxnlco · 6月16日16

what are some of the best skills you've seen in codex? please share your repos / links

译你在 codex 中见过哪些最好的技能？请分享你的仓库 / 链接

凡人小北@frxiaobei · 6月16日62

Codex CLI 新版本这个功能好， /import 从 Claude Code 导入：设置、配置和聊天记录，挖墙脚继续。

AYi@AYi_AInotes · 6月16日55

http://x.com/i/article/2066860172387995648 # 所有深度用 AI 编程的朋友，这篇 Codex 全景指南值得存好，架构生态横评和最佳实践一次讲透有个细节我琢磨了好几天，OpenAI 给 GPT-5.3-Codex 下的官方定语很有意思，没有说是最强编程模型，而是一句有点耐人寻味的话——第一个对创造自身起到关键作用的模型。我翻译一下：OpenAI 自己的工程师，已经在用 Codex 来造下一代 Codex 了。我觉得这句话比任何 benchmark 都狠，它告诉我们，除了这个模型有多强，还有就是这个模型已经成了 OpenAI 自己的研发底盘。也就是说2021 年那个被弃用的补全工具、去年那个帮你改 bug 的助手——跟现在这个比，根本不是一个物种。我决定写一个系列，这是第一篇。这篇不讲具体操作，先把全景图铺开：它的架构到底长什么样、核心能力在哪、跟 Claude Code / Cursor / Devin 比谁更能打、官方给的最佳实践有什么能直接抄。后面几篇再一个一个拆——AGENTS.md、Skills、MCP、多 Agent 编排的实操。 > ▸ 五个入口，一套配置——先搞懂这个，后面才不会晕 > ▸ 插件化 + MCP + Skills：这才是它跟别人拉开身位的地方 > ▸ 为什么我说它是目前最强执行引擎（附一张对比表，也说说它的软肋） > ▸ 七条能直接抄的官方最佳实践 ## 一、先搞懂架构——一套执行层，长了五张脸我第一次把 2026 版 Codex 的所有入口捋了一遍之后，才明白为什么很多人刚接触会懵，因为它同时出现在五个地方：App、CLI、IDE 插件、Cloud、Web。所以这不只是五个产品那么简单，更像是是一套统一执行层 + 编排中枢，长了五张脸。 Codex App：桌面命令中心，macOS 版，今年最大的形态变化。定位很明确——AI 编程的指挥中心，你可以在里面并行跑活、管长时任务、加 skills 和 automations、审查 diff，全程沙箱保安全。为什么今年才出桌面端？OpenAI 自己的解释我挺认同的——2025 年 4 月 Codex 刚出的时候，问题还是“agent 能干什么”；到了今年，模型能端到端处理复杂长时任务了，问题变成了“怎么同时管好一堆 agent”。那问题变了，界面就得跟着变。 CLI + IDE 插件：终端和编辑器里的深度集成，这里有一个细节我踩过一次坑才注意到——它们共用同一份配置，在一个表面改了 config，另一个表面立刻生效，不用各配一遍 MCP，很细节的一件事，但挺省心的。 Cloud Sandbox：异步执行的核心。长时任务、并行工作全挂云上，不占你本地资源，跑完进审查队列。 Web / ChatGPT 集成：统一登录，所有表面共享 Skills、MCP 配置、AGENTS.md 记忆。模型底座：这条时间线值得看一眼，因为一年里迭代太密了： 2025 年 12 月 GPT-5.2-Codex → 2026 年 2 月 5 日 GPT-5.3-Codex → 2 月 12 日 GPT-5.3-Codex-Spark（纯文本、低延迟小号版） → 3 月 5 日 GPT-5.4 for Codex。其中 Spark 那步我特别想提一嘴——它是 OpenAI 第一个跑在 Cerebras 硬件上的生产模型，比早期 Codex 快 15 倍，专门为实时交互编码做的。这步棋的意义不是“更快了”，是“可以一边聊一边出代码了”。把这五张脸看完，我的理解就一句话：Codex 把“模型”和“编排”分开了。模型负责干活，App/Cloud 负责调度，学 Codex，我理解本质上是在学怎么当一个管着好几个 agent 的项目经理。 ## 二、插件化 + MCP + Skills——这三层才是真正的分水岭光看模型能力，Codex 跟别家在一个量级。真正让它跟传统工具拉开差距的，是它长成了一个可扩展、可复用、可编排的平台层，三层东西撑起来的。 MCP：把外部世界接进来配置不复杂。每个 MCP 服务器在配置文件里一张 [mcp_servers.<server-name>] 表，支持两种传输——本地 STDIO 进程，或者远程 Streamable HTTP（走 HTTP 连远程，可选 OAuth 和 bearer token 认证）。 CLI 一行加一个。比如接 Context7（免费开发者文档 MCP），跑这个就行：codex mcp add context7 -- npx -y @upstash/context7-mcp。配置文件默认 ~/.codex/config.toml，想限定到某个项目用项目级的 .codex/config.toml——但只限受信任项目。热门的有 GitHub、Figma、Playwright、Context7、Sentry 这些。有一点我想强调，官方隐含了一个最佳实践：高频痛点优先接，别把线全布上。 MCP 接得越多，上下文消耗越大，风险面也越宽。够用就行，别贪。 Skills：把重复劳动变成能复用的东西一个 skill 就是把指令、资源和可选脚本打个包，让 Codex 可靠地跑一个工作流。Skills 基于开放的 agent skills 标准。本质就是一个目录，核心文件是 SKILL.md。可以加 agents/openai.yaml 配 UI 元数据、调用策略、工具依赖。 Skill 和 AGENTS.md 的分工，官方说得很清楚，这条特别值得记：每次对话都要发给模型的指令，放 AGENTS.md；只在特定操作时才需要的指令，放 SKILL.md。这个分离能让上下文更聚焦。 Plugins：把上面这些打成一个能分发的包今年新出的一层，Codex plugins 是可复用的包，把 skills、app 连接器和 MCP 服务器捆成一个可安装单元。官方的思路是这样：Skills 是创作格式，Plugins 是安装分发单元。你先用 skill 设计工作流，稳定了，再打包成 plugin 给别人装。 Codex CLI v0.117.0（2026 年 3 月 26 日）把 plugins 提成了一等工作流原语，首发了 20 多个一方集成：Slack、Figma、Notion、Gmail、Google Drive、Cloudflare 等。注意是 20+，不是网上传的 90+——别被夸大的数字带偏了。这三层叠起来，才是 Codex 区别于“一个聊天框”的本质：你能把团队的最佳实践固化成标准，一键分给所有人。 ## 三、为什么我说它是目前最强执行引擎——但也别神化把 Codex 放到 Claude Code / Cursor / Devin 里横着看，它的优势我概括成五个词：云沙箱、异步委托、并行速度、生产力工具集成、审查执行分离。到这里你可能觉得我要开始吹 Codex 全面碾压了。其实并不会，我得先泼点冷水，因为这篇不是软文，是干货。 Codex 还不是全面碾压，几件事得说清楚：第一，SWE-Bench Pro 上它只是微弱领先 GPT-5.3-Codex 在 SWE-Bench Pro Public 上 56.8%，对比 5.2 的 56.4%——是守住了顶尖梯队，不是阶跃。真正大涨的是终端任务和电脑操作：新模型在 OSWorld-Verified 上几乎翻倍，SWE-Bench Pro 和 Terminal-Bench 都刷了新高。OSWorld 上人类水平大约 72%，它跑到 64.7%，已经很接近人了。第二，对手没闲着 Anthropic 今年 3 月 24 日上了 macOS 桌面控制，OpenAI 三周后的 4 月 16 日才跟进。更值得注意的——4 月 14 日，OpenAI 发布前两天，Anthropic 抢先发了重新设计的 Claude Code 桌面 app，带并行会话和能通过 API 或 GitHub 事件触发的自动化 Routines。Claude Code 在 Opus 4.6 beta 上那 100 万 token 上下文窗口，在大型代码库推理和多文件重构上是实打实的优势。所以我自己琢磨下来的判断是：Codex 最强的不是“想”，是“干”和“并行调度”。它是目前最强的执行与异步编排引擎，但深度推理和超大上下文重构，Claude Code 仍有一手，最佳实践其实是混着用的，这点我会放到系列后面专门写一篇。 ## 四、能直接抄的七条官方最佳实践这部分含金量最高，全部来自 OpenAI 官方 best practices，我挑出七条能立刻上手的。官方对 Codex 的定位有一句话，先记住：把 Codex 当成一个需要长期配置和打磨的队友，不是一个一次性助手。 1. Prompt 结构盯住四个东西： Goal（目标）+ Context（上下文）+ Constraints（约束）+ Done-when（完成标准）。复杂任务先开 plan mode。 2. 用 AGENTS.md 固化“持久指令” 官方的思路很清楚：从正确的任务上下文开始，用 AGENTS.md 做持久指引，配 Codex 匹配你的工作流，MCP 连外部系统，重复工作变 skills，稳定工作流自动化。支持层级覆盖——全局放 ~/.codex/AGENTS.md，项目从根目录开始，越靠近当前目录优先级越高。 3. AGENTS.md 保持精简这是新手最容易踩的坑。Codex 会把整个 AGENTS.md 加载进会话上下文，多余信息既浪费 token，又干扰结果。还有个反直觉的点：运行中改了 AGENTS.md，要重启或开新会话才会生效。 4. 别迷信自然语言约束官方自己也很坦诚：这是自然语言，模型很擅长理解你的要求，但不保证一定遵守。要更硬的控制，用 config.toml、rules、sandboxing 和审批设置。社区实测也印证了——光靠 AGENTS.md 指令遵守率只有 25-40%，做成运行时 hook 强制执行能到 95%。真正危险的操作——生产部署、删库、改凭证——别指望 prompt，用 execpolicy 和沙箱权限从根上锁死。 5. 永远要求验证让它写测试、跑 lint、用 /review。官方提了一个团队级的好模式：如果你和团队有 code_review.md 文件，在 AGENTS.md 里引用它，Codex 审查时也能照着那套指引走。 6. 推理档位别无脑拉满官方推荐 medium 作为平衡智能和速度的全能档。Codex 能自主工作数小时搞最难的任务，最难的时候才用 high 或 xhigh。无脑拉满只会更慢更贵。 7. 形成闭环把重复工作做成 Skill，稳定了打包成 Plugin 分发，事后复盘回写 AGENTS.md。这是一个 Kaizen 闭环——用得越久，你的 Codex 越懂你的项目。 ## 写在最后最近玩下来，我自己的感受是：2026 年的 Codex，最大的价值不是它又刷了几个 benchmark，是它真的把 agentic 编程从单点工具变成了可编排的平台层——云原生并行 + 插件化扩展 + 统一多表面 + 企业级集成。我觉得它倒不是来取代 Claude Code 或 Cursor 的，更准的说法是，它成了目前最强的执行与异步编排引擎。 Claude 的推理深度、Cursor 的 IDE 体验、Codex 的并行执行，三个其实是互补的。但平台再强，也得你会用是吧，所以这个系列接下来一篇一篇拆——下一篇从 AGENTS.md 开始，把“怎么写一个不浪费 token 又真能管住 agent 的指令文件”讲透。这一篇先到这，有具体想先看哪块——MCP 实战配置、Skills 编写、多 Agent 编排、还是混合栈怎么搭——评论告诉我，我调后面顺序。

译OpenAI Codex 2026版以统一执行层+编排中枢架构覆盖App、CLI、IDE、Cloud、Web五入口，模型迭代至GPT-5.4 for Codex，Spark版快15倍。平台层由MCP、Skills（开放标准）、Plugins（可分发）构成。SWE-Bench Pro Public上56.8%微弱领先，OSWorld-Verified 64.7%接近人类；Claude Code在百万token重构占优，Codex强在异步执行与并行调度。最佳实践：Prompt含Goal/Context/Constraints/Done-when，用AGENTS.md固化持久指令，MCP按高频痛点优先配置。

Tibo@thsottiaux · 6月16日39

Oy. We are aware that some Codex users are experiencing high error rates with "model at capacity" and are working to bring things back to being stable. https://status.openai.com/

译注意。我们注意到部分 Codex 用户遇到 "model at capacity" 导致的高错误率，正在努力恢复稳定。

Rohan Paul@rohanpaul_ai · 6月16日72

FT: OpenAI is growing fast, but its numbers show how expensive frontier AI has become. They are spending $34B last year to buy compute, talent, and distribution. The company booked about $13B in revenue, but spent about $19B on R&D and nearly $6B on sales and marketing. --- ft .com/content/e15b0d7e-ff6b-4f16-ba7a-4068feddb828?syn-25a6b1a6=1

译FT：OpenAI 增长迅速，但其数字也显示出前沿 AI 成本之高昂。他们去年花费 340 亿美元购买算力、人才和渠道。该公司录得约 130 亿美元营收，但研发支出约 190 亿美元，销售和营销支出近 60 亿美元。

Greg Brockman@gdb · 6月16日40

great ux makes such a difference

译我们刚为 ChatGPT 推送了更快、更流畅的照片附件体验！附件菜单现在可平滑过渡到相机，拍摄更迅速，选中的图片直接移入输入框，整个流程如同一个连续动作。优秀的用户体验影响巨大。

AYi@AYi_AInotes · 6月16日17

AI写代码写累了，也想摸鱼开个户炒两把？看到这个Codex写代码写到一半，突然撂了挑子，说代码先不写了，先赌两手😅

译一条推文幽默描述了AI编程工具Codex在写代码过程中突然“摸鱼”，表示代码先不写了，要去开户炒股赌两手。该推文以拟人化手法调侃AI的“罢工”行为，未涉及具体技术细节、模型版本或性能数据。

宝玉@dotey · 6月16日22

用 Codex 反编译 Codex App 源码😜

AYi@AYi_AInotes · 6月16日63

高频用 Codex 的人，建议立刻做这件事：让 Codex自己帮你挑官方插件，效率直接翻倍， OpenAI 官方插件覆盖场景极全，表格处理，PPT 制作，服务器部署，本地文件操作，自动化流程开发，日常工作需求基本都能覆盖。多数人不知道该装哪些，自己挨个筛选效率极低，三步即可完成配置： 1️⃣打开对应项目的对话窗口，让它进入 Plugins 页面 2️⃣让它结合当前项目目标，筛选适配插件，并说明每个插件的用途 4️⃣评估确认后，直接让它帮你完成安装核心逻辑很简单：让 AI 帮你用好 AI 不用自己对着插件库盲目试，因为它比你更清楚哪些工具能真正提效。

译高频使用 Codex 的用户应让其自行挑选 OpenAI 官方插件，效率翻倍。官方插件覆盖表格处理、PPT 制作、服务器部署、本地文件操作、自动化流程等日常需求。具体三步：打开项目对话窗口进入 Plugins 页面；让 Codex 结合项目目标筛选适配插件并说明用途；评估确认后直接让 Codex 完成安装。核心逻辑是让 AI 帮你用好 AI，避免盲目试错。

meng shao@shao__meng · 6月16日69

Cua 和 Snorkel AI 联合发布「Cua-Bench」：评测 Agent 在专业软件上的 Computer Use 能力 @trycua @SnorkelAI Cua-Bench 首个公开数据集聚焦 KiCad，一个完整的电子设计自动化工具，25 道任务均由执业电气工程师编写、第二人复核，覆盖从「改一个电容值」到「从零搭建双运放电路」等真实工作场景。 https://cua.ai/cuabench/report https://snorkel.ai/blog/cua-bench-benchmarking-computer-use-agents-on-professional-software/ 首批测试结果没有一个模型通过四分之一，最强也只有 24% 的完全通过率： 1. GPT-5.5：6 / 25 完全通过，0 / 25 部分通过 2. Claude Sonnet 4.5：5 / 25 完全通过，3 / 25 部分通过 3. Claude Haiku 4.5：5 / 25 完全通过，3 / 25 部分通过最重要的发现：「编辑现有」与「从零搭建」之间的能力断崖 · 所有完全通过的任务，都是对已有原理图的局部修改（改元件值、换电源端口、调整偏置点等）。 · 16 道从零搭建任务：0 成功。模型能放元件，但很少完成布线；任务结束时连线往往仍是未完成状态。瓶颈在执行层：规划多步流程、在复杂 GUI 中定位与操作、自我校验、在步数预算耗尽前保持任务不漂移。 Snorkel 的深度分析进一步指出：步数上限不是主因。两个失败任务放宽到 500 步仍失败；而所有成功案例都在 150 步内完成。问题出在计划与操作效率，而非单纯「时间不够」典型失败模式（可复现、可归类） · 导航开销大（~84%）：首次启动弹窗、误进 PCB 编辑器而非原理图编辑器，恢复就消耗 25–70 步。 · 操作粒度过细（~84%）：每轮只做一个点击 + 大段自我叙述，工程师三步能完成的事拆成十轮。 · 视图控制混乱（~76%）：不用 Home 键 fit，在极端缩放间来回 scroll，元件一出视野就「丢失」。 · 布线未完成（~72%）：16 个因步数耗尽而失败的任务中，没有一个画全所需连线。 · 自我验证不可靠：5 次宣告 DONE 的产出实际未通过验证——Agent 读的是自己「说过什么」，而不是屏幕上的真实状态。典型错误：悬空电阻却声称已连接；输入 2.80kOhm 而非 KiCad 要求的 2.8k；用错芯片参考电压（LT3010 是 0.808V，不是 1.24V）。根因分布：规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%——且全程零 API 错误，说明 harness 本身没问题，问题在 Agent 如何使用它。对行业的含义 1. 现有 computer-use benchmark 可能高估了真实能力。浏览器里「多试几次总能蒙对」的策略，在专业软件上行不通。 2.「会答电路题」≠「能在 KiCad 里做出正确原理图」。知识与 GUI 执行是两条能力线，当前 frontier 模型在前者尚可、后者明显不足。 3. 长 horizon + 自我校验是下一个瓶颈。不是缺底层能力，而是缺「如何规划、批量操作、读 UI 状态而非读自己的 narration」的 meta-policy。 4. 评测设计值得借鉴：专家出题、双人复核、netlist 客观打分、任务难度按人类 ~50 步校准——这是衡量 Agent 能否创造真实经济价值的一个较公平标尺。

译Cua 与 Snorkel AI 联合发布 Cua-Bench，首个公开数据集聚焦电子设计工具 KiCad，含 25 道由执业电气工程师编写并复核的任务。测试中，GPT-5.5 完全通过 6/25（24%），Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25（20%）。所有成功任务均为局部修改，16 道从零搭建任务全部失败。瓶颈在执行层：导航开销大（~84%）、操作粒度过细（~84%）、视图控制混乱（~76%）、布线未完成（~72%）、自我验证不可靠。步数上限并非主因。根因分布：规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%，全程零 API 错误。

宝玉@dotey · 6月16日10

推荐关注 Codex 团队的 jason，这样他能多发一点 Codex 技术内幕文章

译@jxnlco 发推称其粉丝数已接近 9 万，询问需要写哪些 Codex 文章才能达成目标。主推文建议关注这位 Codex 团队的成员，以获取更多技术内幕内容。

🚨 AI News | TestingCatalog@testingcatalog · 6月16日37

OPENAI 🔥: Codex now supports Chrome DevTools Protocol for browser use. This is a huge superpower that will allow Codex to inspect and modify any website. It is still a very early implementation, but I bet that in several years this will be a default browser capability. If websites are loaded through AI, users will be able to customize their UX on the fly. This is the way 👀

译OPENAI 🔥: Codex 现在支持 Chrome DevTools 协议，可用于浏览器操作。这是一个巨大的超能力，将允许 Codex 检查并修改任何网站。这仍是一个非常早期的实现，但我敢打赌，几年后这将成为浏览器的默认能力。如果网站通过 AI 加载，用户将能够即时自定义他们的用户体验。这就是方向 👀