Now that the Codex app is close to being the super app. What should the super duper app do?

译既然Codex应用已接近成为超级应用。那么超级加强版应用又该做什么呢？

#BestBlogs 早报 2026-05-12 欢迎阅读今天 BestBlogs 早报图文版，Claude Code 发布智能体视图，把 Agent 协作的组织成本和认知负担转移给了工具本身，很大程度会改变 Claude Code 的实际使用方式。

译Claude Code发布了智能体视图功能，该功能旨在将多智能体协作过程中的组织成本和认知负担转移给工具本身。这一设计预计将显著改变Claude Code的实际使用方式，通过工具层面的优化来简化复杂的Agent协同工作流程。

小互@xiaohu · 5月12日71

Claude code 发布多任务统一窗口管理工具：Agent View 以前你同时跑多个 Claude Code 任务，要开一堆终端窗口、标签页，分不清哪个任务在等你确认、哪个还在跑、哪个已经做完。现在 Agent View 把会话集中到一个界面里管理。你可以一眼看到所有Agent 的状态，谁在工作，谁等你输入，谁已经结束。它现在很像： AI 多任务调度中心你可以： • 同时看到所有 Claude Code 窗口状态 • 任意切换到某个 Agent 对话 • 某个 Agent 卡住时立刻处理 • 某个 Agent 完成时立刻接管 • 不需要再回原 terminal 这个思路其实已经很接近： “AI IDE 的任务栏” https://x.com/claudeai/status/2053940934736228454/video/1

译Claude Code 推出 Agent View，解决了多任务运行时需在多个终端窗口间切换、状态难以区分的痛点。该工具将所有会话集中在一个界面管理，用户可直观查看各Agent状态（如工作中、等待输入、已完成），并快速切换或接管任务，实现了类似“AI多任务调度中心”或“AI IDE任务栏”的高效管理体验。

小互@xiaohu · 5月12日67

Claude code 发布多任务统一窗口管理工具：Agent View 以前你同时跑多个 Claude Code 任务，要开一堆终端窗口、标签页，分不清哪个任务在等你确认、哪个还在跑、哪个已经做完。现在 Agent View 把会话集中到一个界面里管理。你可以一眼看到所有Agent 的状态，谁在工作，谁等你输入，谁已经结束。它现在很像： AI 多任务调度中心你可以： • 同时看到所有 Claude Code 窗口状态 • 任意切换到某个 Agent 对话 • 某个 Agent 卡住时立刻处理 • 某个 Agent 完成时立刻接管 • 不需要再回原 terminal 这个思路其实已经很接近： “AI IDE 的任务栏”

译Claude Code 推出“Agent View”工具，旨在解决用户同时运行多个任务时需在不同终端窗口间切换、难以区分任务状态的问题。该工具将所有会话集中到一个界面进行统一管理，使用户能直观查看所有Agent的实时状态（如工作中、等待输入或已结束），并可随时切换至特定任务进行处理，无需返回原始终端，提升了多任务协作的效率。

Berryxia.AI@berryxia · 5月12日59

Artificial Analysis 最近出了一个 Coding Agent Index，我一看就觉得这榜单做得挺实在。他们这次不是只测单个模型，而是把「模型 + harness」（比如 Cursor CLI、Claude Code、Codex、Gemini CLI 这些实际编码环境）组合在一起测，用的三个真实编码基准：SWE-Bench-Pro-Hard-AA（150 个前沿模型都难搞的任务）、Terminal-Bench v2（84 个终端操作任务）和 SWE-Atlas-QnA（124 个代码行为分析题）。结果出来后挺有意思： Opus 4.7 在 Cursor CLI 上拿了 61 分排第一，GPT-5.5 在 Codex 和 Opus 4.7 在 Claude Code 都拿到 60 分，紧随其后。GPT-5.5 在 Cursor CLI 也到了 58 分。开源模型表现也不差，GLM-5.1 在 Claude Code 拿到 53 分，是开源里最高的，Kimi K2.6 和 DeepSeek V4 Pro 也都到 50 分，不过跟顶尖闭源模型还是有明显差距。 Gemini 3.1 Pro 在自己家的 Gemini CLI 上只拿到 43 分，比它在普通智能榜上的表现差不少，看来 harness 拖了后腿。成本和效率差异也拉得很大：每任务成本差了 30 多倍，最便宜的是 Cursor 的 Composer 2（0.07 美元/任务），最贵的是 GPT-5.5 在 Codex（2.21 美元）和 GLM-5.1（2.26 美元）；每任务耗时差了 7 倍，Opus 4.7 在 Claude Code 最快只要 6 分钟左右，Kimi K2.6 最慢要 40 分钟。token 用量也差了 3 倍多。这波榜单真正把开发者日常选工具的完整链路测出来了，对想挑 coding agent 的同学来说，值得去他们官网仔细看一眼。链接在这：https://artificialanalysis.ai/agents/coding-agents

译Artificial Analysis发布Coding Agent指数，首次将AI模型与Cursor CLI等具体编码环境组合评估。测试基于SWE-Bench-Pro等三大真实编码基准。结果显示，Opus 4.7在Cursor CLI上以61分领先，开源模型GLM-5.1最佳为53分，但仍落后顶尖闭源模型。成本与效率差异显著：每任务成本最高相差30多倍，耗时相差7倍。该榜单揭示了不同组合在性能、成本与效率上的巨大差异，为开发者选择编码助手提供了实用参考。

Thariq@trq212 · 5月12日73

Agent view is the best Claude Code native way to manage multiple sessions, kind of like tmux built for CC. We spent a lot of time getting the details right, I hope you enjoy it.

译Agent视图是Claude Code管理多会话的最佳原生方式，有点像为CC打造的tmux。我们花了很多时间完善细节，希望你喜欢。

Sam Altman@sama · 5月12日30

would you call it a superapp?

译你会称它为超级应用吗？

Berryxia.AI@berryxia · 5月12日71

Codex 现在直接把自己变成了能自己造 AI 产品的工厂。 OpenAI 今天官宣：Codex 新增「OpenAI Developers」插件，能在终端里直接创建 API Key、调用 OpenAI 所有 API。自动把想法变成完整可运行的 AI app 和 agent，完全不用手动配环境、写 boilerplate。

译OpenAI宣布为Codex新增“OpenAI Developers”插件，开发者可直接在终端内创建API Key并调用所有OpenAI API。该功能旨在将想法自动转化为完整可运行的AI应用和智能体，无需手动配置开发环境或编写基础模板代码，显著简化了AI产品的开发流程。

宝玉@dotey · 5月12日80

Claude Code 今天上线了一个新功能：agent view，让开发者可以在一个界面里统管所有正在运行的 AI 编程会话。过去用 Claude Code 同时跑多个任务，只能靠一堆终端标签页和 tmux 分屏拼凑，脑子里还得记着每个任务跑到哪了。现在不用这么折腾了。在任意会话里按左箭头，或者直接在终端跑 claude agents，就能打开 agent view 的总览界面。每一行显示一个会话的状态：在等你回复、还在跑、还是已经完成，一眼能看清。最实用的一点是不用切换上下文就能回复。选中某个会话可以先"偷看"最新进展，如果它在等你做决定，直接在那里打回复，它就接着跑。不用打开完整会话窗口，不打断你手头在做的事。想把某个会话扔到后台？在会话内输入 /bg。想直接起一个后台任务？claude --bg [任务描述]，连前台都不用经过。目前 agent view 以“研究预览”状态上线，Pro、Max、Team、Enterprise 和 API 用户今天就可以用，直接跑 claude agents 即可激活。

译Claude Code 上线新功能 Agent View，允许开发者在单一界面集中管理所有正在运行的 AI 编程会话，解决了以往依赖多个终端标签页或 tmux 分屏、需手动记忆进度的繁琐问题。用户可通过按左箭头或运行 claude agents 命令进入总览界面，直观查看每个会话的状态（如等待回复、运行中或已完成）。其核心便利在于无需切换上下文即可直接回复特定会话，并能“偷看”进展后输入指令，不中断当前工作。此外，支持通过 /bg 命令将会话置于后台，或直接用 claude --bg 启动后台任务。该功能目前以研究预览形式向 Pro、Max、Team、Enterprise 及 API 用户开放。

ClaudeDevs@ClaudeDevs · 5月12日67

Agent view is built to run more sessions in parallel with less to keep in your head.

译Agent view 旨在以更少的精力并行运行更多会话。 [引用 @claudeai]：Claude Code 新功能：agent view。

Claude@claudeai · 5月12日66

New in Claude Code: agent view. One list of all your sessions, available today as a research preview.

译Claude Code 新功能：代理视图。您所有会话的统一列表，今日起作为研究预览版提供。

OpenAI Developers@OpenAIDevs · 5月12日69

Codex can now help you build AI apps and agents faster with OpenAI APIs using the OpenAI Developers plugin.

译Codex现可通过OpenAI Developers插件，帮助您利用OpenAI API更快地构建AI应用和智能体。

Replit ⠕@Replit · 5月12日68

Meet Replit Parallel Agents Build faster by running up to 10 agents in parallel Each agent gets its own copy of your app They work on their own computer Then merge their work agentically

译认识Replit并行代理通过并行运行多达10个代理来加速构建每个代理都拥有您应用的独立副本它们在各自的计算机上工作然后以代理方式合并工作成果

Yuchen Jin@Yuchenj_UW · 5月12日74

When I want to learn something new, or dig into a paper, I have Claude generate a HTML for me. This works surprisingly well (especially in Claude, since Codex generated HTML is still kinda ugly...) It's better than Google NotebookLM. Podcasts are nice, but reading is much higher-bandwidth than listening to a podcast. HTML has a key advantage: they can show things. Diagrams. Charts. Interactive bits. You can actually poke at the idea, not just passively consume it. Then I iterate. Ask questions. Refine sections. Add missing pieces. The HTML evolves with my understanding. Over time, this compounds into a personal knowledge base. "The input/output mind meld between humans and AIs is ongoing and there is a lot of work to do and significant progress to be made, way before jumping all the way into neuralink-esque BCIs and all that." 💯

译作者提出一种高效学习方法：让Claude等大语言模型生成HTML文档来辅助深入学习与研究。相比纯文本或播客，HTML能嵌入图表和交互元素，支持主动探索。通过迭代提问和修改，文档随理解深入而演化，最终累积成个人知识库。文章引用观点指出，人机交互的输入输出融合尚有巨大发展空间，当前阶段可探索让LLM以HTML格式输出。信息呈现方式正从纯文本、Markdown向HTML及未来的交互式神经视频演进，以充分利用人类强大的视觉处理能力。作者认为，音频可能是人类偏好的AI输入方式，但视觉内容则是更高效的AI输出形式。

Artificial Analysis@ArtificialAnlys · 5月11日65

Announcing the Artificial Analysis Coding Agent Index! Our new coding agent benchmarks measure how combinations of agent harnesses and models perform on 3 leading benchmarks, token usage, cost and more When developers use AI to code they’re choosing a model, but also pairing it with a specific harness. It makes sense to benchmark that combination to understand and compare performance. The Artificial Analysis Coding Agent Index includes 3 leading benchmarks that represent a broad spectrum of coding agent use: ➤ SWE-Bench-Pro-Hard-AA, 150 realistic coding tasks that frontier models struggle with, sampled from Scale AI’s SWE-Bench Pro ➤ Terminal-Bench v2, 84 agentic terminal tasks from the Laude Institute and that range from system administration and cryptography to machine learning. 5 tasks were filtered due to environment incompatibility ➤ SWE-Atlas-QnA, 124 technical questions developed by Scale AI about how code behaves, root causes of issues, and more, requiring agents to explore codebases and give text answers Analysis of results: ➤ Opus 4.7 and GPT-5.5 lead the Index: Opus 4.7 in Cursor CLI scores 61, followed closely by GPT-5.5 in Codex and Opus 4.7 in Claude Code at 60. GPT-5.5 in Cursor CLI follows at 58. ➤ Open weights models are competitive, but still trail the leaders: GLM-5.1 in Claude Code is the top open-weight result at 53, followed by Kimi K2.6 and DeepSeek V4 Pro in Claude Code at 50. These are strong results, but still meaningfully behind the top proprietary models. ➤ Gemini 3.1 Pro in Gemini CLI underperforms: Gemini 3.1 Pro in Gemini CLI scores 43, well below where Gemini 3.1 Pro sits on our Intelligence Index, highlighting that Gemini’s performance in Gemini CLI remains a relative weak spot for Google’s offering. ➤ Cost per task (API token pricing) varies >30x: Composer 2 in Cursor CLI is cheapest at $0.07/task, followed by DeepSeek V4 Pro in Claude Code at $0.35/task and Kimi K2.6 in Claude Code at $0.76/task. At the high end, GPT-5.5 in Codex costs $2.21/task, while GLM-5.1 in Claude Code costs $2.26/task. For both models this was contributed to by high token usage, and in GPT-5.5’s case by a relatively higher per token cost. ➤ Token usage varies >3x: GLM-5.1 in Claude Code uses the most tokens at 4.8M/task, followed by Kimi K2.6 at 3.7M/task and DeepSeek V4 Pro at 3.5M/task. GPT-5.5 in Codex uses 2.8M tokens/task, substantially more than Opus 4.7 in Claude Code at 1.7M/task. In GLM-5.1’s case, higher token usage, cost and execution time were partly driven by the model entering loops on some tasks. ➤ Cache hit rates remain high but vary materially: Cache hit rates range from 80% to 96% across combinations. Provider routing, harness prompt structure and cache behavior can materially change the economics of running the same model given cached inputs are typically <50% the API price of regular input tokens. ➤ Time per task varies >7x: Opus 4.7 in Claude Code is fastest at ~6 minutes/task, while Kimi K2.6 in Claude Code is slowest at ~40 minutes/task. This is contributed to by differences in average turns per task, token usage and API serving speed. Opus 4.7 had materially lower amount of turns to complete a task than all other models while Kimi K2.6 had the most. ➤ Cursor made real progress with Composer 2: Composer 2 in Cursor CLI scores 48, near the leading open-weight model results, while being the cheapest combination measured at $0.07/task. Cursor has stated Composer 2 is built from Kimi K2.5, showcasing they have made substantial post-training gains. This is just the start. We are planning to add additional agents (both harnesses and models). Let us know what you would like to see added next.

译人工智能分析发布编码代理基准指数，评估不同模型与执行框架组合在三大编码基准中的表现。Opus 4.7在Cursor CLI中以61分领先，GPT-5.5与Opus 4.7在其它框架中得分60紧随其后。开源模型GLM-5.1在Claude Code中获得53分，表现竞争但仍显著落后顶尖闭源模型。经济性差异悬殊：每任务成本从Composer 2的0.07美元到GLM-5.1的2.26美元不等，后者因任务循环令牌使用高达480万；任务耗时差异超7倍，Opus 4.7仅需6分钟而Kimi K2.6需40分钟。缓存命中率普遍较高，影响实际运行成本。

OpenRouter@OpenRouter · 5月11日76

Pareto Code is a new way of looking at the Pareto frontier using real market demand DeepSeek V4 Pro is taking the top position, followed by GPT 5.4 Mini and Gemini 3.1 Pro https://openrouter.ai/openrouter/pareto-code

译Pareto Code 是一种利用真实市场需求观察帕累托前沿的新方法 DeepSeek V4 Pro 占据首位，其次是 GPT 5.4 Mini 和 Gemini 3.1 Pro https://openrouter.ai/openrouter/pareto-code

🚨 AI News | TestingCatalog@testingcatalog · 5月11日40

OPENAI 🔥: A mention of a new Ultrafast mode appeared for some time on the Codex GitHub repository. > "The fastest available responses for latency-sensitive work." Seems like it was unintended push 👀

译OPENAI 🔥: Codex GitHub仓库曾短暂出现新型超高速模式的提及。 > "为延迟敏感型任务提供最快的可用响应。" 此次推送似乎属于意外操作 👀

Peter Steinberger 🦞@steipete · 5月11日48

Trimmy now has support for Claude Code prompt trimming. I mean, even better if you type that prompt into Codex, but ya know, let's be inclusive. Oh and since I realize I'm taking over the Menu Bar, you can now hide that icon completely. https://trimmy.app

译Trimmy现已支持Claude代码提示优化功能。当然，如果你把提示词输入Codex效果会更佳，但我们要兼容并包嘛。对了，考虑到我意识到自己正在占据菜单栏，你现在可以完全隐藏那个图标了。 https://trimmy.app

Peter Steinberger 🦞@steipete · 5月11日53

I'm adding new features to https://gogcli.sh and Codex noticed that the API it needs is not enabled, so it started Computer Use and is happily clicking around in Google Cloud Admin to turn on what's needed.

译我正在为https://gogcli.sh添加新功能，Codex注意到所需的API未启用，于是它启动计算机使用功能，正在Google Cloud管理界面中愉快地点击以开启所需服务。

Chubby♨️@kimmonismus · 5月11日37

Looks like "ultra-fast"-mode coming to Codex very soon!

译看起来"极速"模式很快就要登陆Codex了！

Peter Steinberger 🦞@steipete · 5月11日25

challenged codex to e2e test improvements to the OpenClaw chat completion endpoint WITH openclaw. Used /side to ask more question while it works.

译使用OpenClaw对OpenClaw聊天完成端点的端到端测试改进发起挑战。在它工作时使用/side功能提出更多问题。

Greg Brockman@gdb · 5月11日47

/goal is underrated

译/goal 被低估了 GPT-5.5 extra high thinking 配合 /goal 刚刚做到了。我震惊了。

向阳乔木@vista8 · 5月11日56

当下AI写代码最难的 benchmark 叫 ProgramBench。 Claude Opus 4.7 最好，也只在"接近完成"这个指标上拿到了 3%，GPT-5、Gemini 系列，全是零。这个测试是 Meta、Stanford、Harvard 的研究团队搞的：给 AI 一个编译好的二进制文件和它的文档，让 AI 从零把这个程序重新写出来。没有源代码，不能反编译，不能上网查资料。从小工具到大项目都有，有jq、ripgrep 这种命令行小工具。也有 FFmpeg、SQLite、PHP 编译器这种级别。官网：https://programbench.com/ 论文：https://arxiv.org/abs/2605.03546

译ProgramBench是Meta、斯坦福和哈佛团队推出的高难度AI代码生成基准测试。它要求AI仅根据二进制文件及文档，在无法反编译和联网的条件下，从零重写原程序。测试项目涵盖从jq到FFmpeg、SQLite乃至PHP编译器级别。目前表现最佳的Claude Opus在“接近完成”指标上仅达3%，GPT-5和Gemini系列通过率均为零，凸显了AI在复杂软件工程任务上的巨大挑战。

Peter Steinberger 🦞@steipete · 5月11日24

All I want is codex automatically entering /review mode after it's done and just looping until it stops finding booboos. (Yah I'm gonna build that)

译我只希望codex完成后能自动进入/review模式，并持续循环直到找不出问题。（是的，我打算实现这个功能）

Peter Steinberger 🦞@steipete · 5月11日63

🎚️ CodexBar 0.25 is live 🧩 New providers: Manus, MiMo, Qwen, Doubao, Venice + more 🔔 Quota warning notifications 👥 Stacked Codex account switchers 📊 Faster cost history via http://models.dev Big one. Menu bar still tiny. https://github.com/steipete/CodexBar/releases/tag/v0.25

译🎚️ CodexBar 0.25 已上线 🧩 新增提供商：Manus、MiMo、Qwen、Doubao、Venice 等 🔔 配额预警通知 👥 堆叠式 Codex 账户切换器 📊 通过 http://models.dev 获取更快的成本记录重大更新。菜单栏依旧小巧。 https://github.com/steipete/CodexBar/releases/tag/v0.25

Thariq@trq212 · 5月11日65

Jarred tried rewriting Bun in Rust and it passes 99.8% of the existing test suite we're not being ambitious enough

译Jarred 尝试用 Rust 重写 Bun，新版本已通过现有测试套件 99.8% 的测试。这是一次涉及 96 万行代码的重写，代码在 Linux 上已实际运行并通过测试，其他平台也将跟进。整个过程并非简单地指令 AI 完成，未来将有博客文章详细阐述其对 Bun 性能、内存使用、可维护性的影响，以及具体的重写过程。

OpenRouter@OpenRouter · 5月11日72

Docs from @NousResearch on how to set up Pareto Code in Hermes: https://hermes-agent.nousresearch.com/docs/user-guide/configuration#openrouter-routing--pareto-code-for-auxiliary-tasks

译@NousResearch 关于如何在 Hermes 中设置 Pareto Code 的文档：https://hermes-agent.nousresearch.com/docs/user-guide/configuration#openrouter-routing--pareto-code-for-auxiliary-tasks

meng shao@shao__meng · 5月10日63

Agent = Model + Harness — Why Claude Code, Cursor & Codex Behave Differently (Same Model) https://youtu.be/si8EhxtRL7w?si=kk4UzfeYfh5aI4IY

译代理 = 模型 + 控制机制 — 为什么Claude Code、Cursor和Codex行为不同（相同模型） https://youtu.be/si8EhxtRL7w?si=kk4UzfeYfh5aI4IY

Chubby♨️@kimmonismus · 5月10日25

Looks like we got an answer to that cryptic openai post. codex mobile app. cant verify, hope its real :) would be really cool to see!

译看来那个神秘的OpenAI帖子有答案了。 Codex移动应用。无法核实，希望是真的 :) 若能成真就太酷了！

向阳乔木@vista8 · 5月10日18

如果想同时让 AI 改动一个代码库，开发多个不同功能。最佳实践方案是用worktree吗？产品经理真诚求问，感觉worktree用的迷迷糊糊的。

meng shao@shao__meng · 5月10日51

Delphi、C#、TypeScript 核心设计者 Anders Hejlsberg 谈 AI 与 Coding 的未来 AI 永远不能取代 Coders，而是会成为加速器，为什么？ 1. AI 自身依赖代码而存在 —— 编程语言、编译器、框架、操作系统、CPU，都需要人去设计。AI 假定这些"下面的世界"已经存在。 2. AI 擅长重复模式（它训练集里见过无数遍的 To-Do 应用），但不擅长创新——业务逻辑、新发明、深层架构决策都来自人。 3. 行业的进步来自"洗澡时冒出的疯狂想法"，AI 不会那样工作。他对 "vibe coding" 态度明确：高度怀疑。代码总得来自某处，并不全由 AI 生成。对学习者的建议是否还值得学编程？绝对值得。编程语言是 AI 表达自己的方式；不懂代码就无法理解 AI 在生成什么、依赖什么。初学者最常见的错误不去真正理解：变量是什么、数组是什么、数据结构是什么、指针怎么工作。一旦"grok"（吃透）这些，语言只是表层语法 —— 不同语言只是同一语义的不同外衣。停留在语法层，你只知道"要写什么"，不知道"为什么写"。计算机科学学位是否值得值得。自学固然可行（他自己当年丹麦的工程学院尚未开设 CS），但系统教育能在数据结构、操作系统、数据库、编程语言原理上节省大量时间。配合一句他的个人观点：热爱比什么都重要——"我从没有过一份真正的工作，因为编程一直是我的爱好"。 AI 时代该做什么项目 · 喜欢 UI/体验 → 写应用； · 喜欢极致性能 → 写无 UI 的系统层代码； · 喜欢理论 → 研究算法与数据结构。 C# 与 TypeScript 的设计哲学 C#：融合，而非二选一 90 年代要么选 VB（易用）、要么选 C++（强大）。C# 把两者合并，并把当时 OOP 中人人都在用、却没语言支持的 property、event 升格为一等公民。原则：承认现实中的通用模式，做进语义层。 TypeScript：修 JS，而非绕开它面对"JS 写大型应用很痛苦"，Hejlsberg 的反应不是另造语言，而是问： "JavaScript 哪里坏了？能不能修好？" 加类型，不是为了类型本身，而是为了让工具成为可能——补全、跳转、红波浪线。 "开发者体验过就回不去了。" 对 Python 的旁注：没人用它写百万行应用——规模一上来，类型与工具不再是奢侈品。五年后软件工程师做什么？ AI 接管 grunt work（写测试、填模板、PR 流水任务），人则上移到： · 设计 CPU、操作系统、编译器、框架； · 想出"如何 shard 这个应用让创业公司跑得更快"这类架构决策； · 提出新点子。 "AI 是加速器，不是创新者。" 访谈视频地址 https://www.youtube.com/watch?v=CPrePbvbbic&t=11s

译Anders Hejlsberg 认为 AI 无法取代程序员，而是作为加速器存在。AI 依赖人类构建的底层系统（如编程语言、操作系统），擅长重复模式但缺乏创新能力，业务逻辑与架构决策仍需人类完成。他质疑“氛围编程”，强调理解变量、数据结构等基础概念比语法更重要，并肯定计算机科学学位的系统化价值。未来 AI 将接管琐碎任务，工程师则专注于底层设计、架构创新与新想法。C# 的设计哲学是融合易用与强大，TypeScript 则通过类型系统提升 JavaScript 的大规模开发体验。

🚨 AI News | TestingCatalog@testingcatalog · 5月10日49

We will likely see a deeper integration between Codex and ChatGPT already very soon. > Use the ChatGPT app on your phone to keep working with Codex whenever your computer is awake. Additionally, this image from OpenAI sparked loads of speculations, including the one where OpenAI would be teasing their own mobile phone. Even though it is quite unrealistic, this would be a huge steal of attention from the Google I/O event.

译OpenAI暗示Codex与ChatGPT将很快实现更深度的整合，用户有望在电脑处于唤醒状态时，通过手机上的ChatGPT应用持续使用Codex。同时，OpenAI发布的一张图片引发了广泛猜测，包括其可能正在预告推出自有品牌手机。尽管这一猜测被认为不太现实，但此举若属实，将在谷歌I/O大会期间成功吸引大量关注。引用推文的关键信息“how do i call”也指向了对手机相关功能的探讨。

meng shao@shao__meng · 5月10日60

Claude Code、Cursor、Codex、Aider、Cline 部分底层模型可能完全相同，但 Agent 表现却不一样，为什么？ @addyosmani 认为：是因为模型之上的那层“外壳” —— Harness，它包括「提示词、工具、上下文策略、钩子、沙箱、子智能体、反馈回路、恢复路径」等。 Agent = Model + Harness 重新系统看看什么是 Harness？凡是"不是模型本身"的部分都属于外壳： · 指令层：System prompt、CLAUDE.md、AGENTS.md、skill 文件、子 agent 指令 · 能力层：工具、skills、MCP servers 及其描述 · 基础设施：文件系统、沙箱、无头浏览器 · 编排层：子 agent 派发、任务交接、模型路由 · 执行控制：hooks、中间件（lint、上下文压缩等确定性逻辑） · 可观测性：日志、trace、成本与延迟监控裸模型不是 agent。只有当外壳为它提供了状态、工具执行、反馈回路和强制约束，它才成为 agent。思维范式的切换：不是"模型问题"，是"配置问题" 行业默认反应是：agent 出错 → 等下一代模型。 Harness Engineering 拒绝这个默认。每一类失败都是可定位的工程信号： · 忽略代码规范：写进 AGENTS.md · 执行破坏性命令：加 hook 阻止 · 长任务中途失焦：拆分为 planner + executor · 写出无法编译的代码：把 type-check 作为反压信号注入回路同一个模型，放在精调过的外壳里，性能可以远高于跑在通用框架上。当前模型理论能力与你实际看到的能力之间的差距，主要是 harness gap。最关键的工作方法：棘轮（The Ratchet）每一次失误都变成一条永久规则。 · 一次"提交了被注释掉的测试"的事故 → AGENTS.md 增加"绝不注释测试"，pre-commit hook 检测 .skip(，reviewer 子 agent 拦截。 · 约束只在观察到真实失败时加入，只在更强模型让它冗余时才移除。 · 系统提示词里每一行都应能追溯到一次具体的历史失败。推论：没有通用最优 harness。一个 harness 是一个代码库的"失败史"塑造出来的，是工程纪律而非框架。设计方法：从行为反推组件 1. 文件系统 + Git —— 持久化状态模型只能操作进入上下文窗口的内容。文件系统是工作区、暂存区、多 agent 协调面。Git 提供免费版本控制、分支实验、回滚。 2. Bash + 代码执行 —— 通用工具 ReAct 循环（reason → act → observe → repeat）。与其为每个动作预建工具，不如让 agent 用 bash 现场组装。Agent 在 shell 上表现普遍很强。 3. 沙箱 + 默认工具链 Bash 必须安全运行。好沙箱预装运行时、测试 CLI、无头浏览器，让 agent 能"自我验证"。 4. 记忆 + 搜索 —— 持续学习模型不知道训练之后的世界。AGENTS.md 在每次会话注入领域知识；web search 和 MCP 工具补足实时信息。 5. 对抗 Context Rot 上下文越满，推理越退化。三种主要手法： · Compaction：智能压缩与卸载旧上下文 · Tool-call offloading：长输出（如 2000 行日志）落盘，只在上下文里保留头尾 · Progressive disclosure：按需披露指令和工具，而不是启动时全量加载 6. 长程执行应对"过早停止"和"分解失败"： · Loops：拦截模型的退出意图，在新上下文窗口里强制继续推进完成目标 · Planning：强制写出步骤计划文件，每步后用 self-verification hook 检查 · Splits：生成与评估拆给不同 agent，规避模型自评的正向偏差 7. Hooks —— 强制层连接"请求行为"和"强制行为"。生命周期挂载点：工具调用前、文件编辑后、提交前。成功应当沉默，失败应当冗长。typecheck 通过则无声；失败则把错误直接注入回路供自纠。 8. 规则手册和工具选择 · AGENTS.md 仍是仓库根部最高杠杆的配置点。但要把它当飞行员检查清单，不是风格指南——简短，每条都有失败史背书。 · 十个高度聚焦的工具，永远胜过五十个互相重叠的工具。 · 工具描述会进入 prompt，所以未审计的 MCP server 等同于 prompt 注入风险面。生产中的样子把对 Claude Code 架构的推测性拆解作为成熟外壳的参照 · 上下文注入 = 知识层 · 循环状态 = memory store + worktree 隔离器 · 破坏性动作 hook = 权限闸 · 子 agent 上下文防火墙 = 多 agent 层 · 工具 dispatch registry = MCP 与 bash 的统一插槽外壳不会消失，只会迁移模型变强不会让外壳消失，而是让它位移： · 老一代模型催生的"上下文焦虑缓解层"已经被新模型大幅淘汰 · 但能力上限抬高的同时，新的失败模式也随之出现 · 外壳里每一块脚手架都编码了"模型当前不能独立做到什么"——模型变强，过时的拆掉，新的搭起来去够下一条地平线训练循环的反馈模型 post-training 时通常会带特定 harness 入环 → 模型对这些 harness 偏向的动作（文件系统操作、bash、子 agent 派发）格外擅长 → 形成一定程度的过拟合。最佳 harness 是为你具体任务和工作流定制的那个。 Harness-as-a-Service 行业从"在 LLM API（提供 completion）上构建"转向"在 Harness API（提供 runtime）上构建"。SDK 直接交付循环、工具、上下文管理、hooks、沙箱。新默认范式：选一个 harness 框架 → 配置其核心支柱 → 只专注于领域特定的 prompt 与工具设计。这让排错变成"调一个良好分层的配置面"，而不是"重造整个 agent 架构"。未来方向 · 顶尖编码 agent 之间的相似度，已经高于它们底层模型之间的相似度——外壳模式在收敛 · 开放问题正在越过"单 agent"：多 agent 并行编排、agent 分析自身 trace 修复 harness 级故障、按需即时组装工具的环境 · 下一阶段：harness 不再是静态配置文件，而越来越像编译器。

译智能体表现差异的核心在于模型之上的“外壳”，它包括提示词、工具、上下文策略等工程组件。外壳为裸模型提供状态和执行能力，使其成为智能体。行业常将智能体失败归咎于模型，但实为可定位的配置问题。通过“棘轮”方法，每次失误都可转化为优化外壳的永久规则。没有通用的最优外壳，最佳外壳是为具体任务定制的。未来，行业焦点将从构建LLM API转向构建提供运行时环境的Harness API。

Peter Steinberger 🦞@steipete · 5月10日37

Slop one-shot websites, 2025 vs 2026. https://trimmy.app

译2025年与2026年的单页网站对比。 https://trimmy.app

Peter Steinberger 🦞@steipete · 5月10日76

Built BlackBar, a menubar for @useblacksmith https://github.com/openclaw/BlackBar/releases/tag/v0.1.0

译为@useblacksmith开发了BlackBar菜单栏 https://github.com/openclaw/BlackBar/releases/tag/v0.1.0

Peter Steinberger 🦞@steipete · 5月10日46

We now have video proof generation for issues on OpenClaw as part of working on QA automation. Codex [or a GH workflow] generates before/afters (crabbox does the screen recording). Kudos to @obviyus for automating real Telegram login! https://github.com/openclaw/openclaw/pull/76999#issuecomment-4415012577

译作为质量保证自动化工作的一部分，我们现在已为OpenClaw的问题提供视频验证生成功能。 Codex [或GH工作流] 生成前后对比记录（屏幕录制由crabbox完成）。特别感谢@obviyus实现了真实的Telegram登录自动化！ https://github.com/openclaw/openclaw/pull/76999#issuecomment-4415012577

Peter Steinberger 🦞@steipete · 5月10日31

We should start a polymarket for when it finishes. https://github.com/openclaw/openclaw/pull/78595

译我们应该为它完成时设立一个预测市场。 https://github.com/openclaw/openclaw/pull/78595

阿绎 AYi@AYi_AInotes · 5月10日69

AI裁员不仅没有AI取代人，还把公司搞破产了。这是我今年看过最清醒的一篇裁员自白，作者是科技公司的资深工程师，还有10%的概率在5月20号被裁。他没骂AI，也没骂老板，只用冷冰冰的商业逻辑，讲透了这一轮裁员的真相。很多人都在说，AI写代码越来越厉害，所以工程师要失业了。但真实情况是：现在所有科技公司的代码生成量、PR提交量，都暴涨了2-5倍。但是App的长相没变，用户体验没变，公司的收入也没变。那多出来的5倍代码，到底去哪了？答案是：全变成了垃圾。作者用麦肯锡的框架，一针见血戳破了所有幻觉： • 代码 = 投入，这是AI最擅长、最便宜的部分 • 功能 = 产出，这需要方向正确 • 用户付费 = 成果，这是最难的部分 AI 没按成果抽成，而是按Token收费，以前写一行代码要100块，现在只要1分钱。于是CEO脑子一热就能让Claude出一个MVP，PM随便一个想法就能让AI写完整套系统。两个部门抢同一个项目，各自用AI通宵做出来，然后互相卡脖子。产生了无数重复的轮子、没人看的内部仪表盘、永远不会上线的功能，这些全都是真金白银的Token账单。以前开发资源稀缺，天然有摩擦力，坏想法在立项阶段就被枪毙了。现在代码几乎免费，所有的坏想法都能变成代码。公司的投入一夜之间放大了5倍，但是决策能力、对齐能力一点都没涨。最后所有的混乱，都变成了公司账上的天文数字。所以这才是裁员的真正逻辑：不是AI取代了人。是AI的账单太贵了。一个工程师每天花100美元的Token，相当于印度一个工程师全年的工资，欧洲的半个，美国的四分之一。公司要平衡工资+Token的总成本，只能裁人。而且裁掉10-20%之后，决策和执行速度反而变快了。因为顺便砍掉了组织里最臃肿的那部分对齐税。所以说AI没有杀死任何一个岗位，它杀死的是低效的对齐成本，和无节制投入的幻觉。以前工业时代的瓶颈是生产力，现在AI时代的瓶颈，变成了协调力和成果转化力。大公司的官僚主义、重复劳动、糟糕决策，以前慢还能忍，现在被AI加速之后，直接变成了现金流黑洞。最后作者说的一句话特别扎心： “如果我是CEO，我也会做出同样的选择。” 这不是道德问题，这是商业生存问题。所以说AI不会让你失业，它只会让你无法再用老方法生存。真正安全的，也从来不是会写代码的人，是那个能把AI产出的5倍垃圾代码，变成用户愿意付钱的成果的人。

译资深工程师指出，当前科技公司裁员主因并非AI直接取代人力，而是AI导致代码生成成本骤降，引发决策混乱和资源浪费。CEO和PM能轻易用AI生成大量代码，但产出多为重复、无用的“垃圾”，公司投入暴增而收入未变。AI按Token收费，累积成本高昂。为平衡总成本，公司选择裁员，反而提升了效率。AI暴露并加速了组织原有的低效协调问题，淘汰的是过时工作模式。真正的价值在于将AI产出转化为用户愿付费的成果。

Peter Steinberger 🦞@steipete · 5月10日48

Did teach codex to look for social signals when reviewing PRs.

译确实教会了codex在审查PR时寻找社交信号。

Peter Steinberger 🦞@steipete · 5月10日51

Crabbox now has great Windows terminal handling. So good that codex could E2E fix gifgrep to render animated gifs in the terminal. Just because it can. https://crabbox.sh https://gifgrep.com

译Crabbox现已具备出色的Windows终端处理能力。其功能强大到codex能够端到端修复gifgrep，实现在终端渲染动态gif。纯粹因为它可以做到。 https://crabbox.sh https://gifgrep.com