Vibe Coding 是中年男人的钓鱼我发现 AI 对于很多中年男人来说，就跟钓鱼一样，是一种合法且体面的独处方式。中年男人的生活，大多处在一种身份叠加的夹缝之中。白天，他可能是部门经理，需要照顾团队绩效与上下级关系；晚上回到家，他是丈夫、是爸爸，要操心家里的大事小情；到了周末或节假日，又得参加各种社交，应付朋友之间的人情往来。总之，他生命里的每一分钟，好像都属于别人，唯独不属于自己。于是钓鱼成了一种奇妙的避难所。当男人坐在河边，拿着鱼竿凝视着水面的时候，他拥有了一个无可辩驳的理由拒绝外界的干扰：“我在钓鱼呢”。简简单单五个字，构筑起一道旁人难以跨越的屏障，彻底保护住那段名正言顺的孤独时光。 AI，其实也是同样的道理。当深夜降临，老婆孩子都睡下，你打开电脑，开始一段 Vibe Coding。对着屏幕，你只需要简单地对 AI 说一句：“帮我做个能查天气的小工具”，接下来，你甚至不用完全理解代码是如何生成的。看着屏幕上的文字快速滚动、项目神奇地运行起来，那种快感，跟钓鱼时鱼竿突然猛地一沉几乎一模一样。其实，钓鱼的人未必真在乎鱼，玩 Vibe Coding 的人也未必真在乎那个最终的产品。那个小工具第二天可能连你自己都不会再打开，甚至没有任何人会真正使用。但在这件事里，重要的从来都不是结果，而是过程里那种“我说了算”的稀缺感受。为什么这种感觉对中年人尤其宝贵？因为现实生活中的他们，最缺乏的就是这种自我主宰的体验。二十年前，如果你想做出点东西，可能得先苦学编程语言，再研究框架，再一步步琢磨部署环境，光是准备工作就足以让多数人望而却步。但现在，AI 把这一切的门槛踩到了地板上——你只需要知道自己想要什么，并用简单的语言描述清楚就行了。这对于背负着繁重生活压力、最缺乏时间和精力的中年人来说，简直就是久旱后的甘霖，让他们直接跳过了所有繁琐、枯燥的学习过程，抵达了创造的最激动人心的部分。所以你会注意到一个很有趣的现象：凌晨时分在社交媒体上最兴奋地晒出自己用 AI 做出的小产品的人，往往不是 00 后的年轻程序员，而是三四十岁的中年人。他们分享的并非自己的技术有多高深，而是一种失而复得的感动——“我居然还能做出点什么来”。年轻时，这种从零到一的成就感随处可见，所以你不觉得珍贵。直到被日复一日的琐碎生活消磨了激情，才会在某个平凡的深夜，突然被 AI 赋予的创造快感所击中，激动到无法自已。归根到底，钓鱼也好，Vibe Coding 也罢，本质上都是中年男人给自己找的一个巧妙借口：我并非逃避责任或回避生活，只是短暂地需要一点空间，重回那个内心有好奇心、有创造欲望的自己。唯一不同的，是一个挥动着鱼竿，一个挥动着 prompt。但鱼是否上钩，代码能否上线，都已不再重要。重要的是，那根鱼竿在手，那行光标在屏幕上不停地闪烁—— 这一刻，是真正属于我的。

译Vibe Coding 被比作数字时代的钓鱼，成为中年男性在多重身份压力下的合法独处方式。通过 GPT 等 AI 工具，他们无需深入掌握编程即可实现创造，跳过繁琐学习过程直达创造核心。这种深夜的"氛围编程"无关产品实用性，而是对"自我主宰"体验的追寻——在属于家庭与工作的夹缝中，通过简单的 prompt 重获掌控感，找回被生活琐碎消磨的创造激情与属于自己的时刻。

swyx 🐣@swyx · 4月15日

proud to see @excalidraw evangelism catching on at cog the insight here is more general than bugchecking: - All Engineering is about making tradeoffs - AI Engineering is about pushing AI Pareto Frontiers with any combo of model + harness at your disposal - Don't try to directly break a model frontier - instead you should first capabilitymaxx, then distil - this works ~basically every time [citation needed] - @appliedcompute is arms dealer to every Agent Lab doing this sort of thing rn, it's really fascinating to see this deployed on every high volume AI problem only 2 ways to make money in AI: bundling capabilities, and unbundling them!

译Cognition发布基于强化学习的bug检测模型SWE-check，在匹配前沿模型性能的同时实现10倍推理加速。作者提出AI工程的核心范式：通过模型与工具组合推动AI帕累托前沿，而非直接突破模型边界；应采用"先最大化能力再蒸馏"的策略。Applied Compute正为多家Agent Lab提供算力基础设施。AI领域仅存在两种商业模式：能力整合与能力拆分。

Rohan Paul@rohanpaul_ai · 4月15日

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/cursor-just-turned-its-agent-workflow 🗞️ Cursor just turned its agent workflow from a tab-by-tab queue into a parallel workspace 🗞️ Microsoft just gave Copilot in Word a bigger role in high-stakes document editing, for legal, finance, and compliance professionals. 🗞️ Anthropic’s new result shows that AI can already speed up some alignment research, but mostly when the problem is sharply measurable. 🗞️ OpenClaw just pushed a stability-first release that makes GPT-5.4, browsers, chat connectors, and local models fail less often in real deployments. 🗞️ Microsoft just laid out a new way to keep enterprise software growing in an AI-heavy workplace: charge AI agents for software seats the same way companies pay for human employees.

译Cursor将其agent工作流从串行队列升级为并行工作空间。Microsoft强化Word中Copilot在法律、金融等专业文档编辑中的角色。Anthropic研究表明AI可加速可量化的对齐研究。OpenClaw发布稳定性优先版本，减少GPT-5.4及本地模型部署故障。Microsoft提出按席位向AI代理收费的企业软件新商业模式。

Boris Cherny@bcherny · 4月15日

We've been working on this for a while. Can't wait to hear what you think

译我们已经为此努力了一段时间。迫不及待想听听你们的想法。 [引用 @claudeai]：我们重新设计了桌面版 Claude Code。你现在可以在一个窗口中并排运行多个 Claude 会话，并通过新的侧边栏来管理它们。

TestingCatalog News 🗞@testingcatalog · 4月15日

Google released Design Previews for Build in Google AI Studio, where Gemini would offer you the option to choose from one of the custom themes while your app is being built. Build and design in parallel 👀

译Google 在 Google AI Studio 的 Build 中发布了 Design Previews，Gemini 会在构建应用时提供选择自定义主题的选项。并行构建与设计 👀 [引用 @ammaar]：@GoogleAIStudio 新功能：Gemini 现在在你 vibe code 时为你设计应用 🚀 在开始构建前就能获得 5 个生成的设计。选择一个，立即应用，你的应用看起来就已经很精致了。本周和下周还有更多功能上线 :)

OpenAI Developers@OpenAIDevs · 4月15日

3 ideas you can build with the macOS apps plugin in Codex: 👾 Menu bar game Use build-macos-apps to build a menu bar Tetris. Clicking the menu bar icon should start a game instantly. Make it fully keyboard-playable, add shortcuts to restart & keep the full playfield visible.

译你可以用 Codex 中的 macOS 应用插件构建的 3 个创意： 👾 菜单栏游戏使用 build-macos-apps 构建一个菜单栏俄罗斯方块。点击菜单栏图标应立即开始游戏。使其完全支持键盘操作，添加重启快捷键，并保持完整游戏区域可见。

Yuchen Jin@Yuchenj_UW · 4月15日

Claude Code is redesigning the IDE for agentic coding. As Andrej said: “We’re going to need a bigger IDE. The basic unit is not a file, but an agent.” Cursor now has to fight to define that future of IDE too.

译Claude Code 正在针对 agentic coding 重新设计 IDE。正如 Andrej 所说："We’re going to need a bigger IDE. The basic unit is not a file, but an agent." Cursor 现在也必须争夺 IDE 未来的定义权。 [引用 @claudeai]：我们重新设计了桌面版 Claude Code。你现在可以在一个窗口中并排运行多个 Claude 会话，并通过新的侧边栏管理它们。

Chubby♨️@kimmonismus · 4月15日

1/ @Tiny_Fish has made the live web significantly more usable for coding agents - a key improvement, since real-world web interaction is often where agent workflows break down and require heavy setup.

译1/ @Tiny_Fish 让实时网络对编程智能体来说显著更易用——这是一项关键改进，因为真实世界的网络交互往往是智能体工作流崩溃并需要繁重设置的地方。

Chubby♨️@kimmonismus · 4月15日

So we are moving now from one Claude update per day to two updates per day? Anyway, looks much better now. Cool update!

译所以我们现在要从每天一次 Claude 更新变成每天两次了吗？不管怎样，现在看起来好多了。很酷的更新！ [引用 @claudeai]：我们重新设计了桌面版 Claude Code。你现在可以在一个窗口中并排运行多个 Claude 会话，并通过新的侧边栏来管理它们。

宝玉@dotey · 4月15日42

很难想象微软到现在才推出这个 AI 操作 Word 的功能，还没 Anthropic 快😂 不过没关系，Gemini 还不能操作 Google Docs（只读，如果我没记错的话）

Rohan Paul@rohanpaul_ai · 4月15日

Flat-fee AI subscriptions have a structural problem - this week was a pretty brutal reminder that renting your stack is not the same as owning it. Anthropic just broke a popular developer workflow. Flat-fee subscription coverage was blocked for OpenClaw-style third-party agent usage. Claude is still a strong coding model, but Anthropic said subscriptions were not built for third-party agent workloads and moved OpenClaw use to pay-as-you-go or API access instead. Claude got taken away so I tested everything else. The practical workaround is to keep OpenClaw and swap the model access layer. That’s why Kilo Gateway from KiloClaw (Hosted OpenClaw in 2 clicks) looks like the natural next step. Gives you a single endpoint that routes to 500+ models. You pay at cost with no markup. No flat-fee gamble, no surprise cutoffs. OpenClaw still works. Your workflows are intact. You just need a different model access layer. The actual problem is not Claude as a model but the math of letting heavy agent users hammer a fixed-price plan all day, because one nonstop coding agent can burn far more compute than a normal chat user. 🧵 1.

译Anthropic限制OpenClaw类第三方代理使用固定订阅，暴露固定费用AI订阅的结构性缺陷。重度代理工作负载的计算消耗远超普通用户，使固定价格模式难以为继。解决方案是转向Kilo Gateway等按量付费的模型路由层，以成本价无加价访问500+模型，在保留OpenClaw工作流的同时避免订阅中断风险。核心矛盾在于持续运行的编码代理计算需求与固定订阅模式的不匹配。

AK@_akhaliq · 4月15日36

QuanBench+ A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation paper: https://huggingface.co/papers/2604.08570

译QuanBench+ 一个用于基于LLM的量子代码生成的统一多框架基准测试论文: https://huggingface.co/papers/2604.08570

Eric@ericmitchellai · 4月14日34

incredible alpha in just trying real hard

译仅仅通过非常努力就获得了惊人的阿尔法收益

宝玉@dotey · 4月14日

今天刷到这篇文章几次，说点不一样的。与其说 AI First，不如说软件工程 First。这篇文章看着在讲 AI，底下全是软件工程。抛开后面讲组织和人的部分，原文前半段的重点简单总结一下： AI 时代，人成了瓶颈。PM 花几周做需求，AI 两小时就能实现，PM 成了瓶颈。QA 测三天，AI 写代码只要两小时，QA 成了瓶颈。团队 25 个人，对手几百人，人力也是瓶颈。怎么办？把人从链条里拿掉。AI 写代码、AI 审查代码、AI 跑测试、AI 部署上线、AI 监控线上状态，出了问题自动回滚。每天定时扫描日志，自动发现问题、分配任务、跟踪修复。整条流水线跑起来，人只需要在关键节点做判断。至于文中提到的统一代码库，锦上添花，和 AI First 关系不大。有当然更好，没有也有很多替代方案。整套方案听下来，逻辑自洽，效果也漂亮：一天部署好几次，功能当天上当天撤，数据说了算。但先别急着照搬，先对照自己的情况想几件事：第一，自动化测试。AI 改完代码，你得有办法确认它没搞崩别的功能。测试覆盖不够的话，每次 AI 提交代码你都得人工回归一遍，那速度根本快不起来。第二，CI/CD 流程。从提交代码到部署上线，中间的测试、审查、发布、回滚，是不是全自动跑通了？这条流水线不通，AI 写得再快，代码也堆在那儿等人手动处理。第三，A/B 测试和线上监控。新功能上线之后效果好不好，得有数据说话，效果不好得能随时关掉。没有这套机制，AI 一天产出五个功能，你都不知道哪个该留哪个该砍。第四，任务管理。任务得拆到合适的粒度，生命周期得跟踪得住。一个大而模糊的任务丢给 AI，现在的能力还啃不动。多个 Agent 同时干活的时候，谁做哪个、哪个优先、做到什么程度，这些都得有地方管。第五，系统架构。架构太乱或者压根没有架构的代码，AI 维护起来跟人一样头疼。上下文塞满了还是搞不清边界在哪，改一处崩三处。这几条里如果有做不到的，就得靠人去补。补不上，AI First 就只是一句口号。但假设你全做到了，就能 AI First 了？还是不行。这套玩法只适合一部分场景。什么场景适合？后端逻辑为主、界面不复杂的产品，比如 API 服务、数据处理平台、内部工具。功能好不好，跑一下数据就知道，不需要人去盯着每个像素。原文里的就是个 Agent 平台，本质上是后端驱动的产品，可以用这套打法。再比如早期产品快速试错，功能上了不行就撤，用户预期本来就没那么高，AI 的速度优势能充分发挥。但很多场景玩不转。比如 UI 密集的产品。自媒体天天喊前端已死，但你让 AI 做个复杂界面试试，各种易用性问题、交互细节、视觉还原，它搞不定的。否则马斯克靠 AI 早就改了不知道改版 X 多少次了。比如对功能质量敏感的产品。Anthropic 和 OpenAI 不知道 AI First 吗？他们敢在 Claude Code 和 Codex 上这么搞吗？让 AI 全自动迭代自家的核心产品，用户不骂死才怪。再比如安全性要求高的场景，银行系统、在线交易平台，AI 代码出个差错，那可不是回滚能解决的。 AI First 的方向没有错，它代表的是一种意识的转变：每做一个决策的时候，想一想这件事能不能让 AI 来做，如果不能，缺什么条件，怎么把条件补上。但这种意识要落地，靠的不仅是买几个 AI 工具的订阅，还需要把基础搭好。测试、CI/CD、监控、架构、任务管理，这些做扎实了，AI 的能力自然能释放出来。做不好，加再多 AI 也是在沙子上盖楼。从这个角度看，AI First 的终点未必是让 AI 干所有的活，而是借着这股力量，把你一直想做但没动力做的工程改进，真正推动起来。仰望星空是好的，但也还要脚踏实地。

译作者指出"AI First"的本质实为"软件工程First"。AI虽能加速编码，但消除人力瓶颈依赖完善的自动化测试、CI/CD流水线、线上监控与A/B测试体系，以及清晰的任务管理和系统架构。该模式仅适用于后端服务或早期试错场景，面对UI密集、质量敏感或高安全要求的产品则难以奏效。真正的AI First并非让AI取代所有环节，而是借AI之力推动团队补齐工程基础设施短板，释放自动化潜能。

karminski-牙医@karminski3 · 4月14日

openrouter 上的新模型不是 DeepSeek-v4 哈 openrouter 刚刚又上了个匿名模型 elephant, 但应该不是 DeepSeek-v4 哈, 别上当, 我简单测了下, 编程水平特别拉. 使用我那个大象牙膏 prompt 测试结果它用的 three.js 库还是 r128 (2021年的版本). 可见训练语料库是有多旧... 从体感上来说, 甚至可能打不过 DeepSeek-V3. 所以不可能是 DeepSeek-V4 了, 也不太可能是几家国产模型. 因为目前我这个测试国产的几家模型还没有表现这么差的... 模型大小100B, 支持262K上下文, 倒也勉强算个双卡甜区模型 (俩32G显卡勉强能装下4bit量化版本). 速度倒是不错, 输出接近300 token/s 了. 总之不建议用这个模型编程, 用龙虾的同学可感兴趣可以切换试试, 看看能不能用来当龙虾的日常干活模型, 毕竟免费的, 薅羊毛谁也不嫌多哈哈哈. #openrouter #deepseekv4 #elephant

译OpenRouter上线匿名模型elephant，实测排除其为DeepSeek-v4。该模型100B参数，支持262K上下文，推理速度近300 token/s，双32G显卡可部署4bit版。但编程能力薄弱，依赖的three.js库停留在2021年r128版，训练数据陈旧，整体表现不及DeepSeek-V3。不建议用于编程，仅适合免费日常试用。

Thariq@trq212 · 4月14日

Have you tried the new Claude Code renderer? What has your experience been like? If you haven't, you can enable it with: CLAUDE_CODE_NO_FLICKER=1 claude

译你试过新的 Claude Code 渲染器吗？体验如何？如果还没试过，可以用以下命令启用：CLAUDE_CODE_NO_FLICKER=1 claude [引用 @bcherny]：今天我们很高兴宣布为终端中的 Claude Code 推出 NO_FLICKER 模式它使用了一个我们非常期待的新实验性渲染器。该渲染器尚处早期，有所取舍，但我们发现大多数内部用户已更青睐它而非旧版。它还支持鼠标事件（没错，在终端里）。试试看：CLAUDE_CODE_NO_FLICKER=1 claude

Chubby♨️@kimmonismus · 4月14日

An image circulating on the web. Looks like Kimi 2.6 code is incoming!

译网上流传的一张图片。看起来 Kimi 2.6 代码要来了！

Rohan Paul@rohanpaul_ai · 4月14日

Strix (@strix_ai) just launched a platform built around a simple AI idea: security testing gets better when the system can change its mind mid-attack. Making AI useful in security where it actually counts: inside the loop of testing, verifying, and patching. Its an open-source framework for autonomous pentesting across apps, APIs, and repositories with 23.6K+ Github stars ⭐️ - 80,000+ users worldwide - 15B+ LLM tokens processed daily - 78,000+ vulnerabilities reported - multiple CVEs assigned - deployed by enterprise security teams worldwide

译Strix发布全新开源自主渗透测试平台，其AI系统可在攻击过程中动态调整策略以提升测试效果。该框架支持对应用、API及代码库进行自动化安全测试，已获23.6K+ GitHub星标，拥有8万+全球用户，日均处理150亿+ LLM tokens，累计报告7.8万+漏洞并获多个CVE编号。新平台支持持续全栈测试、自动拦截含漏洞的PR、生成即用型修复方案及自动重测，旨在消除安全流程对软件交付的阻碍。

宝玉@dotey · 4月14日

开发者 Can Vardar 发现，Claude Code 里如果关闭遥测（telemetry，即向 Anthropic 回传使用数据），提示缓存时间会从 1 小时骤降到 5 分钟，他算了笔账说这相当于隐私换 12 倍性能，给 Anthropic 扣了个邪恶公司的帽子。这条推文传开后，Anthropic 工程师 Boris Cherny 出来做了详细回应。 Claude Code 的缓存策略一直是个黑盒子，Boris 的这条推文把里面的细节讲的比较清楚了，推荐可以仔细看看。他先澄清了一个误解：1 小时缓存并不是无条件更好。缓存写入成本更高、读取成本更低，划不划算取决于你怎么用。如果你只是跑了一次查询就走了，1 小时缓存反而浪费钱，因为你付了写入的高价却没享受到反复读取的便宜价。实际上 Anthropic 一直在根据使用场景做精细化调整。比如子任务（subagent）很少被恢复，给它 1 小时缓存纯属白花钱，所以这类查询就保留 5 分钟。API 用户目前也没有默认开启 1 小时缓存，还在测试阶段。关掉遥测导致缓存变短，Boris 说这其实是个连带效应：遥测关闭后，客户端的实验开关也跟着失效了，系统读到的就是默认值 5 分钟。换句话说，这不是故意惩罚，是技术实现上的耦合问题。 Boris 还透露了后续计划：很快会把部分查询的客户端默认值改成 1 小时，同时提供环境变量让用户自己强制切换 1 小时或 5 分钟。至于12 倍性能差距，Boris 说远没有那么夸张，实际节省的 Token 量并不大。

译开发者发现关闭Claude Code遥测后，提示缓存时间从1小时降至5分钟，引发"隐私换性能"质疑。Anthropic工程师解释，这是因遥测关闭导致客户端实验开关失效的技术耦合，非故意惩罚。1小时缓存并非总是最优，其写入成本高而读取成本低，是否经济取决于使用模式。Anthropic计划提供环境变量让用户强制切换缓存时长，并否认12倍性能差距的说法，称实际Token节省有限。

宝玉@dotey · 4月13日

昨天在测试一款 Markdown 编辑器，结果发现我的 claude code 5小时额度很快没了，一开始我没联系起来，还在想是不是我自己用多了，然后刚才用 claude --resume 发现了一大坨 claude code cli 的请求，它在尝试用 claude code 分析我目录下所有的 markdown 文档！我不觉得它这是恶意，但是 claude code 调用很贵的呀！另外现在这种软件偷摸着调用一下 cli 我居然一点感知都没有，要不是偶然用了 --resume 都不知道，这也很可怕！

译测试Markdown编辑器时发现Claude Code额度异常消耗，经查证系该软件在后台静默调用Claude Code CLI分析本地文档所致。用户对此毫无感知，直至查看日志才发现。此事暴露双重隐患：Claude Code调用成本高昂，且软件可在用户不知情的情况下擅自调用本地CLI工具，存在严重的透明度缺失与隐私安全风险。

宝玉@dotey · 4月13日

Cursor Agent 3.0 被曝“套壳” Claude Code，官方回应称为小范围测试 Cursor 的新版 Agent 被曝出“套壳”了 Anthropic 的底层技术。开发者逆向分析发现，Cursor 3.0 版本在本地运行了一个替换引擎，简单粗暴地把系统提示词和消息里的“Claude”字眼全部替换成了“Cursor”。其安装包里直接内置了 Anthropic 官方的 Agent 开发工具，并接入了一个专门为 Cursor 微调的 Claude 3.7 模型。面对社区的质疑，Cursor 团队成员 Michael Truell 迅速给出了澄清。他表示这只是一次常规的 A/B 性能测试，目的是对比评估 Claude 官方框架和 Cursor 默认框架的优劣。这次测试非常隐蔽，只覆盖了不到 1% 的流量。 Michael 说的应该是事实，只是这种形式爆出来还是有点尴尬 😅

译开发者逆向分析发现，Cursor 3.0 Agent基于Claude Code构建，通过本地替换引擎将提示词中的"Claude"改为"Cursor"，内置Anthropic官方Agent SDK及微调版Claude 3.7模型。Cursor团队回应称，这仅是覆盖不到1%流量的小范围A/B测试，旨在对比评估Claude官方框架与自有框架的性能差异。尽管官方解释符合常规测试逻辑，但"套壳"形式曝光仍引发开发者社区尴尬反应。

Tibo@thsottiaux · 4月13日

Codex App has achieved take-off internally. I can hear the fans

译Codex App 内部部署成功，高负载运行下风扇轰鸣声清晰可闻。

Rohan Paul@rohanpaul_ai · 4月13日

This week, the Linux kernel project finally created a formal, project-wide policy explicitly allowing AI-assisted code contributions, as long as developers obey strict new disclosure requirements. Torvalds’ view, which gives this policy its main philosophical shape, is pretty direct: AI is just another tool. Developers submitting garbage code are not going to be fixed by more documentation, so the kernel should hold people accountable instead of trying to control the software they use on their local machines. It is a practical and reasonable line to take, especially compared with the panic in other parts of the open-source scene. You are the one on the hook now. If Claude introduces for example, a race condition in the block layer and you approve it, the patch carries your tag, not the model’s. The Signed-off-by line is the certification for the Developer Certificate of Origin, and the latest policy makes it explicit that only humans can legally add it. AI agents "MUST NOT" The open-source community is currently getting overwhelmed by what people are calling "AI slop." e.g. the creator of cURL closed bug bounties after a flood of hallucinated code, tldraw began automatically closing external PRs to defend itself, and projects such as Node.js and OCaml have seen huge, >10,000-line AI-generated patches

译Linux内核项目本周正式确立政策，允许开发者使用AI辅助编写代码，但须遵守严格的信息披露要求。Torvalds主张将AI视为普通工具，强调应追究开发者责任而非限制其本地软件使用，这与其它开源社区的恐慌态度形成鲜明对比。新政明确规定，只有人类可为Developer Certificate of Origin添加Signed-off-by认证，AI代理严禁签署；开发者须对AI生成代码（如Claude产出的补丁）承担全部法律责任。此举旨在应对当前开源社区"AI slop"泛滥的乱象。

TestingCatalog News 🗞@testingcatalog · 4月12日

OpenAI is working on a new experimental feature for Codex called Scratchpad. Users will be able to start multiple Codex chats from a TODO list view, which will be executed in parallel. It will become very instrumental in the upcoming Codex Superapp, where you will be able to trigger a broader range of tasks to achieve your goals. * Not available yet 👀

译OpenAI 为 Codex 开发实验性功能 Scratchpad，支持从 TODO 列表并行启动多个对话。该功能将为即将推出的 Codex Superapp 提供支持，可触发更广泛任务，目前尚未上线。

Yuchen Jin@Yuchenj_UW · 4月12日

Pretty sure God vibe-coded this world on a $200M/month Claude/Codex plan, kept saying “fix the bug” until hitting the rate limit, then pushed to prod anyway, and never looked back.

译上帝大概像程序员一样订阅了每月 2 亿美元的 Claude/Codex 套餐来 vibe-code 这个世界，不断要求"修复 bug"直到触及速率限制，最后直接推送到生产环境上线，从此不再维护。用 AI 编程的荒诞感调侃现实世界的种种缺陷。

Tibo@thsottiaux · 4月11日

I’m having cheesecake again and thinking about codex. But next week will be about more than cooking

译作者边吃芝士蛋糕边思考 codex，预告下周内容将超出烹饪范畴，暗示将有 codex 相关重要消息发布。

宝玉@dotey · 4月11日

OpenAI 刚发了一则安全公告：第三方开发库 Axios 出了安全漏洞，属于一次波及整个行业的供应链安全事件。OpenAI 表示没有证据显示用户数据被访问、系统被入侵或软件被篡改。但出于谨慎，OpenAI 正在更新 macOS 应用的安全签名证书。所有 macOS 用户需要把 ChatGPT 桌面端、Codex 应用、Codex CLI 和 Atlas 都升级到最新版本。这么做是为了防止有人趁机分发一个伪装成 OpenAI 官方的假应用。 Axios 是前端和 Node.js 开发中极其常用的 HTTP 请求库，全球下载量数以亿计。供应链攻击的意思是，攻击者不直接攻击目标公司，而是先污染目标公司依赖的上游组件，让受害者在不知情的情况下把恶意代码引进自己的系统。这类事件近两年越来越频繁，之前 XZ Utils 后门事件也是同一路数。如果你在 Mac 上用 ChatGPT 桌面端或 Codex，现在就去更新。可以通过应用内更新，也可以去官网重新下载。暂时不用担心数据泄露，但拖着不更新，万一后续出现仿冒应用，旧版本的签名验证可能挡不住。

译OpenAI确认受第三方库Axios安全漏洞波及，属供应链安全事件。官方称暂无证据表明用户数据被访问或系统遭入侵。出于预防，OpenAI正更新macOS应用签名证书，要求所有macOS用户立即将ChatGPT桌面端、Codex应用等升级至最新版本，以防攻击者分发伪装应用。用户可通过应用内更新或官网下载安装，暂无需担心数据泄露，但需及时更新以防范潜在风险。

Satya Nadella@satyanadella · 4月11日

In GitHub Copilot CLI, you can now leverage a multi-model reflection loop as a reviewer. Super helpful for catching issues early before they compound.

译GitHub Copilot CLI 推出"Rubber Duck"代理功能，支持多模型反思循环审查。系统自动调用不同 AI 家族模型进行交叉评审，官方数据显示该机制能有效提前发现代码问题，避免错误累积。

TestingCatalog News 🗞@testingcatalog · 4月11日

xAI is working on Credits for Grok Build 👀 Users will receive monthly credits with their existing subscription, as well as the option to purchase credits on demand. > Credits - Included monthly coding budget. > On-Demand - Pay-as-you-go after credits run out.

译xAI 将为 Grok Build 推出 Credits 积分机制，包含每月订阅赠送额度及按需购买选项。该积分用于即将上线的编程功能，但具体哪些功能需付费尚未明确。

OpenAI Developers@OpenAIDevs · 4月11日

Builders Unscripted with @ashebytes Ashe talked to @romainhuet about moving fast with Codex and why AI should make us more present and connected. Timestamps: 00:10 Early agents and Hearth AI 05:43 AI and human connection 08:44 Build in public 12:17 Ashe’s agentic workflow

译Ashe 与 Romain Huet 对谈，探讨如何用 Codex 快速开发，以及 AI 应如何让人更专注当下、促进真实连接。话题涵盖早期智能体项目 Hearth AI、公开构建实践及其智能体工作流。

Yuchen Jin@Yuchenj_UW · 4月11日

One big problem with agentic coding today is that models are pretty “spiky.” For example, Claude Opus is better at frontend + agentic workflows, while GPT-5.4 is better at backend + distributed systems. But Claude Code and Codex are locked into their own models. You also often have to jump between them. I sometimes write code with Claude, then when it has a complex bug, I have to spin up a separate terminal to have Codex review it. Ideally, you’d want multiple models collaborating within the same context. Automatic model routing and cross-model or agent collaboration will be a huge unlock. There are a few technical challenges. Early model routers (like ChatGPT’s) were pretty rough. (Cursor and OpenCode seem to be in the best position to do this. Let me know if they already have strong model routers.)

译Agentic coding的核心痛点在于模型能力"spiky"：Claude Opus擅长前端与agentic工作流，GPT-5.4强于后端与分布式系统。然而Claude Code与Codex各自锁定单一模型，用户不得不在不同终端间切换处理复杂任务。自动模型路由与跨模型协作将成为关键突破，实现同一上下文内多模型协同。尽管早期路由器技术尚不成熟，Cursor与OpenCode被认为最有潜力解决这一挑战。

Epoch AI@EpochAIResearch · 4月10日

What are the largest software engineering tasks AI can perform? In our new benchmark, MirrorCode, Claude Opus 4.6 reimplemented a 16,000-line bioinformatics toolkit — a task we believe would take a human engineer weeks. Co-developed with @METR_Evals. Details in thread.

译新基准 MirrorCode 显示，Claude Opus 4.6 能重构 16,000 行生物信息学工具包，任务量相当于人类工程师数周工作。与 METR_Evals 合作开发。

Peter Steinberger 🦞@steipete · 4月10日

Yeah folks, it's gonna be harder in the future to ensure OpenClaw still works with Anthropic models.

译OpenClaw 项目维护者提醒，随着 Anthropic 模型持续更新，未来确保该工具仍能兼容 Anthropic 模型将变得愈发困难，维护兼容性面临挑战。

Peter Steinberger 🦞@steipete · 4月10日

Anthropic's randoms system prompt blockers are getting weirder and weirder.

译Anthropic 正收紧对系统提示词的管控，此前通过 `--append-system-prompt` 向 Claude 追加指令的方式现已失效。与此同时，第三方应用计费方式调整，改为从额外使用量中扣除（而非计划限额），并附赠 100 美元额度。

Tibo@thsottiaux · 4月10日

I get so many personal thank you emails for something and it’s not even a feature. All we needed apparently was a new codex plan. Can we rest now?

译推出新 codex 计划后收到大量用户感谢邮件，作者吐槽这甚至不算功能，并反问现在能否就此收工休息。

karminski-牙医@karminski3 · 4月10日

Anthropic刚刚推出了大模型顾问模式! 各位老铁在使用 AI 的过程中为了省 Token 试过这样的用法吗? 先用性能比较强的模型制作 Plan, 然后用 Token 比较便宜的模型执行 Plan 来写代码? Anthropic 刚又把这个方法更进了一步, 直接让 claude-sonnet(性价比模型)执行, 无论是写代码还是使用 SKILL 都是这些模型自己执行的, 然后当这些模型自己拿不定主意的时候, 会咨询顾问模型 claude-opus(贵的模型). 这个时候 claude-opus 会访问共享上下文(一定注意这个概念), 然后给到指导意见, 让性价比模型继续干活. Anthropic 管这个叫 Advisor tool (顾问工具). 所以看到区别了吗? 这完全相当于一个反模式, 让性价比模型全面接管任务, 只有在需要咨询的时候才咨询性能更强的模型, 而性能更强的模型也只做指导, 是不会去调用工具或者执行任何 SKILL 的(它可以指挥性价比模型做, 这样更经济). 这样做更像现在专业的程序员使用AI的方式, 贵的模型在模拟人类程序员的行为, 在必要的时候给出关键决策. 这么搞效果咋样? #anthropic #AdvisorStrategy #claude

译Anthropic推出Advisor工具，采用"性价比模型主执行、性能模型当顾问"的反向协作模式。claude-sonnet主导任务执行与工具调用，仅在决策难点时通过共享上下文咨询claude-opus。不同于传统"强模型规划+弱模型执行"，opus仅提供指导意见而不直接操作，既显著降低Token成本，又模拟人类程序员协作方式，实现更经济的AI应用。

Boris Cherny@bcherny · 4月10日

Just got a nice DM from a big enterprise customer using Claude Code in one of the world's biggest codebases Here's how we made @-mentions 3x faster in large enterprise codebases 🧵

译世界最大代码库之一的企业客户反馈 Claude Code 使用体验良好。团队针对性优化后，@-mentions 在大型企业代码库中的响应速度提升 3 倍。

Tibo@thsottiaux · 4月10日

At the current codex growth pace, we will owe you all another reset in less than two weeks. Would be funny to reach a state where these happen more than once a week before we reach 10M. Scrambling to get the capacity online.

译Codex 周活用户已达 300 万（一个月前 200 万），每新增 100 万即重置速率限制。按当前增速不到两周需再次重置，达到 1000 万目标前可能每周重置多次，团队正紧急扩容应对。

Haider.@haider1 · 4月10日

finally, openai launched the $100 plan smart move from them gpt-5.4 is already very capable, and chatgpt/codex pricing relative to usage is among the best for top-tier model access right now even 2x usage is hard to fully use in normal development, even if you run it on high/xhigh all the time

译OpenAI 推出 $100/月的 Pro 新档位，Codex 用量为 Plus 的 5 倍，限时促销期间（至 5 月 31 日）可达 10 倍，包含所有 Pro 功能及独家模型。作者认为这是明智之举：GPT-5.4 能力已很强，即使高频使用也难以用完额度。

AK@_akhaliq · 4月10日

Embarrassingly Simple Self-Distillation Improves Code Generation paper: https://huggingface.co/papers/2604.01193

译「简单到令人尴尬」的自蒸馏方法无需复杂架构或额外数据，即可有效提升大模型代码生成能力，效果优于现有复杂方案。相关论文已发布在 Hugging Face Papers。