The thing that made Fable so impressive was its creative problem-solving and good judgement calls across long-running projects You can see this when I had it make a self-aware Snake game. I gave it no design feedback, just "make it better" Worth trying: https://snake-stable-build.netlify.app/

译让 Fable 如此令人印象深刻的是其跨长期项目的创造性问题解决和良好判断力你可以看到这一点：当我让它制作一个自知的贪吃蛇游戏时。我没有给它任何设计反馈，只是说“让它更好” 值得一试：https://snake-stable-build.netlify.app/

Rohan Paul@rohanpaul_ai · 6月23日50

Sakana Fugu Ultra just beat the other models on visual polish in a live trading-desk coding test, got close to GLM 5.2, but at 17x the cost. Test was done on atomic[.]chat, a desktop app that runs LLMs locally. Fugu produced the richest interface, with multiple panels, watchlists, charts, tape-style activity, status labels, and a more finished product feel. To note that Fugu Ultra is an orchestration layer that assembles and routes subtasks across a pool of models through one OpenAI-compatible endpoint. So Fugu is a learned coordinator model inside a multi-agent system. When you send a prompt, Fugu decides whether to answer alone or hand pieces of the job to other models, then it gathers the outputs and produces one final response.

译Sakana Fugu Ultra 是一个多智能体协调层，通过 OpenAI 兼容端点将子任务路由给不同模型。在 @atomic_chat_hq 的实时交易桌面编码测试中（要求构建完整前后端、实时 API 数据、暗色主题 UI），Fugu Ultra 生成了最丰富的多面板界面（含图表、状态标签等），效果接近 GLM 5.2，但成本达后者的 17 倍：Fugu Ultra 耗 22,225 tokens / $0.51，GLM 5.2 耗 13,677 tokens / $0.03。对比模型 Opus 4.8（15,802 t / $0.31）和 GPT-5.5（11,474 t / $0.26）在质量与成本平衡上表现更佳。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日70

OpenAI announces GPT-5.5-Cyber (new) model update, which scores 85.6% on CyberGym benchmark in comparison to 81.9% in its early version. Codex got a new Security plugin too 👀

译OpenAI 宣布 GPT-5.5-Cyber 模型更新，在 CyberGym 基准上得分 85.6%（早期版本为 81.9%）。Codex 新增 Security 插件，可在 Codex 内部发现、验证和修复漏洞。作为 Daybreak 扩展计划的一部分，完整版 GPT-5.5-Cyber 模型面向可信防御者；Cyber Partner Program 允许安全公司基于 OpenAI 网络安全能力构建产品；Patch the Planet 项目与维护者合作保护关键开源项目。

Rohan Paul@rohanpaul_ai · 6月23日75

OpenAI’s new GPT-5.5-Cyber just beat Mythos 5 on CyberGym. CyberGym measures whether an agent can reproduce known software vulnerabilities, so this is quite a strong signal for defensive vulnerability analysis of models. OpenAI also launched a major push to use GPT-5.5-Cyber and human security teams to fix open source bugs before AI bug-hunting tools flood maintainers with low-quality reports. Vulnerability discovery is becoming much easier, so the scarce part is now remediation, which means confirming the bug, proving reachability, writing a fix, testing it, and giving humans enough evidence to merge safely. OpenAI’s initiative is to use GPT-5.5-Cyber as a defensive security worker inside Codex. It scans code, checks whether a vulnerability is real and reachable, writes a patch, tests the patch, and gives humans evidence to approve it. Daybreak is OpenAI’s new cybersecurity initiative to help trusted defenders find, verify, and patch vulnerable software much faster using AI. The new checkpoint of GPT-5.5-Cyber, are all part of the company's limited “Trusted Access for Cyber” program and do not involve a public release.

译OpenAI 新模型 GPT-5.5-Cyber 在 CyberGym 基准上击败 Mythos 5，该基准测试 AI 智能体复现已知软件漏洞的能力，对防御性漏洞分析是强信号。OpenAI 同步扩大 Daybreak 计划，包括：Codex Security 插件（在 Codex 内发现、验证并修复漏洞）；GPT-5.5-Cyber 完整版（供受信任防御者使用）；Cyber Partner Program（赋能安全公司构建基于 OpenAI 能力的安防产品）；Patch the Planet（与维护者合作保护关键开源项目）。本轮模型和计划属于“Trusted Access for Cyber”项目，不公开发布。OpenAI 旨在用 GPT-5.5-Cyber 作为 Codex 内的防御性安全工人，自动扫描代码、确认漏洞真实可达、编写补丁并测试，

Greg Brockman@gdb · 6月23日51

Codex Security plugin for security teams: deep scans, validating findings, tracing attack paths, building threat models, generating codebase-specific patches for review, and exporting into other tools: https://openai.com/daybreak/codex-security-plugin/

译面向安全团队的 Codex Security 插件：深度扫描、验证发现、追踪攻击路径、构建威胁模型、生成针对代码库的补丁以供审查，以及导出到其他工具：https://openai.com/daybreak/codex-security-plugin/

OpenAI@OpenAI · 6月23日60

We’re expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plugin: find, validate, and fix vulnerabilities right inside Codex - The full version of GPT-5.5-Cyber model: a great model for trusted defenders - Cyber Partner Program: powering products built on top of our best cyber capabilities for leading security companies to secure the world's software - Patch the Planet: working with maintainers to secure critical open source projects https://openai.com/index/daybreak-securing-the-world/

译OpenAI 宣布扩展 Daybreak 项目，以机器速度民主化修补易受攻击的软件。具体包括：推出 Codex Security 插件，可在 Codex 内查找、验证和修复漏洞；发布完整版 GPT-5.5-Cyber 模型，专为可信防御者设计；启动 Cyber Partner Program，支持领先安全公司基于 OpenAI 最佳网络能力构建产品；以及 Patch the Planet，与维护者合作保护关键开源项目。

jason@jxnlco · 6月23日13

https://shnatsel.medium.com/the-unreasonable-effectiveness-of-llms-for-auditing-rust-code-d4df8bf0afd3

译我刚刚读了这篇文章：https://shnatsel.medium.com/the-unreasonable-effectiveness-of-llms-for-auditing-rust-code-d4df8bf0afd3

jason@jxnlco · 6月23日19

how many of you have a codex chief of staff thread? what kinds of stuff do you have them look over?

译你们中有多少人有一个Codex参谋长线程？你们让它们查看什么样的事情？

François Chollet@fchollet · 6月22日34

Programming is not about code, just like music is not about notation. It is the art & science of managing complexity through layers of abstraction. AI is simply a part of it.

译编程不是关于代码，就像音乐不是关于记谱法一样。它是通过抽象层管理复杂性的艺术与科学。AI只是其中的一部分。

AYi@AYi_AInotes · 6月22日49

白嫖顶级大模型的窗口期来了 DeepSeek V4 Flash限时全免费 1M上下文随便造， DeepSeek V4 Flash登陆OpenModel平台开启限时免费活动， 284B MoE架构支持1M超长上下文编码与代理能力表现突出，输入输出全免费没有任何调用门槛，活动期间平台其他模型也同步享20%到80%的折扣，窗口期只到6月28日有需求的直接冲！

译DeepSeek V4 Flash 登陆 OpenModel 平台，开启限时免费活动。该模型为 284B MoE 架构，支持 1M 超长上下文，编码与智能体能力突出。活动期间输入输出均为 $0.00/M，无任何调用门槛。平台其他模型同步享受 20%–80% 折扣。免费窗口期至 6 月 28 日截止。

X.PIN@thexpin · 6月22日54

Sources close to ByteDance tell us the company is pushing into AI coding with Doubao 2.1 Pro — and the pricing is aggressive. Final numbers aren't locked in yet, but sources say Doubao 2.1 Pro per-million-token pricing will come in ~80% cheaper than Claude Opus 4.8, ~30% cheaper than GLM-5.2, and ~50% cheaper than Qwen 3.7 Max. Doubao 2.1 Turbo is half the Pro price. Doubao has 300M+ monthly active users, but monetization anxiety runs deep inside ByteDance. Video generation ARR just hit ~$2.1B — the easy win. Charging for Doubao Pro is the harder fight: user pushback has been fierce.

译知情人士称，ByteDance 正以豆包 Doubao 2.1 Pro 进军 AI 编程，定价极为激进。每百万 token 价格预计比 Claude Opus 4.8 低约 80%，比 GLM-5.2 低约 30%，比 Qwen 3.7 Max 低约 50%。Doubao 2.1 Turbo 价格仅为 Pro 版一半。豆包月活用户超 3 亿，但字节内部商业化焦虑严重：视频生成 ARR 已达约 21 亿美元（较易变现），而 Doubao Pro 收费则遭遇用户强烈抵制。

Chubby♨️@kimmonismus · 6月22日29

I'm really looking forward to the Sonnet 5 release. Sonnet has sometimes been stronger than older Opus models at launch, most clearly with Claude 3.5 Sonnet outperforming Claude 3 Opus in areas like coding, speed, and cost-performance. But the real point of Sonnet obv. is not simply "beating Opus"; it is about translating frontier-level intelligence into a practical workhorse model: fast enough, affordable enough, and reliable enough to power real products, agent workflows, and everyday coding at scale. So yeah, exciting week ahead.

译用户 Kim 期待 Sonnet 5 发布，指出 Sonnet 系列常在发布时强于老一代 Opus，如 Claude 3.5 Sonnet 在编程、速度和性价比上超越 Claude 3 Opus。Sonnet 的核心价值是将前沿智能转化为实用工作模型：足够快、足够便宜、足够可靠，支撑实际产品、智能体工作流和日常大规模编码。引用推文暗示本周可能迎来繁忙发布，包括 GPT-5.6 和 Sonnet 5。

Peter Steinberger 🦞@steipete · 6月22日39

I was skeptical about the multi-model routing. Seems my hinch was right.

译@LLMJunky 实测某多模型路由服务，5小时使用额度在1个prompt内即告罄。在threejs任务（构建Rocket League副本）中，生成效果远差于GPT 5.5，需7-8次来回通过Codex修复才勉强可玩；GPT 5.5一次完成且无需后续调整，Fable同样表现出色。该路由性能不及Mythos，早期印象不佳。

karminski-牙医@karminski3 · 6月22日54

国产模型最近这一波打得太精准了 DeepSWE benchmark 放出了榜单, 从分数上看, GLM-5.2 无疑是国产编程大模型SOTA了, 而 Kimi-K2.7-Code 则是性价比SOTA. 图上几个折线是对应模型的不同推理程度的得分情况. DeepSWE 我觉得是最近非常值得的关注的的榜单了, 这个虽然也叫xxSWE, 但是它用的不是像SWE那种github上爬取的PR或者issue, 而是完全根据开源项目人工制造的问题, 然后让大模型修改. 能最大限度避免大模型提前炼这些问题(起码需要一段时间了, 5月份刚出的) 并且修改范围也很大,SWE-Bench-verified 通常一个提交也就几十行代码, 而 DeepSWE 每个问题都要上百行提交才能解决问题, 并且很考验模型的规划能力, SWE-Bench-Verified 通常会把所有需要的工具给到错误日志啥的也有, 并且提示词也写好告诉模型该怎么用. 而 DeepSWE 纯靠模型自己摸索, 非常像现实中修改项目代码的过程. 我觉得是涵盖了一部分工程能力测试的. 另外 SWE-Bench-verified 测得大部分都是 Python, 而 DeepSWE 则涵盖了TypeScript、Go、Python、JavaScript、Rust. 所以我强烈建议关注大模型编程能力测试的同学过关注一波这个测试. #DeepSWE #SWEBench #glm #kimi

译DeepSWE 基准测试发布榜单，GLM-5.2 为国产编程大模型 SOTA，Kimi-K2.7-Code 为性价比 SOTA。该榜单与 SWE-Bench-verified 不同：问题由人工针对开源项目制造，可避免数据泄露；每个问题需修改上百行代码，考验模型规划能力，且不提供工具指引，更贴近真实工程场景。覆盖 TypeScript、Go、Python、JavaScript、Rust 等多种语言，而非仅 Python。榜单于 5 月发布。

AYi@AYi_AInotes · 6月22日59

有个老哥用Codex做了件疯狂的事，一条指令扔进去，AI自己把整个App的测试加修bug全包了，而且一口气跑了4.5小时，启发真的太大了🤯 以前AI写代码是副驾驶，你说一句它写一段，出了问题还得你自己找自己修，这次Codex的/goal功能直接跨了一大步，你给一个目标，它就能自己把整个质量闭环全跑下来。 Tom Osman做了这个实验，只给了一条指令，让Codex把App所有功能拆成用户故事，写完测完修完直到质量达标。结果Codex自己扫完了整个代码库，拆出183个用户故事，覆盖105个页面路由和67个API，全部整理进一张总表，然后循环测试修复，持续跑了4.5小时。整个流程分六步走，先扫描全量功能，再写用户故事和预期行为，接着生成测试用例实际跑测，发现问题自动修复，修完再做回归测试，漏了的功能再补进来继续循环。全程靠一张表格维持状态，不会跑偏不会失忆。这不只是又一个自动写代码的工具了啊，简直就是从AI辅助写代码到AI自主负责质量的质变了，以前要一个QA加一个开发花几天干完的活，现在AI几个小时就能跑一轮基础版本。对一人公司和小团队来说，等于凭空多了一个不知疲倦的测试加修理工。当然它也有明显的局限，比如只会照着现有代码测，产品设计本身错了它也会把错误当成标准固化下来，也可能出现幻觉式的测试结果，大项目的成本和时长都会爆炸，最终还是要人来把关优先级和体验。但真正的信号已经很清楚了，AI已经能独立跑完发现问题记录问题修复问题验证问题的完整循环。未来拼的不是会不会用AI写代码，还有会不会设计高质量的目标，会不会用结构化的状态管理约束AI，会不会在关键节点做好人类把关。

译Tom Osman用Codex的/goal功能，一条指令让AI自动将App所有功能拆解为用户故事，覆盖105个页面路由和67个API，生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏，持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量，但局限是仅基于现有代码测试，可能固化错误或产生幻觉，大项目成本高，最终需人类把关。

MiniMax (official)@MiniMax_AI · 6月22日34

M3's 95% cache ratio tells the more interesting story hint: long-horizon coding loops appreciate @opencode making this usage visible.

译M3 的 95% 缓存命中率讲述了一个更有趣的故事提示：长时间跨度的编码循环感谢 @opencode 让这一使用量可见。

数字生命卡兹克@Khazix0918 · 6月22日66

http://x.com/i/article/2068923862918877184 # AI用得好不好，跟你会不会管人，我觉得越来越是同一件事。故事是这样的。这个端午节在家，终于可以休息了，然后几乎就是疯狂的用Agent来做自己好玩的东西。有图为证，最近这个假期，差不多干掉了2000多万的token。这里我防杠一下，我知道可能会有人说，你这好几天才干掉2000万token，也不算啥，我基本每天API都是一个亿起步。我想说首先我不是那么重度的用户，我就是个普通的爱好者，其次这个PK在我看来没有任何意义，因为只能说明你烧的多但是不代表质量高，最后这个Claude Code客户端的token消耗计算是不算缓存的，如果算上缓存的话，一个稍微大型一点跑4个小时的任务，烧的token可能就是4个亿。因为Claude Fable 5被下架了，所以这个假期，我几乎全部用的都是Claude Opus 4.8，然后有一个任务，让我感慨万千，那一瞬间，我真的无比的怀念Claude Fable 5。这个任务，是我自己做的AI资讯聚合网站AIHOT的一个聚簇机制。也就是大家在精选页下看到的这个关联讨论多少条。我们外显监控的信源其实只有200个不到，但是背后其实还监控着近千个隐性信源，有多少可信信源共同讨论某一件事，几乎代表着未来AI时代我觉得热点的性质和定义。所以这就需要聚簇，也就是把大家讨论的事情给拆分、聚集、然后形成一簇，再把其中一个信源的单条信息推选出来当领袖对外展示，其他的隐藏在背后。大概就是这么个东西。而且做聚簇还有个必要性，就是比如某个大事件突然爆掉的时候，比如这周GPT-5.6发布了，那在AI领域，一定是上百个信源共同讨论，其中会有无数被精选，如果我们全都展示出来，那就直接刷屏了，整个AIHOT上你也看不到别的了，满屏的都是GPT-5.6，用户体验极差。所以于情于理，这个东西我们都要做好。但是呢，现在的聚簇机制，过去经常有问题，一会把不该聚的聚在了一块，一会把该聚的又分裂了，我自己看起来经常难受的要死。。。所以这个端午节假期，我就准备重构一下这个聚簇的算法。感觉没有那么难对吧，但是，坑比我想象的多太多了。首先最大的问题是，我知道当一个热点爆发的时候，相关新闻应该被聚拢成一个簇，我知道语义相近但事件不同的新闻必须被拆开，我知道时间窗口应该限制在24小时以内，我知道聚簇的阈值不能太松也不能太紧，太松了什么都黏在一起，太紧了每条新闻都是孤岛。这是最终的效果和目标，但是究竟什么样的算法和机制可以达成，坦诚的讲，我是个废物，我一无所知。。。所以我只能给Claude Code一段这样的目标，然后让他全网调研，用我们数据库里的真实数据进行量化回测，让它自己去实现。我把这些东西写清楚了，丢给了Opus 4.8。然后问题就来了。 Opus 4.8是一个很强的模型，这个我承认。但是至少在做这种只有模糊目标没有明确任务的事情上，全面崩盘。在方案设计上，就漏洞百出，查了一些论文，学了一些所谓的SOTA的做法，然后设计的方案乱七八糟，我稍微检查一下感觉里面就有漏洞，我一问它就自己反转反转再反转。经典台词：这里有个反转。后面都给我干生气了，怒斥这个墙头草，毫无底线，毫无坚持。最后拼拼凑凑在对抗式审查之后，出了一版方案，我开着那个最高级别的动态工作流也就是那个Ultracode让他做完，又是一堆BUG，最后又变成了哦阈值0.72高了点，我们降到0.71吧，没有考虑到多语言，也毫无各种各样的边界情况。这玩意干了我一天时间，中间不断修修补补，新方案修了旧的问题，又冒出来新的问题。最后给我干的快道心破碎了。那个状态，想起了我在公司里带一些能力还不错但你又不能完全放手的小伙伴的时候，你给他方向，他能走，但你得盯着，时不时拉一把，时不时补一句这个地方你漏了，这么做它不对。那天，我突然心中好怀念Claude Fable 5。如果Fable 5还安在，这个事情可能半天就搞定了，而且省心省力。因为我之前用Fable 5做过好几个类似复杂度的项目，每次的体验都是一样的，我只需要把目标讲清楚，甚至不需要那么明确的目标，一个模糊的目标也行，它给出来的方案经常比我自己能想到的要好N个数量级，而且大概率是能以非常优雅的姿态，完成你的目标。那玩意，就是那种你给它一个方向它能自己跑到终点还顺手把沿途的坑都填了的选手。但它出师未捷身先死，中道崩殂了。所以我只能用Opus 4.8或者GPT-5.5，然后用更细致的管理方式去补它们和Fable 5之间的差距。但这个体验，让我想明白了一件非常非常非常重要的事。不同能力的AI，你得用不同的管理方式。跟管人，是一模一样的。这几年，当过大头兵，当过小组长，管过小团队也管过大团队，现在也作为一个创始人在创业管着自己公司的三十来号人。我自己对管理最深的体感就是一句话：越厉害的人，你给的东西就得越不一样。比如纯粹的新人刚刚入职的时候，你可能得告诉他每一步怎么做。比如打开这个文件，复制这段数据，粘贴到那个表格里，格式调成这样，最后发给谁谁谁，你给他的，其实就是一个任务清单，每一步都写得清清楚楚。这其实就是Prompt Engineering的逻辑，你把每一步都告诉AI，它照着做。但是带了一段时间之后，他开始上手了，你就不用这么细了。你可以跟他说，这个月的视频内容排期你来做，风格参考上个月的，节奏控制在每周两条。你给他的，从一步一步的指令，变成了一个目标加上一些约束条件。这就是Harness Engineering的逻辑。你给AI一个目标和一套规则，它在规则内自己想办法达成。再后来，如果这个人真的很强，你会发现一个很微妙的变化。你甚至不需要给他特别具体的目标了，你跟他说，我们今年想把品牌在线下活动的影响力做起来，你来想想怎么搞吧。或者说，我们今年MCN的商业化收入，要保持口碑的同时健康的增长。他不光能做，他还能反过来给你一个你没想到的方案。而且他做完之后，还能把这次整套的流程沉淀成SOP，下次换一个人来，也能继续执行照着跑，它可以去拓展更牛逼的业务。这种人，是每个公司、每个团队、每个管理者做梦都想要的超级大佬。 Claude Fable 5给我的感觉，就是这种人。而它之下，Opus 4.8、GPT-5.5、GLM-5.2，都更像一个能力很强但你还是得盯着的高级员工。你看，差别就出来了。我做AIHOT聚簇那两天的痛苦，根源就在这里。我给了一个策略层的目标，但Opus 4.8需要的其实是更接近执行层的指引。这时候，我的管理方式和模型的能力层级之间有一个错配。就像你把一个合伙人级别的目标甩给了一个高级执行者级别的人，这个人其实并不是不行，只是你的预期和他的承接能力之间差了一层。回到管人这件事。我这两天其实也一直在想一个问题，为什么有些人用AI效果特别好，有些人就总觉得AI很笨。我现在越来越觉得，这跟一个人会不会管理，是强相关的。管人管得好的人，天然就知道怎么定义目标、怎么给约束、怎么设反馈机制。但更重要的是，他们知道怎么判断面前这个人的能力层级，然后动态调整自己的管理颗粒度，这一点真的非常非常非常重要。任正非有一句话我觉得非常对。 “让听得见炮声的人来做决策。” 这句话在华为内部被反复提起，意思是总部不要替前线的人做每一个决定，你把战略方向定清楚，把资源配到位，具体怎么打让前线自己判断。因为前线的人最了解现场的情况，他们的即时判断经常比总部坐在会议室里的遥控指挥要准得多。这个思维方式，我觉得跟现在用AI是完全一样的。你给AI写一堆详细的步骤，就像总部在遥控指挥，每一步都给前线下死命令，这个方式看起来很缜密，但一遇到你没预料到的情况，AI就懵了，因为步骤里没有覆盖到这种case。你给AI一个清晰的目标，一套约束，然后让它自己决定怎么执行，这才是“让听炮声的人做决策”，AI也才真正有了自主决策的空间。但是，这里有一个前提。任正非这句话之所以在华为管用，是因为华为的人才密度够高。你让一个刚入职的应届生去听炮声做决策，他可能连炮声从哪边来的都分不清就被炮给轰死了。但如果你让一个打了十年仗的业务老将去做同样的事，他不光能判断方向，还能在混乱中即兴发挥出你想不到的打法。同一套管理哲学，对不同能力的人，效果天差地别。同样是管人，你跟一个初级运营说“把这篇文章排到今天下午三点发”，这是一个执行层的目标，明确、可验证、没有歧义。你跟一个经纪总监说“这个季度MCN要在XX这个平台做到垂类领域No.1”，这是一个策略层的目标，模糊但有方向，需要对方自己拆解。你跟一个合伙人说"我们今年要成为AI行业最有影响力的内容公司”，这是一个愿景层的目标，几乎没有执行路径，但它锚定了所有人的方向。三个层次，给不同的人。你把执行层目标给了一个合伙人级别的人，他会觉得你不信任他，觉得你在微操。你把愿景层目标给了一个刚来的实习生，他会完全不知道从哪下手，然后焦虑到失眠。给AI也是一模一样的。我做聚簇那两天的痛苦，根源就在这里。我给了一个策略层目标，但Opus 4.8在这个任务的维度上，需要的其实是更接近执行层的指引，管理方式和能力层级之间，错配了。但是，以上所有这些讨论，其实都还停留在我们当下、今天的游戏里。 AI、Agent、模型一定是会继续进化的。 Cladue Fable 5马上可能就要回来了，GPT-5.6也要上线了，可能要不了多久，Claude Fable 6、GPT-6也会来了。也许三个月后，也许半年后，你手上用的每一个模型都能接策略层的目标，都能自己设计方案，都能在你没想到的地方做出超出你预期的判断。甚至，未来还会出现合伙人级别的模型。到那个时候，当你面前坐着十几个合伙人级别的Agent，每一个都比你聪明，每一个都比你高效，每一个都能在它的领域里交出你想不到的方案。那你作为管理者，到底还有什么存在的理由呢？你的精力、你的思考、你的时间，到底应该投资在什么地方呢？这个问题，在这个小小的假期中，浮现了出来。我想了很久答案，最后，我想到了一个人，叫德鲁克，就是这个老头，被誉为现代管理学之父。他的思想，如果被归纳成一句话的话，我觉得就是： “管理者的工作，是思考应该思考什么。” 大多数人每天在做的事情，是思考怎么做这件事，怎么写更好的代码，怎么做更漂亮的PPT，怎么跑更快的模型，怎么写更精准的prompt，这些是执行层的思考，不用想，AI进步的速度在这些事情上比人快一个数量级，你从Coding和Agent的进化上就能看出来了。再高一层，是思考做什么。比如做哪个产品，切哪个市场，选哪个技术路线，这些是策略层的思考，Fable 5级别的模型已经开始在这个层面展现出惊人的能力了。但德鲁克说的不是这两层，他说的是第三层，“思考应该思考什么”。这一层的意思是，你有没有能力判断，在所有可能思考的问题里面，哪几个问题才是真正值得你坐下来想的。换句话说，我们每个人的注意力和精力都是有限的，我们到底应该如何保护自己的精力，聚焦在真正值得我们注意的问题之上。 AI时代，目前看，在逼着所有人往第三层走。因为第一层和第二层的思考，AI都会越来越擅长，你在这两层上的优势，会被模型能力的增长不断蚕食。只有第三层，什么问题值得想这个判断，AI过去、现在、未来都做不了。倒不是说AI不能帮你列出选项、做决策树、分析利弊，这些它绝对都能做，而且做得比你快。但最后那一下，在所有分析都摆在桌面上之后，你选A还是选B，这个选择背后站着的，是你这个人的价值观、你的审美、你对世界的理解、你愿意为什么承担代价。这些东西，是计算不出来的。因为它们不是计算问题，是选择问题。计算有最优解，选择没有。选择只有你选的和你没选的，然后你用你的余生去承受这个选择的后果。 AI可以穷举所有可能的路径，给你每一条路的概率分布和预期收益。但这条路值不值得走，这个判断，永远只能由一个真实活过的、痛过的、做过错误选择并且承受过后果的人来做。这就是为什么管理学读到最后，一定会走向哲学。你去看德鲁克后期的内容，越写越像搞哲学的，怎么做计划、怎么定KPI他也不说了，他开始聊什么是有效的人生、什么是值得追求的东西。还有稻盛和夫，他一辈子管理思想的核心就一句话，“作为人，何谓正确”，因为他发现，当你管理的层级足够高的时候，所有的商业判断到最后都会变成一个伦理判断，你到底相信什么，你愿意守住什么。所以我现在的想法是这样的。很多人觉得AI越强，人就越没用，但我觉得刚好反过来，AI越强，你被推到的管理层级就越高，从一个执行者的位置被推到管理者，从管理者被推到战略制定者，从战略制定者被推到一个更接近哲学家的位置。你会被这个时代逼着，越来越往上升职，而你能不能接住这个新的位置，取决于这些年，我们到底有没有在积累真正不可替代的东西。如果不能，那可能就会像五代十国里的石重贵和耶律德光，被时代无情的碾过，然后吞噬。真是一个残忍，又吃人的时代。

译作者在端午节假期用Claude Opus 4.8重构AI新闻聚合站AIHOT的聚簇机制，消耗2000多万token，耗时一天屡次改阈值（0.72→0.71）、补多语言等边界情况仍问题百出。对比怀念已被下架的Claude Fable 5——后者只需给模糊目标就能自动跑完并填坑。由此总结：管理AI与管理人本质相同——越强的模型（如Fable 5）给方向即可（愿景/策略层），越弱的模型（如Opus 4.8、GPT-5.5、GLM-5.2）则需更细执行层指引，错配层级正是痛苦根源。

Yuchen Jin@Yuchenj_UW · 6月22日28

I often see tweets saying “Claude performs better in OpenCode/Cursor than in Claude Code.” Is this actually true? Hard to believe Anthropic wouldn’t have the best harness for its own models, especially when OpenCode is open source. Would love to see some real examples.

译我经常看到推文说“Claude在OpenCode/Cursor中的表现比在Claude Code中更好。” 这真的是真的吗？很难相信Anthropic不会为自己的模型提供最好的适配，尤其是OpenCode还是开源的。希望能看到一些真实的例子。

SiliconFlow@SiliconFlowAI · 6月22日58

GLM-5.2 topped @Designarena's HTML Web Design leaderboard — beating Claude Opus 4.6 & 4.7, the long-standing #1. It's amazing and already available via SiliconFlow API! Start building →https://www.siliconflow.com/models/glm-5-2

译GLM-5.2 登顶 @Designarena 的 HTML Web 设计排行榜——击败了长期保持第一的 Claude Opus 4.6 & 4.7。非常出色，现已通过 SiliconFlow API 提供使用！开始构建 → https://www.siliconflow.com/models/glm-5-2

jason@jxnlco · 6月22日12

beautiful, lets fucking go

译在西村（West Village）看到了 Codex 的 Carrie Bradshaw 化

jason@jxnlco · 6月22日20

appshots are still one of the best features in codex

译appshots 仍然是 codex 中最好的功能之一。

jason@jxnlco · 6月22日44

hey codex ~ please /goal go into my messages and for people i talk to a bunch figure out if any of them have twitter, if they do and is missing a profile picture, use their twitter profile twitter

译嘿 Codex ~ 请执行 /goal：进入我的消息，对于我经常聊天的人，看看其中有没有人有 Twitter，如果有且缺少头像，就用他们的 Twitter 头像。

ginobefun@hongming731 · 6月22日57

http://x.com/i/article/2068851376151777280 # BestBlogs 早报 · 06-22｜Claude Code 负责人访谈、库克离场前苹果 AI 权力重构、GitHub 数据分析智能体在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语当编码不再是瓶颈，工程团队的真正考验变成了如何验证产出。今天的早报，三条精讲恰好从三个层面回答了这个问题。第一条来自 Anthropic Claude Code 负责人 Fiona Fung，她做客 Lenny's Podcast，抛出一个数据点：Anthropic 工程师如今每季度交付的代码量是过去的 8 倍，但她更想讲的，是当「能不能做出来」不再是约束之后，团队该如何运转。第二条把镜头转向苹果，硅谷101 受邀亲临 WWDC26 现场，复盘库克离场前苹果内部的 AI 权力重构，以及一家以「完美文化」著称的公司，如何在每周一个版本的 AI 节奏面前重新校准自己的价值观天平。第三条则是 GitHub 工程团队首次公开内部数据分析智能体 Qubot 的构建实录，用一套三层架构印证了一个朴素却关键的洞察：结构化的上下文不仅让答案更准，还让返回正确答案的速度快了 3 倍。把这三条放在一起读，会发现它们其实是同一条主线的不同切面——当 AI 把「执行」这一环大幅压缩，组织的胜负手正在从「写代码的能力」转向「定义问题、验证产出和沉淀上下文的能力」。无论是 Fiona 把规范签入代码库让 Claude 自动校验，还是 GitHub 把数据知识按 bronze/silver/gold 分层喂给智能体，本质都是在为 agent 准备一套结构化、可被持续维护的上下文；而苹果的组织重构，则是在更高层面回答「谁来定义这套上下文与价值观」。速览与补充阅读里，还有图灵奖得主 LeCun 押注的世界模型之争、Cerebras IPO 引出的 AI 算力路线、DeepSeek 背后 356 人的人才白皮书、SFT 仍漏学 15% 训练数据的 ACL 论文，以及 GLM-5.2 登顶 Design Arena 等一批值得细看的内容，方向横跨研究、产业与一线工程实践，建议挑贴合自己当前关注的两三篇深读。 ## ★ 精讲一：打造全球最「All-in AI」工程团队：Anthropic Claude Code 负责人 Fiona Fung 的一线实践来源：Lenny's Podcast（VIDEO）｜评分 92｜在 BestBlogs 阅读本篇 Anthropic Claude Code 与 Co-work 负责人 Fiona Fung 做客 Lenny Rachitsky 的播客，开场就抛出一个足以让所有工程管理者停下来的数据：Anthropic 的工程师如今每季度交付的代码量，是 AI 工具普及之前的 8 倍。但她紧接着强调，真正值得讲的不是这个数字，而是「软件工程」这件事本身正在被重新定义。编码不再是瓶颈。这是 Fiona 反复回到的一句话。在她看来，AI 抬高了「任何一个人能做到什么」的天花板：在 Anthropic，产品经理、设计师和各个方向的工程师都在向代码库提交代码，约束已经从「我们能不能把它做出来」彻底转向了「我们如何验证做出来的东西是正确的、且真正有影响力的」。换句话说，能力的稀缺性下降了，判断力和验证能力的稀缺性上升了。一个「全员 All-in AI」的团队，日常究竟长什么样？Fiona 给了几个非常具体的画面。她自己有一个 Claude Code 远程会话，常驻运行在 Anthropic 所有代码仓库之上，让她对每个人在交付什么——PR、指标、线上事故——保持完整的可见性。她不再依赖人工的状态同步，而是用这些真实的代码活动和市场反馈，来支撑更有信息量的一对一沟通和月度复盘。她还重度依赖一类被称为 routines 的「定时智能体」：它们每天清晨醒来，扫描 Slack、邮件、合作伙伴渠道和社交媒体上的反馈，归纳出主题，甚至直接为一些打磨型的小修复生成 PR——她要做的，只是在早晨的咖啡时间审阅这些 PR，而不是手动去逐条分拣反馈。在「招什么样的人」上，她给出了两类画像。一类是有产品感的创造型构建者：他们对某个产品充满热情，能端到端地把东西做出来，痴迷地阅读用户反馈，并把体验打磨到令人愉悦——她称之为「造梦者」。另一类是深度的系统专家：在那些仍然需要专业验证和领域知识的环节，比如分布式系统，这类能力是她为 Claude Code 团队刻意去招募的。「现在理论上一切皆有可能，」她说，「问题变成了：你能有多大的野心？」那么如何在 8 倍速度下守住质量？Fiona 给的框架很朴素：区分 bad（不可恢复的错误，比如崩溃）和 sad（可恢复的痛点，比如界面闪烁），每个团队自行定义各自的阈值；再把规范（specs）签入代码库，让 Claude 能对照既定标准来校验 PR，叠加自动化监控，质量这一层就能随产出量一起扩展。她也坦诚地谈到一个意外的副作用——孤独感：「当我们都开始大量和自己的 agent 一起工作，它会慢慢变成一种孤独的体验。」团队的应对是结对编程式的午餐和黑客松，目的不是复刻老式结对编程，而是互相分享工作流，因为团队里每个人使用 Claude Code 的方式都出人意料地不同。放在今天这份早报的语境里，这篇的价值在于它给出了一手的、可被借鉴的「AI 时代团队操作系统」：常驻远程会话、自动生成 PR 的 routines、bad/sad 质量框架、用 JIT 月度计划取代半年路线图。它和后面 GitHub 的 Qubot、苹果的组织重构互为参照——当执行被压缩，组织的真正功夫都落在了流程、验证和上下文上。阅读建议：如果你正在带一支工程团队，建议把它当成一份可落地的实践清单来读，对照自己团队的瓶颈逐条取舍。 ## ★ 精讲二：库克的离场，苹果新 AI 权力重构与价值观天平｜WWDC26 来源：硅谷101（ARTICLE）｜评分 91｜在 BestBlogs 阅读本篇 2026 年 6 月 8 日，苹果在库比蒂诺 Apple Park 举办年度 WWDC——这是 Tim Cook 以 CEO 身份最后一次主持。按照官宣，他将于 9 月 1 日卸任，由硬件工程高级副总裁 John Ternus 接任 CEO，自己转任董事会执行主席。硅谷101 今年受邀亲临现场，这篇复盘最难得的，是它把一场「换帅 + AI 转身」的复杂博弈摆在了台面上。文章先讲清了组织权力的重新洗牌。两年前 Apple Intelligence 发布后数次延期，不仅让业界质疑苹果的 AI 研发能力，更引发了消费者虚假广告诉讼和股东证券欺诈诉讼。Gen Digital 首席 AI/创新官 Howie Xu 一针见血：苹果过去成功靠的是「一年憋一个大招」，但 AI 时代大概每周就该有一个 release，这套老打法可能不再适用。据彭博社报道，2025 年苹果高层完成了一次改写 AI 权力版图的人事变动：原本负责 AI 的 John Giannandrea 失去信任并最终离开；曾主导 Vision Pro 的 Mike Rockwell 接手 Siri，但在 Craig Federighi 的坚持下，AI 与 Siri 最终归属软件工程体系，Rockwell 向 Federighi 汇报，而非直接向 Cook 汇报；同时，苹果从外部挖来在谷歌待过 16 年、主导过 Gemini 的 Amar Subramanya 来主导自研模型。背后的真正分歧是：AI 到底是一个独立的新中枢，还是软件系统的一部分？技术层面，文章拆解了新一代 Apple Foundation Models（AFM）：两个端侧模型（30 亿参数的 AFM 3 Core 与 200 亿参数 MoE 架构的 AFM 3 Core Advanced），以及云端三件套（AFM Cloud、AFM Cloud Pro、ADM Cloud Image）。前苹果工程师 Nathan Wang 解释，端侧能跑 200 亿参数模型靠两项关键技术：稀疏 MoE 一次只激活约 10 到 40 亿参数，以及把部分固定参数放进闪存、按需动态加载，从而在内存有限的端侧设备上既省内存又省电——这正是苹果软硬一体优势的体现。值得注意的是，更强的端侧模型对硬件门槛极高，目前只能在 iPhone 17 Pro 系列、iPhone Air，以及内存达标的高端 iPad/Mac 上运行。云端最强的 AFM Cloud Pro 负责复杂推理和智能体工具调用，且是在谷歌云上专门为英伟达 GPU 优化的。这篇为什么值得今天读？因为它提供了一个与精讲一形成镜像的样本。Fiona 的 Anthropic 代表了一种「执行成本趋近于零、组织全力拥抱变化」的极端；而苹果代表了另一种张力——一家把「完美体验」刻进基因的公司，在 AI 革命面前如何重新平衡「用户体验」和「产品创新」这架天平。多位硅谷专家点评本次 demo「不够 agentic」，华尔街观望致股价跌超 5%，都说明这场转身远未完成。阅读建议：想理解大公司在 AI 时代的组织阵痛与战略取舍，这篇带现场视角和内幕的深度复盘是很好的标本，可以重点看组织重组和自研模型两节。 ## ★ 精讲三：我们如何构建内部数据分析智能体来源：The GitHub Blog（ARTICLE）｜评分 90｜在 BestBlogs 阅读本篇「数据自助化」是数据团队追了几十年都没真正解决的难题。GitHub 工程团队这篇文章，首次公开了他们的内部数据分析智能体 Qubot 的构建实录：它让任何一位 Hubber（GitHub 员工的自称）都能用自然语言询问数据仓库里任意数据模型的问题，并在几秒内得到答案。文章一开始就把定位讲得很清楚——Qubot 不是报表工具，也不是仪表盘的替代品，它面向的是探索式提问，比如「这个功能上，哪一群用户的留存最高？」或者「上周是哪个产品最大程度地拉动了这个指标？」架构由三个主要部分组成。第一层是多入口的用户界面：Qubot 可以通过 Slack、VS Code 和 Copilot CLI 访问。Slack 无需任何配置，是 Hubber 们最常用的协作工具——在 Qubot 频道里发问，系统会在 github.com 上拉起一个 Copilot Cloud Agent 实例，答案直接回到 Slack，方便分享，也能在 thread 里继续追问、refine 问题；所有结果还会以 markdown 报告的形式存进一个 PR，供后续微调查询或接入仪表盘。第二层是联邦化的上下文层，这也是全文最关键的一节：数据仓库按 bronze（原始事件）、silver（规整后的事实与维度）、gold（面向具体业务场景的精选数据集）分层，上下文层则针对每一层「量身定制」知识——bronze 是产品团队贡献的遥测上下文和元数据，silver 是数据团队维护的查询示例、使用指引与强制过滤条件，gold 是数据集 owner 提供的业务规则和指标定义；上下文在运行时通过 GitHub MCP Server 加载。为持续丰富这一层，他们还做了一个 context agent，让各团队用标准化模板或引用仓库的方式贡献知识，再由 agent 自动摄取、组织、规范化。文章给出的关键洞察是：结构化的上下文不仅让答案更准，还让返回正确答案的速度快了 3 倍。这把「上下文工程」从一句口号变成了可量化的工程结论。把它和今天另外两条精讲对照着读会更有意思——Fiona 强调把 specs 签入代码库让 Claude 对照校验，本质也是在为 agent 喂结构化上下文；而苹果的组织重构，某种意义上也是在重新定义「谁来定义和维护那套上下文与规则」。阅读建议：如果你正打算在企业内部落地数据类或分析类 Agent，建议精读上下文层和 context agent 两节，把它当成一份分层上下文治理的参考蓝图。 ## 速览下面是今天另外 7 篇同样值得一读的精选内容，覆盖世界模型、AI 算力、人才结构、训练机理与工程实践等多个方向。 [AINews] GLM-5.2 货真价实；Z.ai 预测年底前推出 Open Fable（来源：Latent.Space，评分 90）。这期 AINews 把笔墨给了 GLM-5.2：它被视为首个真正通过「这是一个恰好开源的前沿模型」直觉检验的开放权重模型，并得到了独立从业者和多个样本外基准的交叉验证——作者特别提到，GLM 5 过了这道关、GLM 5.1 没过，而 5.2 的「手感」明显不同。文章顺带勾勒了从模型到智能体工具链的转变、新的自动化原语，以及一个更贴近现实的智能体知识工作基准。Z.ai 持续被验证为真正的前沿实验室，下一个里程碑是「开源何时能拿出一个 Fable 级模型」。在 BestBlogs 阅读本篇图灵奖得主押上 10 亿美元的「世界模型」，是 AI 的下一个十年？（下）（来源：十字路口Crossing，评分 90）。这篇深入解析了图灵奖得主 LeCun 押注的 JEPA 世界模型路线。他断言「VLA 必死」，但现实是当下最惊艳的机器人（能削西葫芦、倒垃圾）恰恰用的是 VLA 架构，而 JEPA 挪开一个杯子要花整整 60 秒。文章逐层对比 VLA 与基于 JEPA 的替代技术栈——从 V-JEPA 2 视觉编码器，到用 JEPA 重述 VLM 的训练方式，再到机器人规划与控制——既展示了 JEPA 在视觉编码与效率上的优势，也坦诚了它在机器人控制上的明显短板。难得地把一场技术豪赌的两面都摆上了台面。在 BestBlogs 阅读本篇从 Cerebras IPO 聊起：AI 算力变化、Scaling law 的萌芽和百度美研往事（来源：晚点AI，评分 88）。这篇访谈 Cerebras 早期投资人周楠，回顾了百度美国研究院在 2016 年前后对 AI 算力瓶颈的前瞻判断——当时吴恩达任负责人，Anthropic 创始人 Dario Amodei 也曾在那里工作，团队很早就形成了「更大模型、更多数据、更强算力」的共识。文章解释了 Cerebras 的 Wafer-Scale 架构价值（把整片晶圆做成一个超大 AI 计算引擎，减少数据搬运），以及它作为英伟达在推理等特定负载上挑战者的真实定位。最值得回味的一句是：当所有人都在追逐 AI，真正稀缺的不是相信 AI，而是判断下一个发展瓶颈。在 BestBlogs 阅读本篇 DeepSeek 背后的 356 人：一份白皮书揭开中美 AI 人才战争（来源：AINLP，评分 88）。斯坦福胡佛研究所与 HAI 更新白皮书，用论文作者网络（而非员工名单）追踪 DeepSeek 七篇核心论文（从 2024 年 1 月的开源 LLM 一路到 2026 年 4 月的 V4 预览版）背后 356 名研究和工程贡献者的职业轨迹。结论很有意思：核心 31 人保持稳定，说明技术路线没有频繁断裂；而「一篇论文贡献者」从 23 人增至 136 人，说明 DeepSeek 能把外部或边缘任务能力快速接进主线研发。这种「稳定核心 + 快速补员」的分层结构，比任何模型榜单都更能解释它的持续产出能力。在 BestBlogs 阅读本篇 ACL 2026 | 腾讯混元发现「不完全学习」，SFT 仍漏学 15% 训练数据（来源：PaperWeekly，评分 88）。腾讯混元与 UNSW 联合团队在 ACL 2026 发表论文，系统性地揭示了一个被忽视的现象：即便 SFT 训练已收敛、loss 已平稳，模型在训练集上重测平均仍有 15.3% ± 2.1% 的样本答不对，作者将其命名为「不完全学习现象（ILP）」。更值得警惕的是，这些未学习样本并非随机分布，而是系统性地集中在罕见实体、多步推理、与预训练知识冲突等最有价值、最难标注的复杂样本上。论文进一步给出了从检测、归因到干预的完整框架，对所有做垂直领域微调的团队都有直接的成本与可靠性启示。在 BestBlogs 阅读本篇如何围绕公司隐性规则设计智能体系统（来源：HBR.org，评分 89）。这篇用一个金融服务的真实案例切入：一位高净值客户更新受益人信息，AI 路由、运营处理、沟通确认每一步都「按设计正确执行」，但一个月后客户却把账户转去了竞争对手。问题在于，经验丰富的顾问能从一次次季度沟通中读出 CRM 字段里没有的「对话信号」，而这恰恰是当前智能体系统的盲区。文章主张，对 AI 智能体而言最关键的组织智慧并不在文档化的流程里，而是隐含在由知识、动机和判断力构成的非书面系统中，并为此提供了一个设计框架。和精讲三的「上下文层」遥相呼应——只是这次讲的是那些难以结构化的隐性上下文。在 BestBlogs 阅读本篇 AI 编程实战：如何用软件工程思维驾驭 Agent 生成代码（来源：宝玉(@dotey)，评分 90）。这是一篇高质量原创 Thread，针对「如何让 Agent 生成的代码更好地满足需求、减少新版本上线后的不稳定、并实现线上问题的自动化修复」，给出了系统性的工程实践建议：需求分析要提供充足上下文、系统设计拆分里程碑并用 plan 模式对齐共识、代码审查拆细且 Agent 审查加人兜底、自动化测试覆盖并接入 CI、灰度发布与 feature flag、建立 CI/CD 自动化部署与回滚机制。核心观点很实在：与其追求 AI 全自动修 bug，不如建立好的开发流程让 bug 少发生。可以和精讲一里 Fiona 的「bad/sad 框架 + specs 入库」对照着读。在 BestBlogs 阅读本篇 ## 补充阅读以下几篇适合按兴趣选读，覆盖企业级 Agent 落地、提示词工程、模型评测与产业观察。 - AI 智能体让 OpenAI 的数据变得有意义（InfoQ，评分 90）：详细介绍 OpenAI 如何构建内部数据分析智能体 Kepler，利用丰富的数据上下文、记忆与评估来回答横跨 7 万个数据集的复杂问题。和今天 GitHub 的 Qubot 几乎是同一道题的两种解法，适合做企业数据 Agent 的团队对照阅读。在 BestBlogs 阅读本篇 - 面试官：「你看过 Claude Fable 5 系统提示词吗？」（小林coding，评分 89）：以网传泄漏的 Claude Fable 5 系统提示词为范本，逐段拆解其工具定义、知识边界、安全红线与交互风格，提炼出可直接用于 AI Agent 与提示词工程的实践原则。适合想从一线产品的「内部手册」反推提示词工程方法的读者。在 BestBlogs 阅读本篇 - GLM-5.2 如何在 Design Arena 中击败了 Fable 5（Draco正在VibeCoding，评分 88）：GLM-5.2 在 Design Arena 单轮 HTML 网页设计评测中登顶，成为首款 MIT 授权的开源冠军，价格仅为对手的零头。文章逐案例分析了它避开常见编码错误、生成更精致页面的具体表现。和速览里的 AINews 互为补充，关心开源模型进展的可一并读。在 BestBlogs 阅读本篇 - 「机器学习之父」Jordan：Hinton 等「思想领袖们」正在伤害年轻一代（机器之心，评分高分推荐）：Michael I. Jordan 尖锐批评 AI 领域的「思想领袖」文化，认为 AGI 是公关术语、末日叙事正在伤害年轻一代，并主张用统计学、经济学与计算机科学三足鼎立的框架重新定义 AI 研究。适合想跳出热点、听一听清醒批判声音的读者。在 BestBlogs 阅读本篇 - 对话王小川：造医生，战豆包，与无尽的 AI 非共识（硅星人Pro，评分高分推荐）：王小川系统阐述百川智能聚焦 AI 医疗的战略逻辑——面对通用模型的冲击，选择以「造 AI 家庭医生」为切入点，通过医学增强模型和与顶级医院深度共创，在供给端创造新价值，而非在 Coding 等共识赛道内卷。适合关注 AI 产业差异化打法的读者。在 BestBlogs 阅读本篇 - 从零构建受 OpenClaw 启发的 AI 智能体（freeCodeCamp.org，评分 90）：一套基于 Next.js 与 Vercel AI SDK 的端到端实战课程，在同一运行时中整合上下文高效的工具、用户级记忆、持久人格、Telegram 接入与定时工作流。适合想动手把「Agent 架构」从概念跑通到能部署的开发者。在 BestBlogs 阅读本篇 ## 今日阅读路径如果你今天时间有限，建议按下面的顺序读这 3 篇： 1. 精讲一 · Anthropic Claude Code 负责人 Fiona Fung 的一线实践（Lenny's Podcast）——先建立「编码不再是瓶颈、约束转向验证」这个总框架，它是理解今天大半内容的钥匙。 1. 精讲三 · 我们如何构建内部数据分析智能体（The GitHub Blog）——再看一个可落地的工程样本，理解「结构化上下文让答案又快又准」这一关键洞察。 1. 精讲二 · 库克的离场，苹果新 AI 权力重构｜WWDC26（硅谷101）——最后用苹果这个大公司样本，看「拥抱变化」与「守住价值观」之间的真实张力。读完这 3 篇，再回到速览与补充阅读里，挑 1 到 2 篇最贴合你当前方向的内容做延伸阅读即可，不必贪多求全。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译Anthropic Claude Code 负责人 Fiona Fung 称工程师每季度交付代码量是 AI 普及前的 8 倍，采用常驻远程会话和定时 agent 自动生成 PR，以 bad/sad 质量框架守住质量。苹果 WWDC26 上库克卸任，John Ternus 接任；AI 权力重构：John Giannandrea 离开，Mike Rockwell 接手 Siri 并向 Craig Federighi 汇报，从谷歌挖来 Amar Subramanya 主导自研模型。新一代 Apple Foundation Models 包括端侧 30B 参数 AFM 3 Core 和 200B MoE AFM 3 Core Advanced，云端 AFM Cloud Pro，端侧需 iPhone 17 Pro 等设备。GitHub 公开内部数据分析智能体 Qubot，采用三层架构，返回正确答案速度提升 3 倍。

jason@jxnlco · 6月22日18

we're loopmaxxing! please leave your comments codex is watching

译Jason Liu 转发了 @thsottiaux 的提问：Codex 应用中哪些地方需要改进？哪些体验不令人满意？主推文表示团队正在循环优化，请大家留言反馈。

meng shao@shao__meng · 6月22日67

前 Meta/Microsoft/Atlassian 主任工程师的 Agentic 工程工作流用这套工作流 @kunchenguid 每天 ship 40-50 个经测试的生产级 PR，他这么形容它：「你是船长，agent 是你的船员，分四层递进: 造船 → 训练船员 → 与单个船员协作 → 并行指挥多个船员 + 一位大副」。 https://www.youtube.com/watch?v=iQyg-KypKAA # 终端中心主义(造船) 坚持全终端工作，核心理由： · 手不离键盘 = 维持心流,鼠标切换会强制上下文切换 · 跨设备一致性——同一套工作流可在手机/不同机器上接续工具栈：WezTerm (跨平台、Lua 配置、热重载) + tmux (会话持久化、多 pane、可远程 attach) + Neovim (键盘优先、相对行号)。 # 船员的入职培训(Memory + Skills) agent 是新兵，不知道你的偏好。两类机制 ramp up：Memory 和 Skills 1. Memory · 全局 memory(如 ~/.claude/CLAUDE.md)：保持精简(27 行)，因为内容会注入每次会话的系统提示词，过长会"静默"消耗 token · 几条有洞察的偏好规则： 1. 不要用 em-dash(—)——AI 默认会用，显得机械 2. 做技术决策时不要高估开发成本——模型用人类数据训练，会高估耗时(预估"天/周",实际几分钟出可玩版本)，这种偏差会让模型偏向"便宜但低质量"方案。这条是纠正模型训练偏差 3. bug 修复优先端到端复现，而非依赖单元测试 · 项目级 memory：核心方法不是手写，而是每次纠正 agent 后让它把教训写进去——项目集体学习的沉淀 2. Skills · 把条件性内容(如仅改代码时才需要的 E2E 说明)从 memory 抽到 skill · skill 启动时只加载简短描述，用到才读全文——避免无谓 token 消耗 3. 关于 skills 的重要警告 · Karpathy 的 skills 仓库(17.7 万 star)经 program-bench 评测后，使用反而多耗 5% token 且结果更差，且并非 Karpathy 本人所写 · 安全风险：skill 可在机器上执行任意命令，可能泄露 API key 甚至银行凭证 · 结论：流行 ≠ 优质。不要装声称"神奇提升"却无严格评测的 skill # 与单个船员协作 1. 语音输入 · 几乎全用语音替代打字(Stanford 论文：说话比打字快 3 倍) · 工具 OpenSuperWhisper：本地 whisper，免费开源，通过 system prompt 注入自定义词汇表提升专有名词识别 2. AXI 标准 (Agent ergonomics) 自创的为 agent 优化工具的设计标准： · 实测：同样 GitHub 任务，MCP server 比 CLI 多耗 3 倍 token + 2 倍延迟 · 设计原则之一：token 高效输出格式比 JSON 节省 ~40% token · 启示：给 agent 的工具本身的效率，直接决定 agent 的"油耗" 3. Lavish (交互式规划工件) 针对"agent 返回一堵文字墙难以评审"的痛点：让 agent 生成 HTML 可视化工件，复用项目设计系统，可针对具体元素批注反馈并在浏览器内回传。 # 验证：no-mistakes 流水线(质量基石) 反直觉主张：不要逐个 review diff。 · 理由：AI 写代码太快，逐 diff 审查会让人成为瓶颈且无趣 · 类比：像工程总监一样思考——总监不审 PR，而是通过文化和流程把控质量流水线在隔离 worktree 中执行: · 分析会话还原真实意图 · rebase 到最新 main，提前解决冲突 · 对抗式 review(独立上下文窗口)——多数问题在此被捕获自愈，模糊的升级人类 · E2E 测试并录制证据(截图/视频/日志) · 文档更新 + 链接检查 · 推分支开 PR，持续 babysit 直到合并 PR 呈现：原始意图、变更摘要、测试证据、流水线发现并修复的问题、风险评估。评审策略：看风险评估决定投入精力。低风险几乎不看 diff(因流水线已覆盖)，只对高风险深入。工作分布洞察：时间花在任务开头(用 Lavish 澄清需求)和结尾(把质量关)，中间全交给 AI。中间腾出越多，并行越多。 # 长时间运行：good-night-have-fun 解决"睡觉 8 小时如何让 agent 持续干活"：给目标和停止条件，在循环中迭代。相比 Claude Code/Codex 的 /go，优势是可精确设置 token 上限 / 迭代上限 / 停止条件——避免睡醒发现周配额耗尽。 # 并行：treehouse + worktree git worktree 的痛点：起名、记状态、手动清理 = 认知债。treehouse：运行即落入空闲 worktree，关闭 tab 自动释放，treehouse status 一目了然。 # First Mate：大副编排器并行会话变多后，上下文切换疲惫。 First Mate 是元 agent，替你管理所有船员：你只跟它对话,它自动拆并行子任务、调用 treehouse 建 worktree、跑 no-mistakes、准备 PR。关键观察：用了 First Mate 后，瓶颈从"agent 执行力"转移到"你想让它做什么"——船长的价值转向战略：理解用户、研究竞争、画好"藏宝图"。

译kunchenguid发布45分钟视频，讲解每天交付40-50个生产级PR的工作流。四层：1）终端中心（WezTerm+tmux+Neovim）；2）船员入职：全局memory精简27行，项目级memory由agent自写；3）协作：语音输入OpenSuperWhisper，AXI标准（MCP比CLI多耗3倍token+2倍延迟），Lavish交互式HTML工件；4）验证：no-mistakes流水线在隔离worktree中对抗式review+E2E测试。并行用treehouse管理worktree，First Mate元agent调度。

AYi@AYi_AInotes · 6月22日71

Damn，这个开源工具直接减少了95%token消耗🤯 这可能是今年最狠的LLM降本神器， Netflix工程师开源的Headroom 把本地Agent套在Codex，Cursor，OpenClaw，Hermes或Claude code外面，数据进模型前自动压缩负载，不用改任何代码，就能直接生效，核心能力四个点 1️⃣智能压缩日志 JSON和代码完美保留逻辑准确性， 2️⃣全程100%数据本地化内容不会流出本地环境， 3️⃣避免顶级模型在样板代码上浪费大量令牌， 4️⃣适配主流AI编码工具开箱即用，上线没多久就拿下35k GitHub星标行业认可度拉满，说白了，以前你喂给 Claude code Codex的一大坨上下文里，有一半以上是冗余的， Headroom 在本地帮你剃干净了再发过去，LLM 收到的全是精肉。本质上是把降本的逻辑从改提示词换模型挪到了输入前置处理，不牺牲效果也不碰数据安全是目前最稳妥的降本思路之一，完全免费开源仓库链接放评论区了有需要的直接冲

译Netflix 工程师开源 Headroom，在 Codex、Cursor 等 AI 编码工具外包围本地 Agent，自动压缩日志、JSON 和代码，保留逻辑准确性，减少 95% token 消耗。数据本地化，无需改代码，已获 35k GitHub 星标。核心将降本从改提示词、换模型转向输入前置处理。

jason@jxnlco · 6月22日20

excited to see more chatgpt codex billboards from @OpenAI

译很高兴看到 OpenAI 推出更多 ChatGPT Codex 广告牌。

jason@jxnlco · 6月22日16

codex about to get me 500$ back

译Codex即将帮我拿回500美元

Tibo@thsottiaux · 6月22日9

Now that you can bank usage resets in Codex. Are you a hoarder or do you use them without breaking a sweat? How do you think about them?

译既然现在可以在 Codex 中存储用法重置。你是囤积者，还是毫不费力地使用它们？你怎么看待它们？

Greg Brockman@gdb · 6月22日69

codex for testing every single feature in your app:

译Greg Brockman 展示 Codex 的“循环”自动化能力：通过一句 /goal 指令，Codex 自动扫描应用的每个功能，基于代码创建用户故事与预期行为，并维护统一电子表格跟踪状态；完成后自动切换为测试每个用户故事并记录所有错误；接着修复所有逻辑与 UX 错误，最后再次验证用户行为。该循环可处理数百个用户故事，全程无需人工干预。

🚨 AI News | TestingCatalog@testingcatalog · 6月22日30

ICYMI 👀: Cursor got a new /automate Skill Automation your toil got insanely simpler over the past few years with AI. Even Automation is Automated now 🤖

译提醒一下 👀: Cursor 获得了一个新的 /automate 技能过去几年，AI 让自动化你的苦差事变得极其简单。现在连自动化本身都被自动化了 🤖

Yuchen Jin@Yuchenj_UW · 6月22日43

Looking at my timeline, it feels like GLM-5.2 is having its DeepSeek R1 moment. I never thought an open-source model could break into the top 3 coding models this soon.

译看我的时间线，感觉 GLM-5.2 正迎来它的 DeepSeek R1 时刻。我从未想过一个开源模型能这么快跻身编程模型前三。

elvis@omarsar0 · 6月22日56

Very impressive from GLM-5.2. Frontier open-weight model indeed. Now, can we get a Gemini model in the top 3 soon?

译GLM-5.2 的表现令人印象深刻。确实是前沿的开放权重模型。那么，我们很快能看到 Gemini 模型跻身前三吗？

Tibo@thsottiaux · 6月22日16

What should we improve in the Codex app. What's not delightful?

译我们应该改进 Codex app 的哪些方面？什么让你感到不满意？

Ethan Mollick@emollick · 6月22日64

A fundamental problem with extending Codex/Cowork/Code to all knowledge work is that they remain very "software-brained" where the end result (the software) is what is important & that code serves as a source of truth. For a lot of other knowledge work, the process is at least as important as the outcome. This includes researching what is known, an exploration of alternatives, failed efforts, prototype branches, experiments, etc. All of those things are valuable, so you cannot use the PowerPoint at the end the way you can use a codebase, nor is progress on a to-do list sufficient context post compaction. You work in learning loops, refining your perspectives as you go. In some ways, this makes long-running models like Fable hard to use for deep knowledge work, since they are designed to deliver product to you in the end. You can prompt your way around this problem, but everything about the Codex and Code harnesses want you to be a software developer and you have to fight them. There is a real disconnect between how a manager or analyst thinks about problems and how the agentic software tools approach solving them. Addressing this is critical to breaking out of the coding niche for these tools.

译Ethan Mollick指出，Codex/Cowork/Code等Agentic工具本质上是“软件脑”设计，只重最终代码，而多数知识工作的过程（研究、探索、原型分支等）与结果同样重要。长时运行模型Fable也因专注交付最终产品而难以用于深度知识工作，用户需费力用提示词绕过限制。这种工具与管理者/分析师思考方式的脱节，是突破编程领域、扩展到其他知识工作的关键障碍。

Berryxia.AI@berryxia · 6月22日62

明天拿乔帮主这个去生产几个最近对项目试试看～

译博主转发开源乔木icon Skill，支持两种方案：1）调用Imagen参考数百图标生成；2）搜索2万SVG图标叠加纯色/渐变背景。适用于App或网页快速设计图标，精细打磨仍需设计师。安装命令：`npx skills add joeseesun/qiaomu-icon-generator`。

Berryxia.AI@berryxia · 6月22日53

如果用Devin的话，就能免费无限用GLM 5.2🤯 不过上下文限制最多20万，用海外版Z·ai版本直接到100万。但这已经很爽了啊，Kimi 2.7也免费的！

🚨 AI News | TestingCatalog@testingcatalog · 6月21日40

Grok Build Remote appears to be accessible on the web. However, it is not functional and it is likely unintended. Both Grok Build web and desktop apps are now under a big question, if they would survive Cursor acquisition or not. Link below 👀

译Grok Build Remote 似乎可以在网页上访问。然而，它无法使用，而且这很可能是无意的。 Grok Build 的网页版和桌面应用现在都面临一个大问号，它们能否在 Cursor 收购后继续存在还是个未知数。下方链接👇

Berryxia.AI@berryxia · 6月21日61

卧槽！真是免费也有好东西啊！ 2026年，整个AI行业都在谈一个问题：怎么让AI自己干活。不是聊天，不是写文案。是让它像一个真正的工程师一样，自己规划、自己写代码、自己调试、自己交付。有人把这个过程整理成了一套完整的工作流，叫Agentic Engineering Workflow。没有论文，没有官方文档。是一个开发者花了一个小时，把散落在各处的实践经验拼成了一张完整的图。它覆盖了从任务拆解、工具调用、记忆管理到错误恢复的全部环节。每一步都不是理论，而是已经在真实项目里跑通的路径。大部分AI开发者还在手动写prompt。这套工作流已经在教机器怎么自己写prompt了。差距不在模型能力。在工程方法上啊！

译开发者整理出一套Agentic Engineering Workflow，覆盖任务拆解、工具调用、记忆管理到错误恢复全流程，让AI像工程师一样自主规划、写代码、调试和交付，而非仅聊天写文案。该工作流包含tmux、agent记忆、skills、语音输入、长任务执行、并行worktree管理、多agent调度，以及可视化HTML编辑器Lavish和代码变更校验流水线no-mistakes。所有步骤均已在真实项目中跑通，强调工程方法比模型能力更重要。

Berryxia.AI@berryxia · 6月21日62

一个开发者花了几个周末，用AI辅助编程做了一个app。它的玩法和Pokemon Go一模一样——只不过你抓的不是虚拟精灵，是真实的猫。打开摄像头，对准路边任何一只猫，拍一张照片。 app会把这只猫变成一幅复古卡通风格的插画，奶油色调，像九十年代的老动画截图。然后这只猫就进了你的图鉴。这个app没有融资，没有团队，没有市场预算。一个人，几行vibe code，一个下午。但它精准地击中了一件事：全世界有六亿只流浪猫，每个人都曾在路上见过一只可爱的猫，然后走开了。这个app让你不再走开。 Pokemon Go用了任天堂三十年的IP积累。这个app只用了一个事实：猫不需要被创造，它们已经在了。

译一位开发者花几个周末用AI辅助编程制作了一款类似Pokemon Go的App，但抓的是真实世界的猫。用户打开摄像头拍路边猫，App会检测照片中是否有真实的猫（防止截屏），然后将猫转化为复古卡通风格插画（奶油色调、粗轮廓），并添加到玩家的图鉴中。每只猫拥有名字、稀有度、等级、状态页和收藏卡，世界地图还能显示附近其他玩家抓到的猫。该App无融资、无团队、无市场预算，利用“全球六亿只流浪猫”这一普遍事实，让玩家不再错过路边的猫。