AI 驱动开发的七阶段 1. Grill 2. Research 3. Prototype 4. PRD 5. Issues 6. Implement 7. Review 来自 Skills For Real Engineers 作者 @mattpocockuk https://github.com/mattpocock/skills 7 个阶段：目的 | 产出 1. Grill：把模糊想法变成共享理解 | 问题陈述 + 对齐 2. Research：缓存难探索的外部信息 | research.md 3. Prototype：用可玩代码验证设计/UX | 可丢弃原型 4. PRD：描述终点，而非路径 | 需求文档 5. Issues：拆成可并行执行的垂直切片 | 带依赖的工单 DAG 6. Implement：Agent 执行（TDD、Ralph 等） | 可运行代码 7. Review：人工 QA，发现问题再回环 | QA 计划 + 新工单 /grill-with-docs：这是 /grill-me 的升级版，专为有代码库的场景设计额外能力： 1. 领域语言（CONTEXT.md）来自 DDD 的 ubiquitous language。CONTEXT.md 只是术语表，不是 spec、不是实现笔记。例：「materialization cascade」比「lesson 被 real 化时文件系统里占坑」省 token、可搜索、命名一致。 2. ADR（docs/adr/）只在三条件同时满足时写：难逆转、无上下文会令人惊讶、存在真实 trade-off。 3. 会话中的四类动作 · 对照 glossary 挑战用词 · 用具体场景压测边界 · 对照代码发现矛盾 · 决策即时写入 CONTEXT，不批量攒与 /grill-me 的分工：有代码库 → /grill-with-docs；无代码库（写悼词、纯产品构思）→ /grill-me。

译@mattpocockuk 提出 AI 驱动开发七阶段：Grill（模糊→共享理解）、Research（缓存外部信息）、Prototype（可玩代码验证）、PRD（需求文档）、Issues（垂直切片）、Implement（Agent 执行）、Review（人工 QA）。/grill-with-docs 是 /grill-me 的升级版，专为有代码库场景设计，新增领域语言（CONTEXT.md）、ADR（docs/adr/）及会话四类动作。无代码库时仍用 /grill-me。作者认为 pre-PRD 阶段需更多结构，/grill-with-docs 将再次调整。

ginobefun@hongming731 · 6月16日41

http://x.com/i/article/2066671362920599553 # BestBlogs 早报 · 06-16｜Loop Engineering、Agent 工具设计、Token 成本控制在线阅读本期早报 ## 导语最近没有特别炸的头条，今天的内容更偏向方法论和基础原理的梳理。三篇精讲分别在拆解三个最近被讨论得有点过热的词：循环工程（Loop Engineering）、AI Agent 工具设计、Token 成本控制。它们的共同点是，都在把一个听起来很新的概念，还原成一套可以验证、可以落地的工程判断——值不值得做，看的是任务本身，不是名字本身。速览部分还覆盖了 Anthropic Fable 5 模型被美国政府出口管制叫停的始末、Scaling Law 参数冗余的最新研究，以及几位创业者和工程团队的一线观察。 ## 精讲一：Codex 和 Claude Code 负责人都不写提示词了，AI 圈爆火的 Loop 到底是什么来自 APPSO 最近一段时间，"Loop Engineering（循环工程）"这个词在 AI 圈被频繁提起。Codex 负责人 Tibo 在社交媒体上转发讨论，问大家是否已经开始"写嵌套循环"；Claude Code 的产品负责人 Boris Cherny 也在官方播客里说，现在他更习惯"跟 loop 对话，让 loop 替我来 prompt"。一个新词又冒出来了，紧接着的问题自然是：它和过去的 Prompt Engineering、Harness Engineering 比，到底有什么不一样？这篇文章给出的回答相当克制。如果只看技术实现，循环工程并没有发明什么全新的东西。Harness、Skill、Agent Workflow 这些系统，过去几年里都在尝试让 Agent 自己规划、执行、反思、再执行。今天大家重新讨论 Loop，是因为模型终于能把这个循环连续跑下去了——当 Agent 可以连续工作几十分钟、几个小时甚至跨天完成任务时，人和 AI 协作的最小单位，从一次对话变成了一个完整的回路。文章把这个变化讲得很朴实：你让 AI 写代码，它写完你跑测试，测试报错你把错误贴回去，它再改，你再跑——这就是一个最原始的 loop：行动、观察、修正、再行动。区别在于，过去每一轮都靠人手动推动；循环工程做的事，是把这些反复发生的动作写成规则，交给系统执行。一个完整的 loop 至少要回答五个问题：AI 什么时候开始干活，它能调用哪些工具，它怎么知道自己做错了，每一轮的结果记在哪里，以及它什么时候必须停下来交给人。换句话说，Loop Engineering 更像一套工作制度——给 AI 设任务、设工具、设反馈、设记忆、设刹车，prompt 只是这套系统里最小的一个零件。文章引用了 Google Cloud AI 总监 Addy Osmani 的拆解（另见 BestBlogs 收录的相关长文），把一套循环工程概括为五个积木加一个记事本：定时任务（在 Codex 里叫 Automations，在 OpenClaw 里叫 HEARTBEAT）、独立工作目录 worktree、承载项目知识的 Skill、用 MCP 协议跳出单一文件系统的连接器、以及负责审核的子 Agent；记事本则是一份状态文件，记录已确认的事实、踩过的坑、偏好的格式，AI 每次启动时先读它，就能接着往下走。这五个组件单独看都不新鲜，新鲜的是它们现在可以被持续串联起来，跑出一个能自己迭代的循环。但文章并没有止步于"这个概念值不值得叫新范式"。它给出了一个更实际的判断框架：循环值不值得搭，取决于任务是否真的会反复出现、流程是否相对稳定、结果是否可以被自动检查，以及关键判断是否还掌握在人手里。同时它也很直接地提醒，循环工程有个前提——Token 预算要够。循环会反复读上下文、反复重试、四处探索，不管最后有没有产出，Token 都在燃烧。对于月付固定额度的普通用户，循环跑两天就可能撞到周限额。一次性的任务，一句好提示词又快又便宜；只有重复出现、且能自动验证的任务，才值得为它搭一套循环。这篇文章和今天另外两篇精讲其实在讲同一件事的不同侧面。Loop Engineering 讨论的是"任务该不该交给一套自动循环"；下一篇讲的是"如果要交给 Agent，工具接口该怎么设计才不翻车"；再下一篇讲的是"循环跑起来之后，账单到底花在哪"。三者放在一起看，会更清楚循环工程真正的成本结构和适用边界在哪里。对于正在评估是否要给自己的工作流搭一套循环的读者，这篇文章值得通读——尤其是关于"一个完整 loop 要回答的五个问题"那部分，可以直接拿来对照自己的场景：如果五个问题里有两三个答不上来，那这套循环大概率还不到能放手的阶段。 ## 精讲二：AI 智能体工具设计：有效与无效的模式 - MachineLearningMastery.com 来自 Hacker News - Newest: "AI Agent" 如果说精讲一讨论的是"要不要给 Agent 搭循环"，这篇文章讨论的是循环里最基础的一环：Agent 调用的工具，接口设计得到底好不好。文章的核心判断很直接——大多数 AI Agent 的失败，表面看是模型选错了工具、传错了参数、处理错误的方式不对，但本质原因往往不在模型，而在工具设计本身。模型只能基于工具名称、描述、参数 schema 这些信息去推理，接口含糊，失败就是必然，不是偶然。文章先列了几条"有效"的设计模式。第一条是单一职责：一个工具应该只代表一个清晰的操作，而不是用一个 action 参数把创建、查询、更新、删除、暂停都塞进同一个工具里——模型得先猜出该用哪个模式，再去解决真正的任务。第二条是用强约束的 schema 让"无效状态"变得不可能：用枚举（Enum）限定取值范围，用格式约束限定日期、ID 这类字段，模型就不需要去猜测这些隐藏的约束条件。第三条是工具描述不仅要说明"这个工具是做什么的"，还要说明"什么时候不该用它"——很多描述只写了第一半，模型只能从工具名称去推断使用边界，这恰恰是大规模部署里常见的选择错误来源。第四条和第五条更偏向"出了问题之后怎么办"。错误返回不应该是一段裸的报错堆栈，而应该是结构化的，至少包含机器可读的错误码、人类可读的描述、一个 recoverable 字段告诉模型这个错误能不能重试，以及一个 suggested_action 字段告诉模型下一步该做什么。没有这些信息，模型经常会重试那些根本不该重试的错误，或者放弃那些其实可以恢复的错误。第五条是幂等性：任何会修改状态的写操作——创建记录、发消息、转账——都必须能被安全地调用两次，做法是给每个写操作配一个幂等键，重复调用时返回第一次的结果而不是再执行一遍。文章同时列出了几种"看起来在 demo 里没问题，但在真实负载下会翻车"的反模式。最常见的是直接把一个面向开发者的 REST API 原样包成工具——这类 API 往往返回几百个字段，用分页、用没有上下文含义的内部 ID，模型很难直接处理，正确的做法是写一层专门的封装，只暴露 Agent 真正需要的字段。第二种是把所有工具一次性塞进每个上下文：有研究发现，随着工具目录变大，工具调用的准确率会明显下降，即使是 128K 上下文的模型也不例外；更好的做法是按当前步骤动态加载相关的工具子集。第三种是"静默的部分成功"——一个批量操作只完成了一部分，却返回一个看起来完全成功的结果，模型会带着不完整的系统状态继续往下走，正确的做法是显式返回成功和失败的列表。第四种是功能重叠、命名含糊的工具堆在一起，比如 search_documents 和 find_documents，模型每次调用都要多花一轮推理去判断该用哪个。第五种是不可逆操作没有确认环节，文章建议把"暂存"和"执行"拆成两个独立的工具调用，中间用一个有效期很短的确认 token 衔接，让模型无法在一次推理里完成一个删除操作。这篇文章和精讲一是衔接的：循环工程描述的是"人退一步，让系统自己跑"，但系统能不能跑得稳，取决于它手里的工具接口够不够清楚。如果工具设计本身含糊，循环只会把同样的错误重复放大。如果你正在给自己的 Agent 写工具定义，这篇文章里"有效模式 vs 无效模式"的对照表，几乎可以直接当作 checklist 来用——尤其是错误返回的结构化设计和幂等键这两条，往往是最容易被忽略、但出问题时最难排查的部分。 ## 精讲三：一篇搞懂 AI Coding Agent 的 Token 成本控制来自腾讯技术工程很多人用 AI Coding Agent 一段时间后都会有同一个疑问：自己明明没问多少问题，账单怎么会这么高？这篇文章给出的答案是：你打的那句话，在每次请求里可能连 1% 都不到，真正的成本大头藏在系统自动帮你带上的那一大坨东西里——系统提示词、项目说明文档、Skill 定义、工具 / MCP 定义、历史会话、代码文件，这些加起来通常远远超过用户那句话本身。文章给出一个近似公式：总成本 ≈ 固定前缀 + 会话历史 + 运行时检索 + 工具往返 + 模型输出，用户的提问只是触发任务的"点火器"，不是成本主体。文章接着拆穿了一个常见的错觉："它好像一直记得我们聊过什么"。大模型本身通常是无状态的，真正"记得"的是包在模型外面的 Agent / CLI / 平台层——它在每一轮请求前，把历史、规则、工具、代码、文档重新拼起来再发给模型。所谓"记忆"，很多时候只是"再次传入"。这直接决定了三个成本结构：会话越长，后续每一轮越贵；工具越多，常驻定义越重；工具调用会形成回路，一次任务不是一次计费，而是一连串"请求-返回-再请求"的链条。文章还把成本拆成五类，特别提醒最容易被低估的是工具往返成本和重试成本——第一次没答对，往往意味着整包上下文被反复付款一次。理解了这个结构之后，文章顺势讲清楚了 Prompt Cache 的作用：它缓存的不是"答案"，而是"稳定前缀的处理结果"——如果两次请求前半段几乎一样，服务端就不必每次都从头处理那一大段相同内容。这里有三个推论值得记住：Prompt Cache 省的不是首次成本，而是重复成本；缓存不是"写短"，而是"写稳"——天天改的系统提示词很难被命中；缓存优化和上下文治理本质上是一回事，把稳定内容前置、变化内容后置，提升的都是"可复用比例"。在使用习惯这一层，文章给出了一系列今天就能改的小动作：一个 Session 只服务一个目标，修 Bug、写文档、查线上问题分开开会话；长会话及时压缩，因为未压缩的对话历史是负债不是资产；该长期保留的项目背景、约束、待办，外置到文档或 Memory 文件里，而不是指望 Agent 从聊天记录里一路记到底；输出也要省，"先复述问题再给结论"的废话本身就是 Token；Skill 和 MCP 不是免费的，高频稳定的常驻，低频的按需加载；甚至包括"能用 CLI 解决就别上 MCP"这种听起来琐碎、但确实省钱的细节。这篇文章和前两篇精讲构成了一条完整的链路：循环工程让系统自己反复跑，工具设计决定了每一步会不会出错，而 Token 成本则是这一切运行起来之后，真正要为之买单的那一面。三篇放在一起，更像是给"要不要让 AI 自己跑一套循环"这个问题，提供了一份从决策到落地到账单的完整参考。如果你已经在日常使用 AI Coding Agent，这篇文章建议优先看"使用习惯"那一节——零工程投入，却往往是第一波最大收益的来源；如果你在评估架构层面的优化，再回头看 Prompt Cache 和五层模型那部分会更有针对性。 ## 速览更多值得关注的内容： - [Fable 5 禁令始末：Anthropic 亲手写下的剧本，反过来演了它自己](https://www.bestblogs.dev/article/369a0323)（十字路口Crossing）：2026 年 6 月 12 日，Anthropic 收到美国商务部的一封信，以出口管制为由要求暂停所有外国公民（包括 Anthropic 自己的外籍员工）访问刚上线三天的旗舰模型 Fable 5 与 Mythos 5。Anthropic 当晚选择对全球所有用户关停这两款模型，多数团队连夜把工作流回退到 Opus 4.8。文章复盘了导火索——一份据称来自亚马逊安全测试报告，以及围绕"这算不算越狱"的各方说法分歧，呈现了一次围绕 AI 模型的政府干预事件的完整过程。 - [Scaling Law 的真相，藏在那些「没用」的参数里｜Hao 好聊趋势](https://www.bestblogs.dev/article/23d850ea)（腾讯科技）：从 ShortGPT 论文砍掉 LLaMA-2-13B 四分之一层数、性能几乎不掉的实验说起，文章梳理了过去两年关于"参数冗余"的系列研究，提出这些看似"空转"的参数在训练、推理、后训练阶段分别扮演着隔离空间、数值泄压、计算骨架和可塑性储备四种角色。文章的判断是，Scaling Law 的边际收益正在转向那些 benchmark 难以测量的长尾能力和多步推理能力，而不是简单的参数堆叠。 - [GlobalGPT 李焕之：零融资、套壳产品千万美金 ARR 后，我找到了创业的 mission](https://www.bestblogs.dev/article/ed22a9ae)（Founder Park）：GlobalGPT 创始人李焕之分享了从 2024 年初现金流仅剩一个月、到做出一款聚合主流 AI 模型的"套壳产品"、最终做到千万美金 ARR 的过程。他提到一个反常识的判断——初创公司在没想清楚方向时，去冲最红海的市场反而是对的，因为水涨船高的赛道哪怕排到第 1000 名也比小市场前 10 名更大。现在团队想在 GlobalGPT 上孵化一款主动型服务型 AI 产品 Yukie。 - [上线只活了 180 天，AI 应用层的泡沫被戳破了](https://www.bestblogs.dev/article/0f79cbbc)（腾讯科技）：文章以 OpenAI 关停上线半年的 Sora 视频生成器、AI 模型评测平台 Yupp.ai 关停、Google 收缩 Pixel Studio 和浏览器 Agent 实验项目为例，分析 AI 应用层正在经历的一轮商业筛选。核心判断是：当底层模型能力持续下沉，那些建立在单点模型能力之上、本质是"白牌化 Gemini 或 GPT"的应用，正在失去独立存在的理由；真正活下来的产品已经转向超级入口、高频场景和 Agent 化工作流。 - [做了 6 年智能眼镜后，夏勇峰按下暂停键：为 AI 造硬件而非为硬件加 AI](https://www.bestblogs.dev/article/70638b9b)（虎嗅）：蜂巢科技创始人夏勇峰的智能音频眼镜已经占据中国智能音频眼镜市场约 10% 份额，处于上升期，但他在今年春节后主动暂停了全年新品计划，拒绝了大厂的订单。他的判断是：站在 AI 大模型快速进化的当下，眼镜不会是承载 AI 的第一选择；现阶段更值得做的是"为 AI 造它需要的最小必要硬件载体"，而不是在已有硬件形态上叠加 AI 能力。 - [SpaceX 登陆纳斯达克市值超 2 万亿美元，殖民火星使命驱动 24 年崛起史](https://www.bestblogs.dev/article/15fef79e)（虎嗅）：6 月 12 日 SpaceX 正式登陆纳斯达克，市值达 2.1 万亿美元，刷新全球 IPO 募资纪录。文章通过实地探访 Boca Chica 发射场和洛杉矶总部，并采访 SpaceX 前高管、猎鹰 9 号工程师 Lewis Hong，回顾了从马斯克 2002 年用卖掉 PayPal 的钱成立公司、到猎鹰 1 号三次发射失败、再到星舰回收和星链盈利的 24 年历程，串起公司"殖民火星"这条贯穿始终的使命线。 - [把 18 亿颗星星画在一张图上，能还原我们拍到的银河吗？](https://www.bestblogs.dev/article/2c2192f7)（Computing Life）：作者用欧空局盖亚卫星公布的 18 亿颗恒星方位、星等、距离数据，尝试用程序还原一张逼真的银河图像。第一版渲染完全不像真实星空，随后通过逐步引入点扩散函数（PSF）模拟光晕、用暗星光度代理还原银河乳光、做黑体辐射色温校准等物理原理，一步步让模拟结果接近真实观感。文章在"翻车—改进"的过程中，顺带讲清楚了我们头顶星空形态背后的几条关键物理和生理学原理。 ## 补充阅读 - [vibe-coding-template：一次 Codex 对话文件丢失后，我整理了一套 Agent 长期协作模板](https://www.bestblogs.dev/article/a923c29f)（V2EX）：作者因为 Codex 本地对话记录意外丢失、常用提示词全部蒸发，整理出一套包含 AGENTS.md、任务 prompt、code review、知识讲解和 web-search 工作流的协作模板，适合长期用 AI 编程、担心协作资产丢失的读者参考。 - [Superpowers：给 Claude Code 装上"工程大脑"](https://www.bestblogs.dev/article/ac341305)（百度Geek说）：解析 Superpowers 项目如何用 14 个内置技能，强制 Claude Code 走"澄清→设计→规划→执行→验证"的工程流程，把"写代码快但漏洞百出"变成"一次做对"，和精讲二讨论的工具设计纪律可以对照着看。 - [Skill 升了版，你说不清楚哪里变好了吧？](https://www.bestblogs.dev/article/16eb5a70)（前端Q）：系统梳理了 Agent Skill 版本对比中常见的"假改进"陷阱——均值改善但分布退化、整体提升但 P0 翻车、Token 暴涨换正确率等，并给出多维度对比、显著性判断的工程化方法，适合维护 Skill 库或做版本评估的读者。 - [从月球漫步到赛博都市，WBench 测出了世界模型的边界](https://www.bestblogs.dev/article/cbf63829)（美团 · 技术团队）：美团 LongCat 团队提出首个面向交互式视频世界模型的多轮评测基准 WBench，对 20 个前沿模型进行了系统扫描，发现导航能力和画质表现脱钩、多轮交互后所有模型表现都会明显下降，关注视频世界模型进展的读者值得一看。 - [当平台治理直面国家战略：网飞、韩国影业与数字时代的治理思考](https://www.bestblogs.dev/article/02a0df4c)（哈佛商业评论）：以网飞与韩国影视产业的博弈为切入点，结合奥斯特罗姆、梯若尔等多种理论框架，提出一套适用于数字平台时代的治理原则，关心平台经济和产业政策议题的读者可以参考。 - [一家中国科技公司，正在用 AI 创造世界杯观赛的新模式](https://www.bestblogs.dev/article/52fc63a7)（腾讯科技）：报道联想作为 FIFA 官方技术合作伙伴，通过裁判视角 AI 视频增强、3D 数字人建模等系统参与 2026 世界杯赛事运行，是中国企业从品牌赞助商转向技术底座建造者的一个具体案例。 - [Lovable 设计负责人分享 AI 时代高效团队七条经验](https://www.bestblogs.dev/status/2066349458904744224)（宝玉(@dotey)）：转述 Lovable 设计负责人 Felix Haas 总结的七条团队经验，包括主人翁意识、好奇心与对 AI 沉迷的区别、让资深的人重新动手等，结合 Lovable 自身 8 个月做到 1 亿美元年收入的背景，值得管理者参考。 - [L123_当 demo 泛滥，判断力升值](https://www.bestblogs.dev/article/57cbbb5c)（Liam's Notes）：作者从一场 Hackathon 评委经历讲起，指出当 AI coding 让"做出一个能跑的 demo"几乎免费之后，决定"做什么"和"为什么做"的判断力，反而成了最稀缺的护城河，和今天三篇精讲讨论的"值不值得搭循环"是同一类判断。 - [如何搭建一个端到端业务需求专家 Agent](https://www.bestblogs.dev/article/c497f4de)（阿里云开发者）：详细记录了一套已经在真实业务需求上跑通的端到端链路，把需求从澄清、方案、实现、CR 到结项沉淀，组织成 Agent 自主推进、人在关键节点确认的闭环，可以当作精讲一里"loop 五个组件"的一个具体实践案例来读。 - [用 AI Skills 打通中间件迁移：定位服务从 Android 到鸿蒙的完整实践](https://www.bestblogs.dev/article/b1d101b0)（大淘宝技术）：以 Android 定位服务迁移鸿蒙为案例，把 API 映射等隐性知识结构化为 AI 可读的 Skills 文档，154 个服务的迁移节省了 25 小时且零编译错误，关注 AI 辅助迁移落地效果的读者可以参考。 - ["随机就好"：AWS 的数据中心网络革命](https://www.bestblogs.dev/article/3a3254fb)（云石乱笔）：解读 AWS 如何用基于随机图理论的扁平网络 RNG 替代传统胖树架构，省下近七成路由器并提升吞吐，文章也坦诚讨论了这套方案的局限和适用场景，适合关注基础设施工程权衡的读者。 - [🤔什么？SFT、DAgger、离线 RL 和 OPD，竟然是同一张 2×2 表格上的四个格子！](https://www.bestblogs.dev/article/711f4d46)（青稞AI）：从序列级推导出发，揭示 SFT、DAgger、离线 RL、OPD 四个训练范式本质上是"prefix 来源"与"KL 方向"两个独立维度组合出的 2×2 表格，并基于此提出两个实用方法，适合关注模型后训练范式的读者。 ## 今日阅读路径如果今天时间有限，建议按这个顺序读： 1. 精讲一：Codex 和 Claude Code 负责人都不写提示词了，AI 圈爆火的 Loop 到底是什么 —— 先搞清楚 Loop Engineering 到底是不是一个新东西，以及它真正值得讨论的判断标准是什么。 1. 精讲三：一篇搞懂 AI Coding Agent 的 Token 成本控制 —— 如果你已经在用 AI Coding Agent，这篇能直接帮你省钱，而且能解释清楚"循环跑起来之后账单去哪了"。 1. 精讲二：AI 智能体工具设计：有效与无效的模式 —— 如果你在给自己的 Agent 写工具或者评估别人写的工具，这篇的对照表可以当 checklist 用。时间更充裕的话，再看 Fable 5 禁令始末和 AI 应用层泡沫这两篇，了解一下当下 AI 行业里政策和商业层面正在发生的事。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂，并逐渐理解你关注什么，欢迎体验。

译循环工程将人机协作从单次对话转为连续回路，需回答何时启动、工具集、错误检测、记忆、刹车五个问题。Agent工具设计强调单一职责、强约束schema、结构化错误返回、幂等键等有效模式，并列出静默部分成功、功能重叠等反模式。Token成本控制揭示用户提问仅占成本1%以下，真正大头顶在系统提示词、项目文档、Skill定义、历史会话等固定前缀。速览还涉及Anthropic Fable 5模型被美政府出口管制叫停、Scaling Law参数冗余研究。

ginobefun@hongming731 · 6月16日56

BestBlogs 早报 · 06-16 # Loop Engineering / AI Agent 工具设计 / Token 成本控制 / Claude Fable 5 / Scaling Law [1] ★ 精讲｜一篇搞懂 AI Coding Agent 的 Token 成本控制这篇文章把“Token 都烧在哪”讲透了：真正的账单大头不是你打的那几十个字，而是系统每轮自动带上的系统提示词、Skill、工具定义和会话历史——所谓“它记得”，本质是系统在一遍遍重复提醒模型。给出的优化路径也很朴素：一个 Session 只做一件事，长会话及时压缩，按任务给模型分档，把高频内容做成稳定前缀吃满 Prompt Cache。省钱的关键不是少问一句话，而是让系统别重复搬运同一批上下文。来源：腾讯技术工程 https://www.bestblogs.dev/article/8b9392aa [2] ★ 精讲｜AI 智能体工具设计：有效与无效的模式 - http://MachineLearningMastery.com 这篇文章把 AI Agent 翻车的锅，从「模型不够聪明」甩回「工具设计太糙」：单一职责工具优于万能 action 参数，用枚举和强约束 schema 堵住模型瞎猜，错误返回要带 recoverable 字段和下一步建议而不是甩一坑日志，写操作必须有幂等键，危险操作要拆成两步确认。核心判断很朴素——模型只能基于你给的接口推理，接口含糊，失败就是必然，不是偶然。来源：Hacker News - Newest: "AI Agent" https://www.bestblogs.dev/article/963dda4c [3] ★ 精讲｜Codex 和 Claude Code 负责人都不写提示词了，AI 圈爆火的 Loop 到底是什么「循环工程」最近被吹成新范式，但文章先把热闹拆开看：技术上不算新发明，过去的 Harness、Skill、Agent 工作流早就在做，真正变化的是模型终于能把循环连续跑下去——人从写提示词退到定规则：何时启动、工具边界、出错怎么判断、记录在哪、何时收手交回人。结合另一篇用 OKR 和古德哈特定律拆解循环工程的长文，它更像一套管理制度：值不值得搭，取决于任务是否真反复、Token 预算够不够，而非这个新名字。来源：APPSO https://www.bestblogs.dev/article/24d7bb20 [4] Scaling Law 的真相，藏在那些「没用」的参数里｜Hao 好聊趋势本文深入剖析大模型参数冗余现象，论证看似「空转」的参数在训练、推理和后训练阶段分别扮演隔离空间、数值泄压、计算骨架和可塑性储备四种关键角色，并指出 Scaling Law 的边际收益正流向 benchmark 无法测量的长尾与多步推理能力。来源：腾讯科技 https://www.bestblogs.dev/article/23d850ea [5] GlobalGPT 李焕之：零融资、套壳产品千万美金 ARR 后，我找到了创业的 mission GlobalGPT 创始人李焕之分享从零融资套壳产品做到千万美金 ARR 的创业历程，并阐述其从「先活下来」到回归初心、打造服务型 AI 产品 Yukie 的思考。来源：Founder Park https://www.bestblogs.dev/article/ed22a9ae [6] 上线只活了 180 天，AI 应用层的泡沫被戳破了本文以 Sora、http://Yupp.ai 等应用关停为引，分析 AI 应用层泡沫破裂的深层原因，指出真正活下来的产品已从单点功能转向超级入口、高频场景和 Agent 化工作流。来源：腾讯科技 https://www.bestblogs.dev/article/0f79cbbc [7] Fable 5 禁令始末：Anthropic 亲手写下的剧本，反过来演了它自己本文深度复盘 Anthropic 旗舰模型 Fable 5 遭美国政府出口管制禁令事件，揭示其背后技术争议、政治博弈与深层反讽，并探讨 AI 治理中权力制衡的核心命题。来源：十字路口 Crossing https://www.bestblogs.dev/article/369a0323 [8] 做了 6 年智能眼镜后，夏勇峰按下暂停键：为 AI 造硬件而非为硬件加 AI 蜂巢科技创始人夏勇峰基于对 AI 大模型趋势的判断，暂停了已占市场 10%份额的智能眼镜业务，转向「为 AI 造硬件」的新方向，核心是让硬件成为 AI 进入现实世界的最小载体，而非在硬件上叠加 AI。来源：虎嗅 https://www.bestblogs.dev/article/70638b9b [9] SpaceX 登陆纳斯达克市值超 2 万亿美元，殖民火星使命驱动 24 年崛起史本文通过实地探访 SpaceX 总部与星舰基地，结合前高管访谈，完整回顾了 SpaceX 从猎鹰 1 号三次失败到星舰成功回收、星链盈利、国防业务崛起的 24 年发展史，并解析其殖民火星的终极使命。来源：虎嗅 https://www.bestblogs.dev/article/15fef79e [10] 把 18 亿颗星星画在一张图上，能还原我们拍到的银河吗？本文利用盖亚卫星 18 亿颗恒星数据，通过逐步引入点扩散函数、暗星光度代理、黑体辐射色温校准和韦伯阈值等物理与生理学原理，模拟出逼真的银河图像，并在此过程中揭示了星空视觉形态背后的关键科学原理。来源：Computing Life https://www.bestblogs.dev/article/2c2192f7 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-16

译BestBlogs精选10篇AI行业文章：Token成本控制大头在系统提示词、Skill和会话历史；AI Agent工具设计强调单一职责、强约束schema、幂等键；循环工程（Loop）作为新范式让模型连续跑规则；Scaling Law参数空转扮演骨架角色；GlobalGPT零融资做到千万美金ARR；AI应用层泡沫破裂，Sora等180天关停；Anthropic旗舰模型Fable 5遭美国政府出口管制禁令；夏勇峰暂停智能眼镜业务转向“为AI造硬件”；SpaceX登陆纳斯达克市值超2万亿美元；利用盖亚卫星18亿颗恒星数据模拟银河图像。

Chubby♨️@kimmonismus · 6月16日58

Holy, in its early days, Cursor accounted for roughly 40% to 50% of Anthropic's revenue. And Claude Code was just a reserach project. How quickly everything has changed.

译天哪，早期Cursor约占Anthropic收入的40%到50%。而Claude Code当时只是一个研究项目。一切变化如此之快。

OpenAI Developers@OpenAIDevs · 6月16日38

Use the OpenAI Developers plugin in Codex to build faster with OpenAI tools by setting up API keys, finding the right docs, and debugging along the way.

译使用Codex中的OpenAI开发者插件，通过设置API密钥、查找合适的文档并在过程中进行调试，从而更快地使用OpenAI工具进行构建。

xAI@xai · 6月16日47

You can now use your SuperGrok or X Premium subscription inside @warpdotdev. Try it out from Warp Agent Settings and switch to the Grok Build model. https://x.ai/news/grok-warp

译你现在可以在 @warpdotdev 内使用你的 SuperGrok 或 X Premium 订阅。从 Warp Agent 设置中试用，切换到 Grok Build 模型。

Rohan Paul@rohanpaul_ai · 6月16日54

Factory 2.0 is here. Connects AI agents to the whole software workflow: tickets, customer requests, code, tests, security checks, reviews, deployments, docs, and production incidents. Managing this feedback loop is so important - every incident and review should become training signal for the next task. It treats every bug report, customer request, internal discussion, code review, test failure, security warning, and incident as a signal inside one loop, where agents help triage work, write code, test it, review it, ship it, watch production, and feed what happened back into the system.

译FactoryAI 今日推出 Factory 2.0，将 AI 智能体与整个软件工作流打通——涵盖工单、客户请求、代码、测试、安全检查、代码审查、部署、文档和生产事故。系统强调反馈循环的重要性：每个事故和审查记录都应成为下一任务的训练信号。所有 bug 报告、客户请求、内部讨论、测试失败、安全警告和事故被视为单一循环内的信号，由智能体协助分类、编写代码、测试、审查、发布、监控生产环境，并将结果反馈回系统。这标志着从编码智能体向软件工厂的升级。

jason@jxnlco · 6月16日18

who are some of the highest profile codex users you know?

译你认识哪些最高调的 Codex 用户？

Andrew Milich@milichab · 6月16日54

Use your SuperGrok or X @premium subscription inside Warp

译在Warp中使用你的SuperGrok或X Premium订阅

Ethan Mollick@emollick · 6月15日58

A thing that API users of frontier models (enterprise IT deployments, for example) can miss is how powerful models are in their native harnesses. It is hard to get Claude or GPT via API to be anywhere near as capable as they are in Code or Codex & its harder as models get smarter

译API用户（例如企业IT部署）使用前沿模型时可能会忽略一点：模型在其原生框架中是多么强大。通过API很难让Claude或GPT达到像在Code或Codex中那样的能力，而且随着模型变得更聪明，这变得更难。

Berryxia.AI@berryxia · 6月15日58

1万亿参数的Kimi K2.7 Code，现在直接被Unsloth塞进了本地能跑，动态2bit量化后只剩325GB，还能跑到40+ tok/s。 Unsloth把这个巨兽模型用Dynamic 2-bit方案压了48%，重要层保持更高精度，其他部分大胆量化。结果就是330GB的RAM/VRAM就能跑起来，速度还不错。想全精度也可以，但需要610GB。以前大家觉得这么大的coding模型只能云端用，或者根本跑不动，现在开源社区直接把前沿能力打包成能在自己机器上长期跑的东西。长程任务、复杂推理、agent工作流，都能本地闭环。最关键的是这不是简单粗暴的量化，是保留了模型推理效率的优化。 Kimi本来就因为“少过思考”而强，现在本地版还能继承这个优点。

译Unsloth 将 1 万亿参数的 Kimi K2.7 Code 通过动态 2-bit 量化压缩 48% 至 325GB，重要层保持更高精度。在 330GB RAM/VRAM 配置下，推理速度超过 40 tok/s；全精度版本需 610GB。该方案使这一大型 coding 模型能在本地长期运行，支持长程任务、复杂推理和 agent 工作流，且保留了“少过思考”的推理效率优势。

Kimi.ai@Kimi_Moonshot · 6月15日51

🌘 Meet Kimi K2.7 Code HighSpeed! A high-speed mode of our latest open-source multimodal coding model, Kimi K2.7 Code. ⚡️ Up to 6× faster: Around 180 tok/s on coding tasks with median-length inputs, and up to 260 tok/s on shorter-context tasks. 🔷 Rolling out to Kimi Code Beta Program members, Kimi API developers, and Kimi Business users. (Access will remain limited for now due to capacity constraints.) 🔷 No invite needed. Anyone who joins the Beta Program has a chance to get access 👉 https://www.kimi.com/code/beta Open intelligence should be instant, affordable, and borderless. We'll continue improving the model and expanding access as more capacity becomes available! 🔗 Kimi Code: https://kimi.com/code 🔗 API: https://platform.kimi.ai/

译Kimi 开源多模态编程模型 Kimi K2.7 Code 推出高速模式 HighSpeed，编码任务中长输入可达约 180 tok/s，短上下文任务最高 260 tok/s，速度提升最多 6 倍。该模式已向 Kimi Code Beta Program 成员、API 开发者及商业用户开放（容量有限），无需邀请，加入 Beta 计划即有机会获得访问权限。Kimi 表示将继续优化模型并扩大接入。

向阳乔木@vista8 · 6月15日53

智谱的Zcode，类似Codex的客户端。好像谷歌注册登录就能免费用 GLM 5.2 ？！软件支持Windows，Mac（intel和M新品），Linux通过内测群获取。下载安装方法见评论区

译智谱推出Zcode，一款类似 Codex 的客户端工具。用户通过谷歌账号注册登录即可免费使用 GLM 5.2（官方表述带问号，表示待确认）。软件支持 Windows、Mac（Intel 和 Apple Silicon）平台，Linux 版本则需要通过内测群获取。下载安装方法详见评论区。

Peter Steinberger 🦞@steipete · 6月15日43

Whenever you create an issue on one of oure open source projects, @clawsweeper will review it, and *if* it fits the VISION.md file, will pick it up and create+autoreview a PR. e.g.: https://github.com/openclaw/gogcli/pull/816

译每当你在我们的一个开源项目上创建issue时，@clawsweeper 会审核它，*如果*它符合VISION.md文件，就会接手并创建+自动审核一个PR。例如：https://github.com/openclaw/gogcli/pull/816

Berryxia.AI@berryxia · 6月15日60

一个12B的本地模型，直接把Fable 5的推理链条蒸馏进去了，现在你能在消费级显卡上离线跑顶级coding能力。这个Gemma 4 12B Coder GGUF是基于Google的gemma-4-12B-it微调的，专门针对代码生成和复杂推理。训练数据里用了Composer 2.5的真实通过案例，还让Fable 5帮着补全那些难搞的case，结果就是每一步推理都导向能真正跑通的代码。最爽的是它走GGUF格式，12GB显卡就能顺畅跑，甚至CPU也能用。调试、补全代码、生成复杂算法、做链式思考提示，全都本地搞定，不用交API费、不用担心导出管制。以前大家觉得前沿模型要么云端用要么根本跑不了，现在开源社区直接把Fable 5的思考方式打包成能塞进你笔记本的版本。模型还在快速迭代，下载量已经破六千，社区反馈它在本地coding场景里特别能打。这波操作把“强大但受限”和“本地可用”之间的鸿沟给填上了。真正的AI生产力，从来不是等大厂放行，而是社区自己动手把能力解放出来。

译Berry Xia 介绍了基于 Google gemma-4-12B-it 微调的 Gemma 4 12B Coder GGUF 模型。它将 Fable 5 的推理链条蒸馏进 12B 参数模型，训练数据使用 Composer 2.5 真实通过案例并由 Fable 5 辅助补全。GGUF 格式让模型在 12GB 消费级显卡即可本地运行，甚至支持 CPU。模型专为代码生成、调试、复杂算法、链式思考提示等任务优化，无需 API 费用且无导出限制。该模型基于 Google 最新 gemma-4 架构，目前下载量已破六千，社区反馈其在本地 coding 场景表现出色，填补了云端模型与本地可用之间的鸿沟。

meng shao@shao__meng · 6月15日23

智谱的 Codex ？不，是 ZCode ！

数字生命卡兹克@Khazix0918 · 6月15日24

Codex现在对我最大的作用，就是在手机上启动家里电脑上的Claude code，然后开启远程控制，方便我在手机上继续coding...🤣🤣🤣 说实话， Claude自己客户端的Dispatch实在是太难用了。。。其实不止 Dispatch，整个客户端做的都挺垃圾的。。。

译推文分享Codex的实际用法：在手机上远程启动家里电脑的Claude Code，实现移动端远程编码。作者认为Claude客户端的Dispatch功能极为难用，并进一步批评整个客户端体验都很糟糕。

凡人小北@frxiaobei · 6月15日52

Vercel CEO Guillermo Rauch 给 AI builder 内容圈的一记委婉提醒。现在 X 上有两群人，一群天天发 coding agent 内容但不发实际产品，还有一群闷头 ship 东西。后者才在真创造价值。

译Vercel CEO Guillermo Rauch 指出AI圈存在两类人：一类天天发coding agent内容却从不实际出货，另一类产出暴增并持续ship有价值的产品。讽刺的是，两类人比例与AI出现前并无变化，而后者出货效率更高，形成“出货越多越能出货”的循环。评论认为，只有后者在真创造价值。

jason@jxnlco · 6月15日62

That one Codex Thursday when we shipped codex remote control with m.

译那就是那个 Codex 星期四，当我们用 m. 发布了 codex remote control。

jason@jxnlco · 6月15日19

codex users! do you know the difference between steering and queuing?

译codex users! 你知道 steering 和 queuing 的区别吗？

宝玉@dotey · 6月15日52

Lovable 的设计负责人 Felix Haas 在社交媒体上分享了一篇关于"AI 时代高效团队"的观察，七条经验总结，来自这家增长速度惊人的 AI 创业公司内部视角。几条有意思的观点：第一，别像员工一样等安排。影响力最大的人不问"这归谁管"，看到问题直接上手。主人翁意识不是靠分配的，只能靠自己拿。第二，招人看态度不看简历。技能当然重要，但光有技能几乎不能预测一个人能不能成事。真正跑出来的人靠的是好奇心、韧劲和学什么都愿意学的心态。在 AI 时代，这一点比过去更明显。第三，好奇心和沉迷 AI 是两回事。真正用好 AI 的人不是天天刷资讯，而是不断去试那些没人让他试的东西，追那些可能根本走不通的想法。大多数人不会这么做，但少数坚持的人，回报是指数级的。第四，让资深的人重新动手。这是 Haas 觉得最有意思的现象：经验丰富的管理者重新变成了 builder（建造者）。AI 让个体贡献者的杠杆效应急剧放大，一个深度使用 AI 的资深工程师或设计师，可能是当下公司里最强大的组合。第五，自我意识是速度的敌人。Haas 说他从没见过自我意识让公司变快，但见过它让公司变慢。最快的团队不太在意谁拿功劳，只在意什么方案有效。第六，先发布再迭代。一周的内部讨论，抵不上一天的真实用户反馈。最强的团队不追求发布前完美，而是追求尽快学到东西。发布本身就是他们学习的方式。这些观点单独看并不新鲜，不过 Lovable 这两年发展的确实不错，2024 年上线，8 个月做到 1 亿美元年收入，2025 年底完成 3.3 亿美元 B 轮融资，估值 66 亿美元，是欧洲增长最快的 AI 公司之一。尤其是“让资深的人重新动手”这一条，可能是 AI 时代最容易被忽视的组织变化。当 AI 工具足够强大，过去被提拔到管理岗、远离一线的高手，重新获得了亲手做事的能力和动力。

译Lovable设计负责人Felix Haas总结AI时代高效团队的七条经验：主动做事、重态度轻简历、靠试错而非刷资讯、资深管理者重回一线、减少自我意识、先发布再迭代。Lovable 2024年上线，8个月达1亿美元年收入，2025年底完成3.3亿美元B轮融资，估值66亿美元。Haas指出，团队表现与学历关系越来越小，与思维模式关系越来越大。

jason@jxnlco · 6月15日68

check out my /ultragoal skill https://github.com/jxnl/dots/blob/master/agents/skills/ultragoal/SKILL.md

译查看我的 /ultragoal 技能 https://github.com/jxnl/dots/blob/master/agents/skills/ultragoal/SKILL.md

meng shao@shao__meng · 6月15日73

OpenAI Codex Mobile 工程实践指南 @Dimillian 提出了 Codex Mobile 核心心智模型：手机不只是缩小版终端，它是远程开发机的「控制中心」。 · 代码执行、任务运行仍在 Mac / Windows / devbox 等已连接主机上完成 · 手机提供原生 UI，用于启动、引导、审查、组织工程工作 · 价值不在「在手机上写代码」，而在「离桌时仍能做出关键决策」 # 任务启动：先定边界，再发 prompt 好 agent 工作的前提是正确隔离的执行环境。Codex Mobile 在创建新 thread 时可配置： · 选择主机与工作区：指定在哪台机器、哪个项目跑 · 选择 Git 分支：从正确基线出发，避免事后修 Git 状态 · 创建独立 worktree：隔离变更，不污染当前 checkout · 运行 environment setup 脚本：worktree 创建后自动执行桌面端配置的初始化脚本三种典型模式： 1. 用当前 checkout → 快速调查 2. 新建 worktree → 需要隔离的改动 3. 从目标 base branch 起步 → 避免后续 merge 混乱限制：environment 脚本目前不能在 Mobile 上编辑，需在 Desktop 配置。 # Side Chat：主线程做活，旁路线程理解长线程会积累大量上下文；每个旁路问题都打断主线程，会让 transcript 变噪、agent 偏离目标。 Side chat 的定位：与当前 thread 关联的轻量对话，不抢占主工作流。 · /side 或 /side <prompt> 打开 · 选中 transcript 文本 → Ask in side chat，选中内容成为起始上下文适合的问题类型： · 为什么选这种架构？ · 这个 error 实际含义？ · 与 desktop 行为是否一致？ · 生成 release note 版说明 · 批准这条命令前应验证什么？分工：主 thread 负责执行；side chat 负责理解与决策辅助。 # Plan 与 Goal：路径 vs 结果两者解决不同问题： · Plan mode：「怎么实现？」，任务欠规格、风险高、跨多系统 · Goal：「完成标准是什么？」，需多轮迭代的 durable 目标推荐工作流： 1. 高风险任务 → 先 Plan，审查边界 2. 方案确认后 → 转为 Goal，让 agent 跨实现、测试、review、清理持续推进 3. 实操中常跳过显式 Plan：先与 Codex 讨论细节，满意后让 Codex 自己写 Goal（通常比人工写更好） Goal 写法注意：设定可验证、不过宽的终态。过于绝对的要求（如「100% 像 X 或 Y」）容易导致过度执行、浪费 token。Mobile 端现已可监控 token 消耗，但仍应控制 Goal 粒度。 Mobile 对 /goal、/plan 支持完整：可见运行时长、编辑、暂停；Plan 工具的问题也会在 UI 中展示。 # Mobile 独有优势：别忘记「你在用手机」 Composer 内置访问本地手机数据的能力，这是桌面端没有的： · 拍照 / 选图 / 浏览文件 · 语音录制 prompt（后台持续录音：切到其他 app 时 dictation 不中断）典型场景（作者做 ChatGPT iOS 的经验）： · 发现问题 → 直接截图发给 Codex thread → 快速修复，无需回电脑 · 同 Wi-Fi 下 → 在真机构建运行，直接验证 Codex 改动结果 · 边用 app 边口述 10 分钟问题 → 回 Codex 发送，形成「Talk to phone → app appears」闭环 Pinned 长线程：例如绑定 Linear tracker 的 thread，随手粘贴文本即可按当前上下文正确建 issue、打标签。 # Mobile 代码审查：不必等回工位 Completed turn 可展示变更文件摘要，支持： · 打开 diff、展开/折叠、换行 · 查看带语法高亮的源文件 · 行内评论 → 自动汇入 composer，发回 Codex 分层用法： 1. 变更摘要 → 快速 sanity check 2. 完整 diff / 源文件 → 缺上下文时深入 3. Inline comment → 精确修正 4. review 命令 → 审查本地变更或与分支对比 5. 链接文件回 chat → 让 Codex 针对特定文件推理关键洞察：手机不能替代大屏做深度 code reading，但很多 review 卡在一两个决策点——这些决策不必等到回 desk。

译手机是远程开发机“控制中心”，代码执行在主机。任务启动可配主机、工作区、Git分支，创建独立worktree并自动执行环境脚本。Side Chat提供轻量旁路对话，不打断主线程。Plan模式用于高风险任务规划，Goal模式设定可验证终态。手机独有优势包括拍照截图、后台持续录音语音prompt、真机构建验证。代码审查支持diff查看、语法高亮、行内评论，不必等回工位。

Berryxia.AI@berryxia · 6月15日25

兄弟们，O社终于要狙击了！又一轮GPT-5.6泄露传闻据传OpenAI可能在6月23日推出GPT-5.6 > 成本仅为Fable的三分之一 > 上下文窗口达150万token > 智能体编程工作流全面升级这个时间节点颇有意思😂

译据传闻，OpenAI 可能在 6 月 23 日推出 GPT-5.6。其成本仅为 Fable 的三分之一，上下文窗口达到 150 万 token，智能体编程工作流得到全面升级，与 Claude 风格系统直接竞争。有观点认为，OpenAI 选择该日期是因为届时许多 Fable 用户将被强制转为付费计划。

Ethan Mollick@emollick · 6月15日24

A plus of Fable being down is the number of times the word “toast” appears in Claude Code has dropped dramatically. That model loved/loves software development and UX jargon more than any other model I have used.

译Fable 下线的一个好处是，Claude Code 中“toast”一词出现的次数大幅下降。那个模型比我用过的任何其他模型都更喜欢/喜欢软件开发和 UX 术语。

meng shao@shao__meng · 6月14日60

Anthropic 内幕：近万亿美元 AI 巨头的「安全优先」与权力博弈 | The Circuit Dario Amodei 仍坚持：“AI 可能在 1–5 年内消除约 50% 初级白领岗位”和“支持对华芯片出口管制”，Anthropic 试图在指数级技术、地缘政治、商业竞争与公众焦虑之间走钢丝。 Bloomberg 对 Anthropic 的深度纪录片，采访了联合创始人 Dario & Daniela Amodei 兄妹，以及 Claude Code 负责人 Boris Cherny，采访者是 @emilychangtv，视频发布于 6.10（Claude Fable 5 被美国政府下线前两天），这个时间点很微妙，在 Fable 5 被禁后再回头看，更有趣。 https://www.youtube.com/watch?v=v1wZwxY3CMg&t=1s # 公司定位：从 OpenAI 出走到行业领跑者起源 · 2021 年，7 位 OpenAI 核心成员（含 Amodei 兄妹）因信任与价值观分歧离开，在旧金山 Precita Park 草皮上讨论创业方向。 · Dario 在 OpenAI 提出 Scaling Laws（算力+数据→模型变强），为 ChatGPT 铺路；Daniela 负责运营，把 Dario 的「宇宙级想法」落地。现状 · 估值约 9650 亿美元，2026 年 Q1 年化增长约 80 倍，API 调用量同比 17 倍。 · 首次盈利，主要靠 Claude Code / Cowork 等企业工具，而非消费级应用。 · Dario 用「平滑指数曲线」形容：长期看似无变化，然后突然爆发。战略选择刻意避开广告驱动的消费 AI（类比社交媒体的成瘾与「slop」），押注企业场景：制药、能源、科研等，认为商业模式与价值观更一致。 # Claude 的产品哲学 Constitution（宪法）：用 UN 人权宣言等跨文化价值训练模型行为。 Professional Warmth：专业但不冷漠，不是「最好的朋友」，也不是冷冰冰的计算器。安全三轴：不撒谎（含幻觉与蓄意欺骗）、无害、价值观对齐。早期 Claude 曾过于「保姆式」（问天气也过度担心），后通过精细调参修正。 # 技术冲击：代码革命与就业焦虑 Claude Code 的变革 · Boris Cherny：团队 6 个月 100% 代码由 Claude 编写，可同时运行数百至数千个 Claude 实例。 · 工程师角色从「手写代码」转向「规划、与用户沟通、定义方向」。市场震荡 · Cowork 发布引发「SaaSpocalypse」，单日约 2850 亿美元软件股市值蒸发。 · Dario 判断：软件行业整体会变大，但不适配者会被淘汰。就业预测（视频中最具争议的部分） · Dario 维持此前判断：AI 可能在 1–5 年内消除约 50% 初级白领岗位。 · 可能出现 GDP 高增长 + 高失业/低薪 + 高不平等的组合。 · 自动化路径：先替代 90% 任务→人效 10 倍→最终接近 100% 替代。 · 对策方向：UBI、对 AI 公司累进税、向物理制造、人际服务（如医疗中的 bedside manner）转移。 · Dario 反驳 Jensen Huang「混淆任务与岗位」的批评，称完整论述见其文章 The Adolescence of Technology。 # 五角大楼冲突：红线与代价背景 · 2025 年，Anthropic 与 OpenAI、xAI、Google 共同获得 2 亿美元国防部合同。 · Claude reportedly 用于委内瑞拉抓马杜罗等行动；Bloomberg 称其在伊朗战争中通过 Palantir Maven 做 AI 辅助目标识别。红线 Anthropic 拒绝： · 大规模监控 · 完全自主致命武器后果 · 国防部要求「无护栏全面使用」，遭拒后被列入黑名单；Trump、国防部长 Hegseth 公开批评 Dario 为「意识形态疯子」。 · Dario 回应：这是关于政府如何正确使用 AI 的辩论，而非单纯对抗；希望建立先例。战争伦理的尖锐追问 · 美国官员称 LLM 帮助军方目标识别从 1000/天 → 5000/天。 · 2026 年 2 月，伊朗一所女子学校遭导弹袭击，150+ 儿童死亡；Dario 称不清楚 Claude 是否参与，但强调「人类做最终决策」是其红线之一。 · 他承认军事决策仍会出错，但认为整体 net positive；若无限制，AI 战争更可能引发而非阻止大国冲突（引用《奇爱博士》的自动反击风险）。地缘政治立场 · 支持对华芯片出口管制（类比不向朝鲜出售核武器）。 · 从 Caltech 反战立场，转向支持国防：俄乌、台海风险使「威权集团 resurgence」需应对。 · 否认与 ICE、CBP、加沙相关合作；与 Palantir 合作但声称严格限定范围。 # Mythos： withheld 的网络「超级武器」模型能力 · Claude Mythos：在主流操作系统中发现数千个高危漏洞（含 27 年 OpenBSD、16 年 FFmpeg、Linux 内核提权链等）。 · 早期测试方称其为「超级武器」，要求 Anthropic 不要发布。 Project Glasswing · 仅向 AWS、Google、Microsoft、CrowdStrike 等可信防御方开放，用于修补而非攻击。 · 即使 NSA 等联邦机构也争相接入——尽管 Anthropic 已被 Pentagon 拉黑。核心困境 · Dario：未来是攻防猫鼠游戏，好人需先有工具；坏人迟早也会拥有类似能力。 · Emily Chang 追问：谁有权决定谁能获得这种力量？ Daniela 承认决策复杂、可能不完美，但强调出于网络安全特定担忧，而非泛化的权力分配。 · Dario 称 withheld Mythos 商业上损失惨重，反驳「安全营销」说法。 # 治理与信任：能否当「好人」？监管主张 · AI 是首个私营部门主导、政府滞后的颠覆性技术（对比核武、互联网、GPS）。 · 呼吁发布前强制第三方测试（网络安全、生物武器、失控风险等），类比 FAA 对客机的认证。 · 批评硅谷在「极端反监管」与「国有化 AI」之间摇摆，主张适度、持续的监管。信任危机 · 公众：更担忧而非兴奋，认为风险大于收益；Anthropic 办公室外有抗议。 · Dario：从不信任出发是理性的；Silicon Valley 需重新赢得信任，「不同」须靠行动证明。 · 自比 Leo Szilard（核链式反应构想者），视 Oppenheimer 为失败案例——需 checks and balances，而非个人英雄主义。 · 给出 10–25% 文明崩溃概率；Anthropic 约一半工作用于降风险，但无法保证零风险（类比更安全的航空公司仍无法承诺永不坠机）。社会媒体教训 · Daniela：AI 行业是 social media 之后的第二次机会，应 proactively 思考儿童福利、心理健康、选举 integrity，而非事后辩解。 · 若出现重大事故，AI 可能被禁——「也许理应如此」。

译Bloomberg纪录片揭秘Anthropic：坚持“安全优先”，拒绝国防部无护栏要求被拉黑；Claude Code团队6个月100%代码由AI编写，Cowork发布致单日2850亿美元软件股市值蒸发。Dario维持预判：AI 1–5年内消除约50%初级白领岗位，并给出10–25%文明崩溃概率。被限制模型Mythos发现数千高危漏洞。Anthropic支持对华芯片出口管制，呼吁发布前强制第三方测试。

Rohan Paul@rohanpaul_ai · 6月14日47

"Learning to program was so obviously the right thing in the recent past. Now it is not." ~ Sam Altman on skill to survive the AI era.

译"学习编程在不久前显然还是正确的事情。但现在不是了。" ~ Sam Altman 谈在AI时代生存的技能

Peter Steinberger 🦞@steipete · 6月14日45

Got a PayPal verification text and thought I been hacked, but it was just codex signing up for a web service it needed.

译收到一条PayPal验证短信，以为被黑客攻击了，结果只是codex在注册它需要的网络服务。

jason@jxnlco · 6月14日66

added something new to my agents.md "when i send you an app shot with no context try your best to figure out what you want me to do with it and udpate your appshot triage skill"

译在我的 agents.md 中新增了一些内容： "当你给我发送一张没有上下文的应用截图时，尽你所能弄清楚你想让我对它做什么，并更新你的应用截图分诊技能。"

宝玉@dotey · 6月14日46

模型是根本，Harness层相对好补齐，但Harness这层不需要太多垂直领域的，Claude Design 很快就会合并到 Claude Desktop，Codex 在下一代或者几代模型能力够了后，会在 Codex App 直接以 Plugin 集成 Codex Design

译模型能力是根本，Harness层相对容易补齐且无需过多垂直领域。Claude Design将很快合并至Claude Desktop。未来模型能力足够时，Codex会在Codex App以Plugin集成Codex Design。针对开源Open Design方案，若使用Claude Code的模型能否达到类似工程能力？这是该讨论中提出的问题。

宝玉@dotey · 6月14日74

举一个具体的用 Claude Design 更新设计和代码的例子我有一个视频字幕编辑器工具，是 Claude Design 做的设计，之前标题文字和下面的信息是放在一行，标题一长就放不下，于是我就让它变成两行。图1 是我在设计稿上做的修改，修改好了后导出下载 zip 文件，放到项目中，用 git diff 很容易看到做了哪些变更（图2）然后一句简单的提示给 Claude Code： > 参考设计稿 design 目录下的相关变更，对 UI 进行变更 Claude 自己通过 git diff 去分析变更，然后找出所有设计稿修改了的位置，自己帮我修改了相应的 Swift 代码，任务完成！（图4是修改后的效果）全程我主要是在 Claude Design 上修改，然后需要手工去同步一下。

译宝玉分享了 Claude Design 与 Claude Code 联动的实际案例：在 Claude Design 上修改字幕编辑器 UI 设计稿后，导出 zip 并用 git diff 查看变更，然后通过一句提示让 Claude Code 参考设计目录变更自动修改 Swift 代码，全程只需手动同步设计文件。他解释为何 Codex 没有类似产品：Claude Design 依赖 Claude Opus 4.8 模型同时具备 UI/UX 设计和系统架构设计能力，能一次性交付可交互原型（含数据结构、状态管理、交互逻辑）；而 GPT-5.5 还做不到。Harness 层可复制，模型层才是关键门槛。

🚨 AI News | TestingCatalog@testingcatalog · 6月14日78

ICYMI 👀: Z AI released GLM-5.2 for all users on GLM Coding Plans. > As our new flagship model, GLM-5.2 delivers powerful coding capabilities, usable 1M-context support, and continued strengths in long-horizon tasks. Open-source and API support are planned for next week.

译智谱发布最强开源模型GLM-5.2，面向所有GLM Coding Plan用户（Lite/Pro/Max）开放。该模型支持真正可用的100万上下文窗口，在长程任务独立完成方面保持领先，适合构建复杂AI智能体应用，也是国产最强编码模型的核心引擎。面对外部封锁限制，智谱强调科学全球性、AGI不应被高墙垄断，采取激进开源态度。GLM-5.2的开源与API预计下周同步上线。

elvis@omarsar0 · 6月14日71

http://x.com/i/article/2065876120965111808 # Autonomous Long-Running Coding Agents Autonomous coding is moving from better prompting to better control systems. The important shift is that engineers are learning how to wrap agents in goals, evaluators, loops, and artifacts that let them keep working after the human stops typing. This matters because most serious engineering work spans long horizons: ambiguous requirements, hidden constraints, partial failures, changing context, and repeated verification. The new frontier is designing the system around the agent so it can plan, execute, check its work, recover from mistakes, and keep making progress without constant human steering. This piece is based on a DAIR.AI Academy session on autonomous long-running coding agents, where I walked through Claude Code's /goal mode, the newer /loop command, verifiers, artifacts, and orchestration patterns in practice. Written in collaboration with Codex and Claude Code. ## From Prompting to Goal Design The core idea behind features like Claude Code's /goal is simple. A coding agent remains the executor, but the human no longer interacts with it turn by turn. Instead, the human specifies the desired end state, the evidence required to prove success, the constraints that must not be violated, and, where possible, the number of turns and budget. That goal works more like a contract than a longer prompt. A weak goal gives the model room to stop early, take shortcuts, or redefine success in a way that looks plausible in the transcript but fails in the real system. A strong goal gives the agent a target it can repeatedly measure itself against. Engineering judgment still matters here. The best goals encode domain knowledge that the model would otherwise guess. For a research experiment, that might mean a target benchmark score, a held-out evaluation, a required loss curve, and a rule that the result must beat an initial baseline. For a UI task, it might mean a screenshot reference, concrete layout constraints, and a browser verification step. The model can execute, but the human still defines what "done" actually means. ## The Evaluator Becomes a First-Class Component Long-running agents need a second role besides the goal. That evaluator can be another coding agent, an LLM-as-judge, a script, a test suite, a benchmark harness, or a mix of all of them. The key design choice is matching the evaluator to the task. When success is crisp, deterministic checks are better. Type checks, unit tests, lint rules, integration tests, and benchmark scripts should be used whenever they can express the condition clearly. When success is fuzzy, an agent evaluator becomes useful. A script can tell you whether tests pass, but it cannot easily decide whether a generated research report is coherent, whether an implementation faithfully follows a paper, or whether a UI matches a design intent. This is where the evaluator benefits from language, judgment, and sometimes vision. The practical pattern uses deterministic checks as the floor and agent evaluation as the higher-level review. That combination reduces hallucinated success while still allowing autonomy on tasks that do not fit cleanly into a test assertion. ## Verifiers Define the Boundary of Trust The deeper point is that autonomy only works when the system has a reliable verifier. A coding agent can generate a plan, implement a feature, and explain why it believes the work is complete, but that explanation should not be treated as evidence. Evidence comes from an external check that the agent cannot easily talk its way around. For code, the verifier might be a test suite, type checker, benchmark, browser run, screenshot comparison, or reproducible script. For research work, it might be a held-out evaluation, a reproduced table, a loss curve, or a benchmark score that improves over the baseline. For design work, it might be a reference screenshot plus a visual review step. The verifier is what turns a long-running agent from a confident text generator into a system that can be trusted with more time. Most shortcuts appear at this boundary. If the verifier is vague, the model will often satisfy the easiest interpretation of the task. If the verifier is too narrow, the model may overfit to it and miss the broader intent. A good autonomous workflow, therefore, needs layered verification, with cheap deterministic checks catching basic failures and higher-level review catching judgment-heavy failures. A few of the frontier models can already achieve some level of verification, but based on my research, there is still an evident OOD problem, where if the verification task you assign to the agent falls outside the training distribution, models struggle significantly. Verifiers are still an open area of research, but I anticipate more companies will start to make huge investments in this area. The concept of fine-tuned verifiers is also in high demand in the enterprise. ## Loops Make Autonomy Durable A goal gives the agent direction, but a loop keeps the work alive. This distinction is important because models often stop before the real task is finished. They may hit a turn limit, lose confidence, exhaust context, or decide that a partial solution is enough. The loop is the outer control system. It wakes up, inspects progress, runs checks, compares the result against the goal, and sends the agent back in with the next instruction when the goal has not been met. In its simplest form, this is the Ralph loop pattern with a coding agent and a deterministic condition. In a more flexible form, the loop includes an evaluator agent that can reason about progress and decide what should happen next. Long-running autonomy works as repeated effort under supervision from a control layer, not as one continuous act of intelligence. The agent can still fail, but the loop gives the system a way to notice the failure and continue instead of silently declaring victory. ## Planning Is Where Expertise Enters One of the strongest themes from the session was that planning remains critical. You can ask a frontier model to generate a plan, but you still need to inspect it, challenge assumptions, and make the success criteria sharper before handing the task to an autonomous loop. This leads to a useful division of labor. A stronger planning model can help define the goal, identify missing constraints, and structure the evaluation. A different execution model can then run the implementation once the plan is clear. In practice, this means engineers should stop thinking of "the model" as a single choice. Model choice becomes an architecture decision. Some models are better planners. Some are better executors. Some are cheaper evaluators. Some are better at vision-based review. A good orchestrator lets you swap these roles instead of waiting for one vendor to provide the perfect coding agent interface. ## Visual Artifacts Become Control Surfaces Terminal transcripts do not scale when many agents are running. Once you have several sessions working in parallel, raw text becomes a poor interface for understanding progress. Live artifacts matter because a dashboard with loss curves, benchmark scores, task states, screenshots, cost estimates, and recent decisions gives the human a much better way to supervise autonomy. The artifact becomes the control surface for deciding when to intervene, rather than a report generated after the fact. The most useful pattern is to separate storage from presentation. Markdown or a vault can store durable evidence, logs, notes, plans, and results. HTML artifacts can render that state into something visual and interactive. The agent can search the Markdown, while the human can monitor the artifact. For UI and product work, visual cues are especially powerful. A screenshot reference can communicate design intent more precisely than prose, and a vision-capable evaluator can compare the implementation against that reference. This reduces the common failure mode where the agent technically implements the requested component but misses spacing, hierarchy, alignment, or product feel. ## Session Mining Turns Usage Into Memory Another important insight is that past agent sessions are a rich source of workflow data. If an agent repeatedly fails in the same way, forgets to run the same check, uses the wrong path, or retries the same broken command, that pattern should not stay buried in logs. Session mining turns those transcripts into operating rules. An agent can scan the last thirty days of work, find recurring failure modes, and propose updates to project instructions, vault learnings, or agent rules. This is how a team can gradually improve its harness without manually remembering every mistake. The goal is to make the local environment smarter without training a model from scratch. A small rule in an agent instruction file can prevent repeated failures across future sessions, especially when the rule is specific to the project. ## A Practical Operating Model For AI engineers, the emerging workflow looks like this. - Start with a small, cheap subset before launching the full autonomous run. - Write a goal with measurable success criteria, explicit constraints, and a turn or time budget (where possible). - Separate the executor from the evaluator so implementation and judgment are not collapsed into one role. - Define external verifiers before the long-running loop starts. - Use deterministic checks wherever possible, then add agent review for fuzzy criteria. - Require proof artifacts such as logs, screenshots, benchmark curves, or changed files. - Mine past sessions and promote repeated lessons into project instructions. That is the difference between using a coding agent and engineering an autonomous coding system. One gives you a conversation. The other gives you a harness. ## What Still Breaks None of this removes the hard problems. Agents still take shortcuts. They still stop early. They still overestimate completion. They still produce confident but weak plans, especially on recent papers, unfamiliar benchmarks, or systems outside their training distribution. Trusting them more will not solve this. Better control systems will. Goals, loops, evaluators, deterministic checks, visual artifacts, and session memory are all ways of making autonomy observable and correctable. The direction is clear. The future of coding agents depends on better orchestration around more capable models, where engineers design the conditions under which agents can safely run for hours or days and still produce work that can be verified.

译长期运行编码智能体核心从提示转向控制系统。Elvis Saravia在DAIR.AI Academy session中详解Claude Code的/goal模式：人类指定最终状态、成功证据、约束与预算，目标作为“合同”而非长提示。评估器成为第一类组件——明确任务用确定性检查（测试、lint、基准），模糊任务用智能体评估器（判断报告、UI设计），两者结合降低幻觉。验证器定义信任边界：外部检查（测试套件、类型检查、浏览器运行、截图对比）提供不可绕过的证据。

elvis@omarsar0 · 6月14日53

Notes on the recent session we had related to autonomous long-running coding agents. (bookmark it) Topics: /goal, loop engineering, verifiers, dynamic workflows, and much more. So much to unpack, so I tried to quickly summarize the most relevant parts using my writer agent.

译关于我们最近一次关于自主长期运行编码智能体的会议的笔记。（收藏它）主题：/goal、循环工程、验证器、动态工作流等等。内容太多，所以我尝试用我的写作智能体快速总结最相关的部分。

elvis@omarsar0 · 6月14日65

Own the harness, own the agent orchestrators. Great to see open-source work starting to enable it. Being able to compose and combine multiple agents is clearly the future to avoid model lock-in. Curious how routing works, as that remains unsolved.

译Elvis Saravia 指出，拥有 harness 即拥有智能体编排器，开源正推动这一趋势，多智能体组合可避免模型锁定，但路由仍待解决。@matei_zaharia 开源了 Omnigent，一个位于 Claude Code、Codex、Pi 及各类 agent SDK 之上的元平台，支持构建多智能体编码和自定义智能体，并实现实时协作与丰富的控制策略。

宝玉@dotey · 6月14日26

小孩子才做选择，成年人全都要

译tinyfool 问：现在你选 Claude Code 还是 Codex？宝玉回应：小孩子才做选择，成年人全都要。

向阳乔木@vista8 · 6月13日57

周末开发个娱乐网站，方便大家一键订阅世界杯赛程。 Codex 的Goal指令开发，耗时24分钟。支持个性化日历订阅，按赛程、48 支球队、12 个小组、小组赛订阅日历ICS 有开赛前 30 分钟提醒。明天是不是得6点起床看巴西啊，哈哈哈。立即订阅赛程：https://2026fifa.qiaomu.ai/

译作者用 Codex 的 Goal 指令，耗时 24 分钟开发了一个娱乐网站，提供 2026 年世界杯赛程订阅服务。网站支持个性化日历订阅，可按赛程、48 支球队、12 个小组、小组赛分别订阅；生成 ICS 日历文件包含开赛前 30 分钟提醒。立即订阅链接见推文。

Chubby♨️@kimmonismus · 6月13日70

As I said before: The banning of Fable 5 was the biggest PR boost for open source models and companies.

译Kim指出，封禁Fable 5成为开源模型和公司最大的公关助推。智谱（Zhipu）随即宣布完全开源其最强模型GLM-5.2，支持实际可用的1M上下文窗口，在长程任务独立完成上保持领先，可为复杂智能体应用提供基础支持，并继续作为最强国产编程模型的主引擎。今晚5:21起，GLM-5.2将向所有GLM编程计划用户（Lite/Pro/Max）开放，API下周上线。

向阳乔木@vista8 · 6月13日35

http://x.com/i/article/2065793574067953664 # 小说Skill测试《炉灰命》让Codex写一个小说创作Skill，随机生成了一篇，读起来感觉还行？等我再迭代优化几轮后开源。 --- 韩青抱着一匣炉灰，被人从黑市门口推了出来。他摔在雨水里，青布衣沾了泥，怀里的木匣却护得很紧。守门修士低头看他，笑道：“黑水楼今晚开的是筑基拍卖，不是给你这种炉灰命卖破烂的。” 门口排队的人都在笑。有人看见他腰牌，笑得更响。 “青炉坊杂役？” “就是那个天天掏废丹灰的地方？” “难怪，抱一匣灰当宝。” 韩青从地上爬起来，擦掉嘴角的血。他没有看那些人。他只看着黑水楼门里那盏青灯。灯火三寸，风吹不动。黑水楼规矩，入门者要么有三百灵石，要么有能让青灯变色的东西。韩青没有三百灵石。他有一匣灰。守门修士已经不耐烦：“滚。” 韩青打开木匣，取出一撮灰，撒在青灯前。灰很轻。落下去的时候，灯火忽然一缩。下一瞬，青灯变成赤金色。笑声断了。守门修士脸色一变。门内，一个戴银面具的女子缓缓走出来。她看着那盏灯，又看向韩青手里的木匣。 “你这灰从哪来？” 韩青道：“青炉坊，七号废炉。” 女子问：“烧过什么？” “九炉废丹，三炉毒丹，一炉没成的筑基丹。” 女子沉默片刻，侧身让路。 “请。” 门口的人不笑了。韩青抱着木匣走进黑水楼。走到门槛时，守门修士低声道：“刚才是我眼拙。” 韩青停了停。 “你不是眼拙。” 守门修士一怔。韩青道：“你是嘴脏。” 他没有回头。黑水楼地下三层。第一层卖符，第二层卖器，第三层才是今晚真正的拍卖场。场中三百个座位，坐满了戴面具的修士。楼顶垂着一串黑铜铃，铃不响，说明无人动杀念。铃若响，杀念者会被黑水楼当场拿下。韩青坐在最后一排。他的木匣放在膝上。他今天来，只为一件东西。 “续脉玉脂。” 师父秦老头替他挡过一次炸炉，右臂经脉全断。青炉坊管事说，一个废人留着也浪费米粮，三日后就送去寒矿。续脉玉脂能接经脉。起价五百灵石。韩青只有八十七枚。但他知道，今晚拍卖册上还有一件东西写错了。只要买到那件东西，他就能换续脉玉脂。拍卖开始后，韩青一直没动。灵符，丹药，飞剑，护身玉佩，一件件被人高价拍走。直到第九件。侍女端上一只黑陶盘。盘里放着三枚灰白色丹丸，丹丸表面满是裂纹，像三颗快碎的石子。银面女子道：“无名废丹，出自古修洞府。经鉴定，丹性已散，疑有残毒。起价十枚灵石。” 全场一片哄笑。 “废丹也拿出来卖？” “黑水楼今晚缺钱缺疯了。” “十枚灵石买三颗毒丸，不如买三碗酒。” 韩青抬起头。就是它。他举牌。 “十枚。” 笑声又来了。但这一次，笑声里多了一点兴奋。最后一排的杂役，终于开始丢人了。一个熟悉的声音从前排传来。 “二十。” 韩青的手指微微一紧。那人坐在第二排，白衣金带，脸上戴着玉狐面具。可韩青不用看脸，也知道他是谁。岳临川。青炉坊大管事的亲侄子，内坊弟子，炼气八层。三个月前，七号炉炸炉，秦老头为了救韩青废了右臂。岳临川转头就把责任推到秦老头身上，说他偷改火候。从那天起，秦老头成了废人。韩青成了笑话。岳临川回头看了韩青一眼，声音带笑。 “你不是喜欢废丹吗？我陪你玩。” 韩青道：“三十。” 岳临川道：“一百。” 场中安静了一瞬。一百灵石买废丹，已经不是买东西，是打脸。有人低声笑：“这杂役要哭了。” 韩青看着陶盘里的三枚废丹。裂纹很乱。但乱中有一条细细的银线，从丹底绕到丹顶，像蛇冬眠前留下的痕。别人只看见废丹。韩青看了七年废炉。他知道，那不是裂纹。那是丹衣。真正的药性，被封在丹衣里面。这种丹叫“三息归真”。第一息是毒。第二息是灰。第三息，才是真丹。韩青举牌。 “一百一。” 岳临川笑出了声。 “五百。” 全场哗然。续脉玉脂也不过起价五百。韩青低下头，像被压住了。岳临川靠在椅背上，慢慢道：“韩青，你若现在跪下，说一句青炉坊废物不配争，我可以让你省下这一百一。” 黑铜铃没有响。因为这不是杀念。这是羞辱。所有人都看着韩青。有人等他怒。有人等他跪。韩青却把牌放下了。 “我不争了。” 岳临川笑意更深。 “算你识相。” 银面女子看了一眼韩青，又看岳临川。 “五百一次。” “五百两次。” “五百三次。” 玉槌落下。三枚废丹归岳临川。岳临川站起身，故意转向后排。 “炉灰命就是炉灰命，识得灰，不识得宝。” 韩青没有说话。他只盯着装废丹的黑陶盘。盘底，有一圈淡淡的焦痕。焦痕像一个半闭的眼。他等的不是废丹。是盘。第十件拍品上来。侍女正要把黑陶盘撤下，韩青忽然开口。 “那只盘，卖吗？” 全场愣住。侍女也愣住。银面女子问：“你要盘？” “要。” “这只是盛废丹的旧盘。” “我知道。” 胖修士笑道：“这小子买不起丹，改买盘了。” 岳临川也笑：“韩青，你真让我开眼。” 银面女子想了想：“旧盘不入册。若买，十枚灵石。” 韩青道：“我出十枚。” 岳临川懒洋洋道：“二十。” 韩青看着他。岳临川道：“怎么？你不是要吗？” 韩青沉默片刻。 “三十。” “三百。”岳临川直接道。场中又静了。三百灵石买一只旧盘。这不是打脸。这是把脚踩在人脸上碾。韩青低声道：“岳临川，你已经买了废丹，何必再抢盘？” 岳临川笑了。 “因为我喜欢看你想要，却拿不到。” 韩青的眼神终于变了。他慢慢举牌。 “三百一。” 岳临川道：“一千。” 韩青闭上眼。全场都以为他要放弃。可他再睁眼时，声音很平。 “一千一。” 岳临川脸上的笑淡了一点。这价已经不对了。一只旧盘，一千一。就算是羞辱，也太贵。银面女子看向韩青：“你有这么多灵石？” 韩青把木匣放在桌上。 “我用这一匣灰抵。” 场中有人又想笑。但门口青灯变色的事，已经传进来了。这次没人敢先笑。银面女子亲自走下台，打开木匣。灰是黑灰。看不出什么。她伸出一根银针，探入灰中。银针刚入半寸，针尖忽然烧红。女子手腕一震，银针化成一缕青烟。她抬头看韩青。 “这是丹劫灰。” 四个字落下，场中许多人站了起来。丹劫灰。只有丹药成丹前一瞬，被天火劈断生机，才会留下这种灰。它能验丹、养火、洗炉，对炼丹师来说，比许多灵草还贵。岳临川的脸沉了。银面女子道：“此灰，本楼估价两千灵石。” 韩青道：“我出一千一。” 银面女子落槌。 “旧盘归这位小友。” 盘送到韩青面前时，岳临川冷笑道：“花一千一买盘，你也配谈识宝？” 韩青没有理他。他取出盘，又从木匣里拈了一撮丹劫灰，轻轻撒在盘底。灰落下去，没有散。而是沿着那道焦痕慢慢游动。一圈。两圈。三圈。黑陶盘忽然裂开。裂缝中，一点金光冒出。那光很小，却让整个拍卖场的灵气一滞。银面女子猛地站起。 “停拍！” 全场轰然。盘底裂开后，里面露出一片薄如蝉翼的金色丹膜。丹膜上有九道火纹。每一道，都像活着。一个白胡子鉴师冲上台，声音发抖：“丹母膜……这是能温养废丹的丹母膜！” 有人失声道：“什么价？” 白胡子鉴师喉咙发干。 “若完整，可养三炉筑基丹。残膜也至少值……三万灵石。” 三万。刚才笑韩青的人，全都没了声音。岳临川坐在那里，像被人一掌抽在脸上。韩青把丹母膜收起，忽然看向他。 “你说我识得灰，不识得宝。” 他顿了顿。 “你说对了一半。” 岳临川眼角抽动。韩青道：“宝藏在灰里，所以你看不见。” 黑铜铃轻轻响了一下。岳临川动了杀念。银面女子冷冷看去。 “岳公子，黑水楼规矩。” 岳临川强压怒意：“我只是替青炉坊清理门户。此人是我坊杂役，他身上之物，皆是青炉坊所有。” 这句话一出，场中目光又变了。散修最恨这种话。人是你的，命是你的，连从炉灰里扒出来的东西也是你的。韩青笑了。这是他今晚第一次笑。 “岳临川，你真要说青炉坊？” 岳临川道：“你敢不认？” 韩青从怀里取出一张发黄的纸。那是秦老头被定罪时的炉火记录。岳临川看到那张纸，脸色一白。韩青把纸举起。 “七号炉炸炉那天，你说是我师父偷改火候。” 岳临川厉声道：“闭嘴！” 黑铜铃又响。这次响得更急。韩青不闭嘴。 “可七号炉最后一层灰里，有阴火砂。” 他打开木匣，从最底下取出一撮暗红色灰。 “阴火砂不是我师父能碰到的东西。青炉坊里，只有内坊弟子炼毒丹时才用。” 银面女子看向岳临川。岳临川后退半步。韩青继续道：“三枚废丹上也有阴火砂。刚才你花五百灵石买走的那三枚，不是古洞府废丹，是你们岳家三天前炼坏的毒丹。” 全场炸开。卖假货，在黑水楼是死规矩。岳临川怒道：“你胡说！” 韩青道：“那就验。” 银面女子一挥手，侍女把岳临川刚买下的三枚废丹重新端上台。韩青没有碰丹。他只取一滴清水，滴在第一枚丹上。丹衣裂开。一缕黑气冒出，黑气里隐约有哭声。第二枚，黑气更浓。第三枚丹刚裂，一道阴火猛地窜起，直扑韩青面门。韩青早有准备。他把旧盘残片往前一挡。阴火碰到丹母膜，立刻缩成一粒黑点，被金膜吸了进去。白胡子鉴师大喝：“阴火毒丹！服者三日内经脉枯死！” 场中瞬间杀气四起。 “岳家卖毒丹？” “还敢当古修废丹拍？” “刚才谁要是买了，岂不是买命？” 岳临川脸色惨白。银面女子声音冷得像冰。 “岳公子，解释。” 岳临川猛地看向韩青，眼中满是怨毒。 “是你设局！” 韩青道：“对。” 全场一静。岳临川也愣住。韩青站起身。他的青布衣还湿着，袖口还有门口摔出来的泥。可现在没人觉得他狼狈。他说：“我知道你会抢。” “你从小到大，见不得青炉坊有人越过你。我要废丹，你抢废丹。我要盘，你抢盘。” “所以我先让你买走毒丹，再让所有人看见，毒丹从你手里出来。” 岳临川的脸，从白变青。 “你不是喜欢看我想要却拿不到吗？” 他轻声道：“现在你拿到了。” 拿到了毒丹。拿到了假货。拿到了黑水楼三百双眼睛。也拿到了岳家今晚洗不掉的罪名。黑铜铃忽然大响。不是一声。是七声。岳临川终于忍不住，掌心灵光暴起，直取韩青咽喉。可他的手还没到，银面女子已经出现在他身侧。她只伸出两根手指。一夹。岳临川整条右臂垂了下去。 “黑水楼内动杀念者，断一臂。” 岳临川惨叫。银面女子没有看他。 “售毒丹者，废修为，押入水牢，等买家议罪。” 岳临川被拖下去时，仍死死盯着韩青。韩青也看着他。没有躲。没有笑。直到岳临川的声音消失在地底。拍卖继续。但没人再敢轻视最后一排那个青衣杂役。续脉玉脂上台时，银面女子刚报完起价，韩青便举牌。没有人争。不是没人要。是不敢。谁也不知道，这个抱着炉灰来的少年，下一次又会从什么废物里扒出一个天价秘密。 “续脉玉脂，归韩小友。” 小友。不是杂役。不是炉灰命。韩青收起玉脂，抱着木匣往外走。走到门口时，先前那个守门修士低头行礼。 “韩小友慢走。” 韩青停下。 “我还是炉灰命。” 守门修士脸色一僵。韩青看着怀里的木匣。 “只是你们以前不知道，炉灰里也能烧出真金。” 天亮前，他回到青炉坊。秦老头躺在破屋里，脸色灰白，右臂像一截枯木。韩青把续脉玉脂放到他床边。秦老头睁眼，看见他，第一句话却是： “你又惹事了？” “嗯。” “多大的事？” “废了岳临川。” 秦老头沉默了很久。然后他慢慢坐起来，骂了一句。 “出息了。” 韩青把丹母膜取出。金色薄膜在晨光里轻轻一颤。秦老头脸上的血色忽然退尽。 “这东西你从哪来的？” “黑水楼。” “还有谁看见？” “很多。” 秦老头一把抓住他的手，声音低得发哑。 “韩青，丹母膜不是最值钱的。” 韩青一怔。秦老头指着金膜最深处。那里有一行极细的字。之前在黑水楼灯下，谁也没看见。晨光一照，字像从金里浮出来。韩青俯身去看。只有六个字。 “三息之后，开炉。” 屋外，青炉坊的晨钟响了。第一声落下时，韩青怀里的木匣忽然自己打开。第二声落下时，那一匣丹劫灰无风自起。第三声落下时，七号废炉方向，传来一声沉闷的炉鸣。像有什么沉睡了很多年的东西，终于醒了。

译Codex 生成的小说创作 Skill 测试，随机生成了小说《炉灰命》。作者读后感觉还行，计划在迭代优化后开源。

数字生命卡兹克@Khazix0918 · 6月13日71

http://x.com/i/article/2065786589650026496 # 实测GLM-5.2，国产Coding模型的又一座新高峰。最近整个世界的魔幻程度，真的让人唏嘘。今天早上，Anthropic收到了美国商务部的一封信。信的内容很简单，以国家安全为由，要求Anthropic立刻暂停所有外国公民对Fable 5和Mythos 5的访问权限。而且不只是美国境外的用户，也包括美国境内的外国公民，甚至包括Anthropic自己公司里的外籍员工。然后Anthropic做了一个让所有人都没想到的决定，为了确保合规，直接把Fable 5和Mythos 5对所有用户全部关停，老美自己也用不了了。 X上直接爆了5000万的阅读。这个事引起了轩然大波，全网直接爆了。我中午睡醒一看，心都凉了半截，因为Claude fable 5在纯粹的代码执行能力上，我觉得其实Opus 4.8和GPT 5.5也能干，但是他的方案构建能力、架构能力、产出的完整度和全面程度，是任何一个模型都比不了的，刚刚让它帮我完成了AIHOT精选算法的优化，还有移动端的全面适配和重构，今天刚准备开发完小程序，直接就没了。。。仅仅4天，这个号称全世界最强的模型，就被召回，全面下线。再结合这次世界杯强调全球大团结的背景之下，一个索马里的世界杯裁判在美国被禁止入境，从而缺席世界杯赛场。这个世界的格局，好像越来越不一样了。好像，也越来越封闭了。就在我们落寞的看待着这一切的时候。下午2点19，智谱突然发了一篇公告。 “在一些前沿模型突然变得不可用的时刻，我们选择相信另一条路：前沿智能不应只属于少数人，也不应被少数规则随时收回。它应该开放、可用、可构建，并服务于每一位开发者。” 我的朋友圈瞬间就被刷屏了。而且这一次，GLM 5.2，继续开源。 GLM 5.1的口碑，在技术圈和AI圈的口碑有多好就不需要我再复述了，基本上是公认的国产之光，为数不多的能跟Claude和GPT掰掰手腕的模型，在Coding和Agent能力上，也是我给所有用不了海外模型的朋友，都推荐的首选模型。要不是因为算力限制，国内几乎都没有卡，无论是训练还是推理，几乎都比国外少N个数量级，我真的觉得，像智谱、DeepSeek之类的，是绝对能做出不亚于海外那两家公司的模型的。这一次非常的事发突然，看到他们发布的时候我甚至还在外面吃饭，下午的事都推了，急急忙忙赶回家，还好我的Coding Plan还在，然后拿到了GLM 5.2的权限。这里说一下，今天GLM 5.2上线的是智谱的Coding Plan，你可以把Coding Plan理解成Claude和GPT的订阅，也就是你只有订阅过的用户才可以使用。下周会上线API方式，并且会直接开源出来。而且今天他们5点21上线的这个时间点也非常的有梗。因为Anthropic是5点21收到的信，所以，智谱选择5点21开放。一边在关门，一边在开门。一边说前沿智能是国家安全风险，一边说前沿智能属于所有人。真的能笑死，戏剧性也属实是拉满了。 Coding Plan稍微蛋疼一点的就是，他们的算力太少了，没办法支持所有用户的推理请求，所以Coding Plan只能限额，也就是这个玩意你想买，是需要靠抢的。。。所以如果想用的，记得每天早上定个10点的闹钟，去抢一下。我自己在测完和跟一些朋友对完之后，我想说，这就是国产模型的新高峰，至少在我的层面，除了算力资源问题，会显得很慢之外，在纯粹的结果上，只要你不是强设计类型的东西，GLM 5.2做任务跟Opus 4.8好像差的也不多。在大型工程、长任务、后端等等上面，很强，非常强。差距我觉得其实就在前期方案的先进和完整度、还有设计的差别上。优点就很多了，GLM 5.2输出的东西我看的懂，能聊的明白，幻觉极低，稳如老狗，而且这次整个上下文长度终于加到了1M，这就很棒了。在测试过程中，400～500k左右的上下文长度左右，准确性和指令遵循跟Claude差距不是很大，非常的稳，我写的Claude.md到了400K这个长度的时候也能遵循没啥问题，我自己一般喜欢在这个位置用我的洁癖.skill手动存档，再往后比如500k～1M的这个区间，我一般很少会涉及到了。最最最可惜的是，GLM 5.2，还是没有多模态，依然是个纯文本模型。干活程度也没啥毛病，我的评价是更像一个勤勤恳恳的老黄牛，活肯定能给你干好，它的聪明程度肯定还比不上Claude Fable 5这种级别，跟Opus 4.8的聪明程度也差一点，但是也已经非常好了。举个例子，我今天AIHOT上的一个小任务。就是我前段时间为了自己的学习，也为了省一点自己的时间，所以用一些有趣的手段，监控了一些我常看的公众号方便我第一时间知道信息，但是呢，今天发现了一个BUG，就是智谱的公众号是我监控了的，今天的GLM 5.2的消息是2点19发的，但是在AIHOT里，居然没监控到，等到4点的时候，智谱发了X，才看到。这就很奇怪了，于是我把这个问题，直接让GLM 5.2试了一下。其实在它去解决的过程中，我已经大概知道是什么原因了，前段时间切换了监控方案，现在是两个监控方案线上灰度并行，大概率是我们后来切换的一个三方API账户里没钱了，我前天就想着要充来着，但是忙忘了。不过也正好，这么个小事，可以看一下模型的聪明程度，我这个项目大概10万行代码，因为有各种监控和调度，所以后端逻辑会稍微复杂。随后GLM 5.2找到了这个问题，其实本质上是智谱好几天没发文章了，跟我们抓取的体系没啥关系。。。然后他就沿着这条路推了下去，以为是我们整个监控体系BUG了。终于找到了答案。然后问我要不要做个监控。全程耗时21分钟。 Claude Opus 4.8的思考过程和GLM 5.2几乎一模一样，唯一的区别是，我在fast模式下，6分钟干完的，不开fast正常差不多也就是10分钟。也就是说，Claude Opus 4.8比GLM 5.2快了两倍，但是过程和结果，是一模一样的。这个本质上就是infra和算力的差距了，属于基建问题了。随手又让GLM 5.2干个后续。因为我的文档和记忆是极度规范的，也有一个专门的飞书报警群，通过飞书的机器人进行推送。所以我相信GLM 5.2肯定是可以完成的，其实就看这个任务他能不能最短时间内找到余额报警的方式，再找到我的群，然后把这个事干完。补流程+查代码文档+开发+走测试+合并+洁癖.skill迭代记忆和文档，完美完成，花了26分钟。验证没问题。然后，我又让他去干了一个稍微大点的活。直接把我们AIHOT的官网，转成一个小程序，这个本来是我今天想用fable 5做的，结果fable 5用不了了，那就直接用GLM 5.2来吧。。。 Prompt就是直接把小程序的开发目录扔进去，又扔了小程序的开发文档，然后说，帮我把AIHOT做成小程序版。 GLM 5.2一顿研究后，问了我2个问题。我无脑点了第一个。然后，他就开始列计划，列完计划以后，开始并行4个Agent，来进行开发。在大概40分钟以后，小程序干完了。 BUG倒是没啥BUG，各个地方都能点，也没啥报错的，该有的功能和信息也都有，就是，真的丑啊= = 底tab栏还有小BUG，背景没了，tabbar的适配没做好，调了一下才改好。不过在其他的逻辑展示、接口调用之类的，几乎没有任何问题，GLM 5.2这个模型，在做一些稍微大一点的任务上，是真的稳如老狗。这个真想做成完整的小程序的话，肯定还是要对着UI一点点细调的，跟Claude相比，无论是Fable还是Opus的省心角度，确实还是差了一些。设计审美的差距，我觉得只有GLM啥时候把多模态能力补上，才会有质的飞跃的了。然后我就让GLM 5.2用Three.js又做了一个未来我们社群想搞的一个线上的游戏化营地，这是一轮出的效果。也可以看出来，稳定性啥的都没问题，就是这个审美，只能说能用，但是你要说多漂亮多精致，那肯定还是有一些差距的。 Skill的构建也是模型现在很重要的一环，我也拿之前清理电脑那个skill来做了一下测试。这也是从0开始，用嘴复刻构筑，最终的感觉，跟Opus 4.8开发的Skill基本上也没啥区别。可以看看效果。在我有限的时间体验下，GLM 5.2整体其实是非常惊喜也超乎我预期的。只要你刨除掉审美和多模态这个因素，在我的体验中，它是真的可以和Opus 4.8掰掰手腕的。至此，我觉得国产两个模型现在极度值得大家使用。只要是涉及到Agent和Coding的，无脑推荐使用GLM 5.2 + Claude Code框架，这就是目前你在国内用到的最强的组合了。如果是涉及到一些诸如策划、写作之类的泛知识任务，无脑推荐你使用DeepSeek V4 Pro，这是目前我认为世界知识最棒的模型。智谱在今天公众号文章的结尾，写了两行英文。 A step closer to frontier intelligence for everyone. The future of AI is open, and it is for the people. 向前沿智能再近一步，为每一个人。 AI的未来是开放的，它属于所有人。我觉得这两句话，放在今天这个语境下，格外令人感慨。 2026年的AI赛道，每天都在上演让人目瞪口呆的事。一边在筑墙，一边在铺路。但是我还是始终坚信。这些墙在汹涌向前的洪流之下，必然会倒塌。智能，应该是献给所有人的。新时代，一定会到来的。

译美国商务部以国家安全为由要求Anthropic限制外国公民访问Fable 5和Mythos 5，Anthropic直接关停两模型。同日智谱发布GLM 5.2并开源，推出需抢购的Coding Plan，下周上线API。实测：上下文窗口扩至1M，400-500k长度准确性和指令遵循与Claude差距不大；代码工程能力极稳、幻觉低；小型任务21分钟结果与Opus 4.8相同但速度慢约两倍。缺憾：纯文本、无多模态、推理慢。作者认为这是国产Coding模型新高峰，推荐GLM 5.2 + Claude Code框架。