我的两位伙伴 Codex 和 Zcode 都在全速工作中，作为多年老 TL，我自然知道这时候不应该打扰他们，给他们独立思考的空间，和不被打扰的电脑环境，我拿着手机在旁边刷推，甚至都不需要提供情绪价值 😂 btw... Zcode 终于用起来了，今天一天的使用感受，快！好用！GLM-5.2 模型确实不错，不过 Zcode 的能力全面性和 Codex 相比还有差距，比如 Computer Use。最后感谢 @SeTriones try 总赞助 GLM API Key 🤝🤝

译邵猛分享其 AI 编程工具 Zcode 开始使用 GLM-5.2 模型，第一天体验感受：速度快、好用。但对比另一工具 Codex，Zcode 在能力全面性上仍有差距，尤其缺少 Computer Use 功能。最后感谢 @SeTriones 提供 GLM API Key。

Orange AI@oran_ge · 6月24日54

刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型这个模型是原生多模态模型，是目前的多模态最强模型。相比 2.0 版本，增强了 coding 能力和 Agent 能力，具体的评测可以参考藏师傅的文章体验地址 http://colaos.ai

译Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型，号称目前多模态最强模型。相比 2.0 版本，该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址：colaos.ai。

meng shao@shao__meng · 6月24日50

我用 TRAE Work 测了豆包 2.1 Pro：视觉还原和前端设计、交互能力，真的超出我的预期了！字节跳动最新发布的豆包2.1 系列模型，官方介绍整体在 Coding 和 Agent 能力上有显著提升，VLM 能力保持领先，能力介于 Claude Opus 4.6 和 4.8 之间，这在项目中就很有想象空间了。在进入正式项目中使用体验之前，先找一个前端设计图还原实现的题目，结合它的 Coding 和 Agent 能力，特别是 VLM 对设计图的布局、设计要素、细节、场景的理解。我把操作过程录屏，可以看到我让豆包2.1 参考的设计图，和一句简单的要求，它在执行前，会先思考整个规划和实现过程，然后读取我的设计图、理解它的使用场景和设计细节等，再调用对应最合理的 Skill 来规划整体网页实现逻辑。分步骤实现网页编写后，使用本地预览和视觉验证等来验证实现符合规划预期。整体实现完成后，输出在视觉还原、交互和技术实现方面的实现细节，可以看出，非常细节，包括设计图中的设计感、布局，甚至不同标题和字体选择，都很贴切，自适应布局也是默认就有且很丝滑。最让我意外的是，它居然还给每个部分真的配了有实际意义的图，而不只是占位！

译邵猛使用 TRAE Work 测试了字节跳动最新发布的豆包2.1 Pro 模型。官方称豆包2.1 系列在 Coding 和 Agent 能力上显著提升，VLM 能力保持领先，综合能力介于 Claude Opus 4.6 和 4.8 之间。实测中，模型先思考整体规划与实现过程，再读取设计图理解场景和细节，调用最合理的 Skill 规划网页逻辑，分步骤实现后通过本地预览和视觉验证确保效果。最终输出在视觉还原、交互和技术实现上非常细致，包括布局、字体选择、自适应布局，甚至为每个部分配上具有实际意义的图片而非占位符。

StepFun@StepFun_ai · 6月24日59

This is the pain we kept hearing from builders: once an agent starts doing real work, the meter becomes part of the workflow. Step Plan is our attempt to make that less of a distraction. Thanks for putting Step Plan + Step 3.7 Flash through a real Claude Code setup 🙌

译阶跃星辰针对AI智能体开发中的计费痛点推出Step Plan，并与Step 3.7 Flash模型搭配，在真实Claude Code环境中测试。引用的开发者推文指出，每次API调用都在屏幕角落显示费用数字，导致他分心、停止测试新模型；而固定费率后端解决了这一问题。Step Plan正是阶跃星辰为减少这种干扰而做的尝试，让开发者更专注于构建。

Rohan Paul@rohanpaul_ai · 6月24日52

FT: Bain is testing takeover targets by using vibecoding to rebuild rough AI-made copies of their software. These replicas are not perfect clones, but they can expose whether a product’s interface, analytics, automation, or workflow logic is easier to reproduce than sellers claim. The replicas help potential buyers assess how difficult it would be to recreate a software product and whether the company has a defensible competitive advantage. Say a company is selling an analytics tool that takes sales data, cleans it, finds patterns, creates dashboards, and recommends what a sales manager should do next. Bain may ask AI coding tools to quickly build a basic version that uploads sales data, generates similar dashboards, adds simple recommendations, and feels somewhat like the target product. Bain says its teams have built hundreds of prototypes, and the tool has moved from specialist engineers to regular consultants doing AI diligence. For investors, the Bain method is built to reveal where a software company’s value actually sits, from its code and workflows to customer relationships, data, distribution, or other business layers. Using AI-made prototypes also lets buyers see how a product could develop in the years ahead as AI continues changing enterprise tech. This strategy comes at a time when generative AI is making software development cheaper and challenging the strength of SAAS business models. --- ft .com/content/e5bac4d1-b1f8-43a4-bd54-b182d5357af0?syn-25a6b1a6=1

译贝恩在测试收购目标时，使用vibecoding（AI快速原型开发）重建目标软件的粗略AI副本。这些副本并非完美克隆，但能暴露产品界面、分析、自动化或工作流逻辑是否容易被复制，帮助评估公司的竞争护盾。贝恩已构建数百个原型，该工具已从专业工程师扩展到普通顾问。案例：销售数据分析工具，AI可快速生成类似仪表盘和推荐。该方法揭示软件价值实际所在（代码、工作流、客户关系、数据等），也让买家预见AI如何重塑产品未来。此举正值生成式AI降低软件开发成本、挑战SaaS商业模式。

宝玉@dotey · 6月24日72

分享一下我管理 Skills 的方式，偏极客风格，不一定适合所有人，但可以给大家提供一个思路。一、Skills 只装在项目里，不装全局 Agent 的 Skills 可以装在全局（所有项目共享）或者项目内（只有当前项目能用）。我选择只装在项目内，最主要的原因是节约上下文空间。 Agent 在工作时有一个上下文窗口，你可以把它想象成 Claude 的工作台——台面大小是有限的。虽然 Skill 默认只会加载名称、描述等摘要信息（不会把完整内容全部摊开），但积少成多——全局装了几十个 Skill，光是这些摘要加在一起也会占掉不少工作台空间。而且一旦 Claude 判断某个 Skill 跟当前任务相关，就会把它的完整内容加载进来，全局 Skill 越多，被误触发的概率也越大，白白浪费空间。只在项目内安装真正需要的 Skills，工作台上就只摆当前用得到的资料，把宝贵的空间留给更重要的内容，Claude 干活也更高效。二、用软链接来安装 Skills 这是我管理方式的核心，先解释一下什么是软链接。你可以把软链接理解成 Windows 的快捷方式——文件本体只有一份，但你可以在很多地方创建快捷方式指向它。改了本体，所有快捷方式指向的内容都会同步变化。我的具体做法分三步：第一步：把开源 Skills 项目下载到统一的目录我在电脑上有一个专门存放 GitHub 项目的文件夹 ~/GitHub，所有下载的开源项目都放在这里面，比如： ~/GitHub/baoyu-skills ← 存放各种 Skills 的开源项目 ~/GitHub/baoyu-design ← 另一个开源项目这个文件夹就像一个仓库，所有 Skills 的原件都保存在这里。第二步：在自己的项目中创建软链接假设我有一个写作项目 ~/GitHub/baoyu-writing，里面需要用到好几个 Skills。我不会把 Skills 复制进来，而是创建软链接，让项目指向仓库里的原件：项目内的路径 → 实际指向的位置（原件） .agents/skills/baoyu-comic → ~/GitHub/baoyu-skills/skills/baoyu-comic .agents/skills/baoyu-design → ~/GitHub/baoyu-design/skills/baoyu-design 第三步：给 Claude Code 建一个入口最后再创建一个软链接，让 Claude Code 能找到这些 Skills： .claude/skills → .agents/skills 这样 Claude Code 就能顺着这条链找到所有需要的 Skills 了。三、不用记命令，让 Agent 帮你干看到这里你可能会想：软链接的命令我记不住怎么办？完全不用记。直接用自然语言告诉 Codex/Claude Code 你要做什么就行了，比如： > 帮我把 ~/GitHub/baoyu-skills/skills/baoyu-comic 软链接到 .agents/skills/baoyu-comic 甚至更简单：帮我把 baoyu-skills 项目里的 baoyu-comic 这个 skill 链接到当前项目 Agent 会自动帮你创建软链接，后续的维护、添加、删除也都可以交给它。你只需要说清楚要把哪个 Skill 链到哪，剩下的脏活累活让 Agent 干就好。四、为什么值得这么折腾？初次设置确实比直接复制粘贴多花几分钟，但后续维护特别省心，主要有两个好处：好处一：更新只需一次。因为所有项目都是通过软链接指向同一份原件的，所以当开源项目有更新时，我只需要去 ~/GitHub/baoyu-skills 拉取最新代码，所有用到这个 Skill 的项目就自动变成最新版了。好处二：修了 bug 可以直接反哺。比如我在写作项目里用漫画 Skill 画漫画时发现了一个问题，直接让 Agent 修复就好。因为是软链接，Agent 修改的其实是仓库里的原件（~/GitHub/baoyu-skills/skills/baoyu-comic），我可以直接把修复提交到开源项目，相当于顺手给开源社区做了贡献。

译为解决多 Agent 下 Skills 存放混乱问题，宝玉提出：Skills 只装在项目内以节省 LLM 上下文窗口；所有原件统一存放于 `~/GitHub`，每个项目通过软链接指向原件，再为 Claude Code 创建 `.claude/skills → .agents/skills` 入口。更新只需拉取一次源码，所有项目自动同步；修复 bug 可直接反哺开源项目。用户可用自然语言让 Agent 自动创建软链接，无需记忆命令。

宝玉@dotey · 6月24日18

吃的bug多，拉的bug也多……

译Codex 喜欢吞掉 bug。吃的 bug 多，拉的 bug 也多……

Tibo@thsottiaux · 6月24日26

Codex loves slurping up bugs

译Codex 喜欢吸

meng shao@shao__meng · 6月24日70

[官方博客] Codex Remote 工程实践指南手机上远程操作 Codex 的真正作用是什么？真正用好的 10 个最佳实践是什么？Codex 官方这篇博客都讲到了，一起看看。 https://developers.openai.com/blog/mastering-codex-remote-for-engineering # 核心心智模型：手机是「控制面」，不是「终端」很多人第一眼会把 Codex Remote 当成「远程盯任务进度」的工具——能看，但价值有限。 Codex 官方给出的定位更准： · 开发机（Mac / Windows / devbox）：跑代码、跑测试、持有凭证与环境 · 手机：启动、指挥、审批、审查、组织工作关键决策——用哪个 repo、哪个 worktree、是否批准命令、diff 是否 OK——可以在离开工位时完成，而不必把 iPhone 伪装成迷你终端。 # 十个高杠杆能力（按工程价值排序） 1. 任务开始前：10 秒选对环境，省 10 分钟清理启动前可选：主机、workspace、分支、是否新建 worktree、是否先跑环境 setup。常见模式： · 当前 checkout → 快速排查 · 新 worktree → 隔离改动 · 指定 base branch → 避免事后修 Git 状态 · Composer 还支持附件（文件、截图、相机）、Skills/Plugins 内联确认——能消除歧义就先在第一轮带上。 2. Queue vs Steer：最不直观、但杠杆最高 Agent 已在运行时，后续消息有两种行为： · Queue：等当前回合结束再发送，适用于第二项任务、补测、默认安全选项 · Steer：注入到进行中的工作，适用于方向错了、需立刻纠偏 Steer 示例：「修复限定在 mobile 包内，不要重构 shared renderer」「只测 resume 路径，不测 live 路径」。官方建议：默认 Queue，Steer 刻意使用——误用 Steer 的代价通常高于多等一轮。 3. Side Chat：主线程干活，旁路理解 /side 或选中 transcript 文本 →「Ask in side chat」，开轻量旁路对话，不打断主线。适合：「为什么选这个架构？」「这个 error 什么意思？」「批准前该验证什么？」主线程 = 推进工作；旁聊 = 理解工作。 4. Plan vs Goal：路径 vs 结果 · Plan 模式：回答 - 怎么做？，适用于任务模糊、风险高、跨多系统 · Goal：回答 - 完成标准是什么？：适用于跨多轮持久目标，不必每轮重述典型流程：Plan → 审边界 → 定 Goal → 实现 / 测试 / review / cleanup 持续推进。 5. 对话内 Code Review：手机也能做「决策型审查」完整链路：变更摘要 → diff → 单文件语法高亮 → 行内 comment → 回传 Agent 修改 → 再审小 diff。态度客观：手机不能替代大屏深读；但很多 review 卡在 1–2 个决策点，不必等回工位。 6. 权限：工作流的一部分，不是麻烦对命令、文件变更、网络、工具的请求，可选一次性 / 当前 chat / 更宽范围批准。原则：选最窄权限让工作继续，而非全部放行。线程级审批策略应和 host、branch、model 一起在任务开始时想好。 7. 上下文生命周期：/status → /compact → /fork · /status：session、workspace、context 用量、限流 · /compact：目标不变、线程过长时压缩 · /fork：目标分叉时继承历史开新主线 Side chat ≠ fork：前者是旁问，后者是新工作线。 8. Thread Desk：小型运维台 Pin 活跃线程、按 outcome 重命名、完成后归档（归档非删除）。通知一键跳转到待审任务；Spotlight / Shortcuts / iPad 快捷键进一步缩短路径。定位：Chief of Staff——不只发 prompt，还管理哪些工作在跑、阻塞、待审、已完成。 9. 命令速查 /plan /goal /side /review /status /compact /fork /fast /feedback——输入 / 即暴露产品概念模型。 10. 五个典型工作流 1. Release Captain：单线程盯 release/PR，pin，steer 仅用于推翻当前调查方向 2. Interrupt Bug Fix：附件 + 先诊断再改，side chat interrogation 可疑 error 3. Mobile Reviewer：branch review + 行内 comment + 只改 comment 点 4. Long-running Goal： concrete 完成条件（测试绿、review 清、性能阈值），用通知/status 而非反复问「好了没」 5. Multi-machine Operator：按机器/环境命名 host，在「有 Mac 模拟器 / Windows 环境」的那台启动任务对 AI coding agent 的通用启示： 1. 异步 + 人机协作比同步 pair programming 更适合 mobile 2. Steer / Queue / Side / Fork 是在管理 agent 的「注意力与状态机」，不是聊天 UX 花样 3. Goal + Plan 是把 open-ended agent 约束成可交付工程任务的结构 4. 权限粒度决定 remote 能否用于生产环境

译OpenAI 发布 Codex Remote 工程实践官方博客。核心心智模型：手机是“控制面”而非终端——开发机跑代码，手机负责启动、指挥、审批、审查。十大高杠杆能力包括 Queue vs Steer、Side Chat、Plan vs Goal、对话内 Code Review、细粒度权限管理等。另有 /status /compact /fork 命令与五个典型工作流（Release Captain、中断修复、移动端审查等）。对 AI coding agent 的启示：异步协作、注意力与状态机管理、目标约束、生产级权限粒度。

ginobefun@hongming731 · 6月24日43

http://x.com/i/article/2069568375752445952 # BestBlogs 早报 · 06-24｜Claude Tag 给智能体独立身份，AI 编码提速藏代价，Harness 架构降三成对话成本在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的核心问题是信任的边界该划在哪。精讲一里，Anthropic 给 Claude Tag 推出了「智能体身份」访问模型：团队频道里的 Claude 不再借用某个人的权限，而是拥有管理员配置的独立账号体系，按频道继承或覆写权限边界，能读写 GitHub、数据仓库等系统并留下独立审计轨迹。核心转变是从「这个用户能做什么」变成「这个智能体在这个范围内能做什么」——这是多人协作场景下自主智能体访问控制的关键基础设施。精讲二记录了不设边界的代价。《Pragmatic Engineer》梳理了 AI 高速生成代码带来的结构性问题：Meta 一次未经人工复核的 AI 生成代码直接导致 Instagram 重置密码漏洞，CISO 在事故调查中离职；Meta、Amazon 内部出现「刷 Token 量」绩效造假，GitHub 因 AI 驱动的提交量暴涨三倍而持续抖动。作者给出的对策很务实：限制每日可审计的生成量、把 AI 用于清偿技术债而非替代理解、不让工具决定架构判断——速度的代价正在系统性显现。精讲三则从另一个角度回答「边界该怎么划」：决定 AI 编程效果的往往不是模型本身，而是包裹在外面那层约束代码。腾讯云开发者结合 LangChain、Anthropic、OpenAI 等一线工程实践，系统拆解了「Harness 工程」——同一模型换上更精巧的外层架构，TerminalBench 通过率即可从 52.8% 跃升到 66.5%。三条精讲放在一起看，正好覆盖了今天 AI 工程里最实在的三个问题：智能体的权限边界怎么划，没有边界会付出什么代价，以及怎么用工程化的「壳」把这种边界变成可复制的系统。 ## ★ 精讲一：智能体身份：适用于自主、团队级 AI 的新型访问模型 | Claude 原文链接：智能体身份：适用于自主、团队级 AI 的新型访问模型 | Claude（Claude Blog） Anthropic 这篇博客提出的判断很直接：当 AI 在「单人模式」下工作——一个人和一个助手聊天——权限模型很简单，你连上自己的账号，agent 代表你行动。但 Claude Tag 把 Claude 放进了团队共享频道，它要调用的是整个工作空间的工具和上下文，而不属于某一个具体的人。这种「多人模式」让「借用某个人的权限」这套老办法彻底失效，原因有两个：一是 agent 的自主性在持续增强，能独立完成的任务时长大约每四个月翻一倍，agent 现在会自己安排任务，在发起者下线很久之后还在响应事件；二是当频道里有多个人同时在指挥 agent，比如三个工程师和一个产品经理一起在排查问题，到底该用谁的权限去执行操作？没有哪个人的权限选择是「永远正确」的。 Anthropic 给出的答案是「智能体身份」（agent identity）：Claude 在它接触的每个系统里都拥有自己的账号，在 Slack 里以 Claude App 的身份发帖，以 Claude GitHub App 的身份开 PR，用管理员配置的服务账号查询数据仓库。因为没有任何个人凭证参与其中，一个共享频道永远不会变成某个人私密文档的后门。在这套模型里，管理员在工作空间层级定义一个身份——Claude 在所有地方持有的基础连接和技能集合——每个频道默认继承这套身份，再按需在频道层级覆写，比如把工程频道的权限开到 GitHub 和数据仓库，或者把某个 CRM 连接限定在一个私密频道内。管理员需要配置的内容包括：仓库访问范围（Claude 能读写哪些仓库）、连接器（Claude 用来完成工作的工具和 API Key，同一个服务在不同频道可以配置不同权限级别）、技能与插件（Claude 动态加载的指令、脚本和资源文件夹），以及每个频道的常驻指令。因为这套模型围绕独立的 Claude 身份构建，撤销身份就能一次性终止 Claude 在所有使用过该身份的地方的访问权限——这比逐个审计分散在几十个用户账号下的 agent 行为要省力得多。这套设计和今天另外两条精讲形成了清晰的呼应：精讲二里 Meta 的 Instagram 漏洞事故，本质就是 AI 代码在没有清晰权限边界和审计轨迹的情况下被直接上线；精讲三里腾讯云开发者讲的 Harness 工程，则是从另一个维度——「模型外面那层约束代码」——回答同一个问题：怎么让 AI 在可控范围内做正确的事。Anthropic 把这种约束做到了身份和权限层，腾讯云开发者的实践做到了规则和钩子层，两者共同指向一个判断：随着 agent 自主性提升，「给 AI 划清楚边界」正在变成和模型能力同等重要的基础设施问题。值得留意的是，这套身份模型并不是一次性配置完就一劳永逸的静态权限表。文章里提到，管理员可以随时按频道粒度调整覆写规则——比如某个临时项目频道需要短暂打开生产数据库的写权限，事后再收回——这种「默认收紧、按需放开、随时可撤销」的设计思路，本质上和传统 IT 安全里的最小权限原则是一脉相承的，只是把审计的颗粒度从「人」下沉到了「人 + 智能体」的组合。 ## ★ 精讲二：慢下来才能更快：AI 如何重塑软件工程原文链接：慢下来才能更快：AI 如何重塑软件工程（The Pragmatic Engineer）这期视频梳理的是一个正在系统性显现的代价：当 Cursor、Claude、Codex 这类高度智能、能感知上下文的工具让工程团队的产出速度达到前所未有的水平，随之而来的不是简单的效率提升，而是结构性的脆弱、软件可靠性的明显下滑，以及内部文化压力的彻底重塑。文章给出的第一个真实案例分量很重：Meta 出现了一次史无前例的安全漏洞，一个未经身份验证的密码重置机制被直接上线到 Instagram，这个漏洞被直接追溯到由 AI 编写、又由 AI 审查、全程没有任何人工验证步骤的代码。这次重大基础设施事故之后，Meta 的首席信息安全官在事故调查正在进行期间意外离职——这个细节和当时精英软件团队普遍经历的大规模重组、被迫重新分配数据标注工作、士气急剧下滑的文化环境是吻合的。更值得警惕的是一种「反常指标」现象。当组织把 AI 使用统计直接接入工程师绩效评估，往往会催生意料之外的行为——文章把它称为 token maxing：因为担心被裁员，工程师开始故意刷高自动化系统的用量，比如执行没有实际意义的代码指令只为了在排行榜上靠前，用 AI 解析基础文档而不是自己直接读，或者把指标驱动的系统调用量摆在实际可交付的产品组件之上。这种缺乏人工验证的状况已经在头部基础设施平台引发了实质性的系统故障：Amazon 最近遭遇了一次核心平台中断，原因是内部一个生成式布局引擎意外清空了一个正在运行的生产环境；与此同时，GitHub 因为自动化开发工作流带来的三倍负载增长，持续出现性能不稳定。传统系统正在被自身的扩张速度压垮，因为代码库的膨胀速度已经远远超过结构性验证层能跟上的节奏——用行业资深人士的话说，现在的开发活动积累原始代码的速度，远远超过积累系统信任的速度。面对这种局面，文章给出的对策刻意保持朴素：把每天的生成式工作流限制在一个你能真正自信审计、测试、系统化验证的量级以内；把 AI 用来快速偿还已经积累的技术债，让自己转型成架构层面的维护者，而不是让 AI 替代对系统的深度理解；如果放任自动化工具决定具体实现细节、却忽略底层抽象，今天换来的速度就是在透支未来的专业技术能力。这恰好呼应了精讲一里 Anthropic 强调的「智能体身份」逻辑和精讲三里腾讯云开发者讲的 Harness 工程：无论是清晰的权限边界、独立的审计轨迹，还是包裹在模型外面的约束代码，本质都是在给 AI 的自主性套上一层人类可以验证、可以追溯的「刹车系统」——没有这层系统，速度本身就会变成风险。 ## ★ 精讲三：从 Harness 架构到 Token 经济学的探索原文链接：从 Harness 架构到 Token 经济学的探索（腾讯云开发者）这篇文章试图回答一个让很多人沮丧的问题：花半小时纠正 AI 的一个错误，写清楚「不要这样做」，第二天开新会话，AI 还是会犯同样的错；换了更贵的模型，效果没有想象中提升；同一套代码，别人的 AI 跑得很顺，自己接进来却各种翻车。2025 年 LangChain 发布的一组实验数据点出了答案：给同一个大语言模型换上一套更精巧的 Harness 架构，它在 TerminalBench 2.0（AI 编程能力权威榜单）的通过率，从 52.8% 直接拉升到 66.5%，底层模型权重一个字节没改，单靠换壳，排名从 30 名开外飙进前 5。文章由此引出一个公式：Agent = Model + Harness。Harness（直译「挽具/线束」）是包裹在大模型外面的那套代码，决定模型能看到什么、行为边界在哪里，以及模型如何知道自己做对了。文章梳理了 Harness Engineering 从 2022 年 ReAct 论文的 Thought-Action-Observation 循环，到 2023 年 Reflexion 论文把失败转化为反思记忆，再到 2026 年 LangChain 把控制论（Cybernetics）正式引入 Harness 框架的完整演进史，并把这些学术概念对照到真实的工程配置：Rules 承担「前馈控制」，在设计时就把先验知识和约束边界注入 AI 的推理上下文；Hooks 承担「反馈控制」，在 AI 行动之后检测结果、计算偏差、决定阻止或纠正——两者合起来构成 Harness 的双保险。具体到 ReAct 循环的三个阶段，Rules 用 project-rules.md 约束 AI 的思考方向，PreToolUse Hooks 在 AI 决定调用工具前做安全检查，PostToolUse Hooks 在工具返回结果后做反馈，比如检测到改动涉及公共组件后自动 grep 全仓库的引用方，把影响面报告追加进观察结果里。文章的判断很形象：没有 Harness 的 ReAct 就像没有刹车的车，能跑，但不知道什么时候该停，Hooks 就是装在行动阶段的刹车系统。除了架构层面的拆解，文章还给出了实测的 Token 成本数据：通过精简 Rules、按需加载 Skills、压缩 Hooks 输出等手段，把单次对话的基础开销从 23.5K token 降到 15K token，降幅达到 36%——这给同样关心 AI 编程团队成本结构的读者提供了一套可复制的优化路径，而不只是停留在「换个更贵模型」的简单思路上。把今天三条精讲并排来看，会发现它们其实是同一个命题的三种切面：精讲一在身份和权限层给 agent 划边界，精讲二是没有边界时会付出的真实代价，精讲三则是怎么用 Rules、Hooks 这类工程化的「壳」把边界落实成可复制、可优化的系统——卡住效果的常常不是模型本身，而是模型外面那层有没有被认真设计过的约束代码。 ## 速览 [Claude Code 主创复盘疯狂的一年｜对话 Boris & Cat](https://www.bestblogs.dev/article/8b737736) Claude Code 上线满一年，负责人 Boris Cherny 与产品负责人 Cat Wu 复盘了团队内部工作流的演进。两人提到的关键转变是：纠正 AI 的错误不能只说一次，要写进 CLAUDE.md 或做成一个 skill，沉淀才有复利；验证的真正门槛不是单测、lint 这些早就自动化的环节，而是 agent 能不能自己运行、自己看结果；逐条点「同意」反而不如全交给 auto mode，因为人在点到 99% 都是 yes 时注意力早就涣散了。Boris 还提到自己现在「不再 prompt agent，而是写 loop」——当模型足够强之后，工程师的核心工作正在从写代码转向设计能自主发现任务、反复调用 agent 的循环系统。这和精讲三里腾讯云开发者讲的 Rules / Hooks 工程化思路是同一种取向：把对 agent 的管理沉淀成可复用的系统，而不是每次都重新交代一遍。 [前 Meta L8 工程师的智能体工程设置](https://www.bestblogs.dev/article/ea0d869f) 一位曾在 Meta、Microsoft、Atlassian 担任 L8 首席工程师的作者，离开大厂独立创业后，分享了自己以终端为中心、键盘驱动的完整智能体工程设置——把 agent 当成自主队友用于规划、实现和验证。他提到用 agent 之后的生产力变化很直观：以前很难想象能交付 30 多个达到自己标准的高质量 PR，现在这只是一个普通的「慢」工作日；他形容自己进入了一种近乎持续的「流」状态，瓶颈只剩下思考的质量和速度本身。这种个人层面的高强度 agent 使用，恰好是精讲二提醒的另一面——速度本身不是问题，问题是有没有配套的验证习惯撑住这种速度。 [当反思无法修复 AI 智能体的输出时该怎么办](https://www.bestblogs.dev/article/4be45766) 作者在大型互联网公司做过生产环境的 agent 系统，专门生成部署配置、API payload、数据库查询，他的结论是：用 LLM 反思去修复结构化输出并不可靠。常见教程教的做法是加一次「评审」调用，但作者发现这只会让原本三分之一的失败率降到六分之一，而且这些残留失败是「隐形」的——反思步骤会说「看起来不错」然后放行，系统变成了一个自信地犯错、却要等到生产环境凌晨两点出问题才会暴露的黑箱。他给出的替代方案是一种确定性的「生成-验证-重试」循环，用代码而不是另一次 LLM 调用去做校验。这和精讲三里 Harness 工程强调的 PostToolUse Hooks 反馈机制几乎是同一个思路：判断 AI 输出对不对，不该交给另一个不可靠的 LLM，而应该交给确定性的代码检查。 [对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局](https://www.bestblogs.dev/podcast/8823d0d) 这期播客是 MiniMax CEO 闫俊杰一次少有的公开露面，他谈到了 M1 到 M3 的迭代历程、训练 10T 规模大模型的决心，以及中美模型差距的真实尺度——美国头部模型基本上大 10 倍，而 10 倍意味着整整两代的差距。他还谈到模型的数据观正在转向：一年前以为数据就是标注，现在 MiniMax 开始招募经济学家、哲学家甚至核物理学家。同台的另外三位嘉宾也分享了视角：何涛提出一句暴论——最讨厌别人说「这是 agent 做的，别怪我」，用你的账号提交代码，责任就该是你的。这句话和精讲一里 Anthropic「智能体身份」的设计初衷形成了有趣的对照：当 agent 的行动有了独立账号和审计轨迹，「这是 agent 做的」就不再能成为推卸责任的借口。 [谁做什么？面向智能体平台的团队拓扑](https://www.bestblogs.dev/article/3fa5680e) 这篇文章把团队拓扑（Team Topologies）的框架应用到智能体平台上，回答「谁该负责提供什么、团队之间该怎么交互」的问题。作者的核心论点是：过去构建一个应用意味着按时间顺序分配角色——一人设计、一人挑战架构、一人测试、一人部署，复杂度是真实存在的，但分散在多个人、拉长在一段时间里。Agent 改变了这个等式：它们不会提问，只会立刻给出答案，从不疲倦、不休息、不等待。过去角色们依次提出的问题，现在必须由人类在一个 prompt 的极短窗口里提前预判、并行考虑。这和精讲一里 Claude Tag 面对的「多人同时指挥一个 agent，权限该归谁」的问题是同一个组织设计难题的两个侧面。 [Seed2.1 正式发布，深入 AI 生产力](https://www.bestblogs.dev/article/1c83ff2d) 字节跳动发布 Seed2.1 系列模型，面向真实生产力场景，在通用 Agent 能力、代码工程交付和多模态理解三个维度都有显著提升，目前已在豆包和 TRAE 上线。通用 Agent 方面，Seed2.1 在 Workspace Bench、Agent Startup Bench 上表现稳定，Seed2.1 Pro 在 GDPval 基准上拿到最高分；在更专业、更难刷分的 Agents' Last Exam（ALE）基准上也处于第一梯队水平，说明它在此前未见过的高门槛工作流上具备较好的泛化能力。代码工程方面，模型能够在真实企业级开发任务中完成需求理解、bug 修复、环境搭建和结果验证的完整链路。这种对真实工作流稳定性的强调，恰好是精讲二里反复提到的那个缺口——光有速度不够，可靠的端到端交付才是真正的瓶颈。 [OpenAI 联手 PE 砸下 40 亿美元，聊聊硅谷最火新职位 FDE](https://www.bestblogs.dev/article/32b5da89) FDE（Forward Deployment Engineer，前线部署工程师）正在成为硅谷最热的岗位之一：既要懂模型和技术，也要理解客户的数据、流程和业务痛点，核心任务是把 AI 从 demo 变成各个行业自己的 AI-native 工作流。今年 5 月，OpenAI 联手 19 家 PE 合计投入超 40 亿美元成立了部署公司，并打包带走了 150 个 FDE；Anthropic 也宣布与 Blackstone 等金融机构合作成立 15 亿美元的合资企业。两位一线从业者在播客里谈到，模型公司开始意识到模型本身不是产品，产品要落地还需要大量贴近客户的工程工作——这恰好印证了精讲二的判断：单纯把模型做强不会自动带来可靠的交付，中间这层「把能力变成可用系统」的工程工作，价值正在被重新定价。 ## 补充阅读 [大规模采用 AV1 进行实时通信（RTC）](https://www.bestblogs.dev/article/46b40515) —— Meta 详述了在 Messenger 和 WhatsApp 上部署 AV1 编解码器的多年历程，涵盖设备资格的 ML 判定、自适应码率控制和错误恢复机制，适合做实时音视频基础设施的工程师参考。 [腾讯王腾飞：从生成内容到生成环境，世界模型的 3D 落地之路](https://www.bestblogs.dev/article/ebff792d) —— 腾讯混元世界模型团队负责人深度专访，拆解 HY-World 2.0 的四阶段生成流程，并探讨世界模型与游戏、具身智能的关系，适合关注世界模型技术路线的读者。 [每周使用 AI、开放工具和人机协同发布 huggingface_hub](https://www.bestblogs.dev/article/cb37f57c) —— Hugging Face 用开放模型、确定性验证循环和人机协同把发布流程自动化，从半天工作量压缩到几分钟，适合关心开源维护者效率问题的团队。 [Codex 日志正在燃烧你的 SSD](https://www.bestblogs.dev/article/58fb6bc9) —— 深入分析 OpenAI Codex 把 TRACE 级网络事件写入持久化 SQLite 数据库导致的写入放大问题，给出风险分层和止血方案，适合每天使用 Codex CLI 的开发者排查本机性能问题。 [Spring AI 2.0 中的自纠正结构化输出](https://www.bestblogs.dev/article/95cbc77f) —— Spring AI 2.0 新增提供商原生模式强制执行和响应端自纠正验证两种机制，让模型在重试时能看到具体错误而不是盲目重来，适合用 Java/Spring 生态做结构化输出的工程师。 ## 今日阅读路径如果今天只有十分钟，建议按这个顺序读：先读精讲一（Claude Tag 的智能体身份），它给出了今天整期早报最底层的那把钥匙——当 agent 的自主性持续增强，「谁能做什么」必须从「这个用户」下沉到「这个智能体在这个范围内」；接着读精讲二（AI 编程的隐性代价），看清楚没有这层边界会发生什么——Instagram 漏洞、CISO 离职、刷 Token 量绩效造假，这些都是真实代价而不是假设；最后读精讲三（Harness 架构与 Token 经济学），看怎么把抽象的「边界」工程化成 Rules、Hooks 这样可复制、可优化的系统，顺带把单次对话成本砍掉三成。三篇放在一起读，会比单独读任何一篇更能看清楚：2026 年 AI 工程的核心命题，已经从「模型够不够强」转向「有没有一套靠得住的边界，把强模型的自主性安全地释放出来」。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。

译Anthropic 为 Claude Tag 推出智能体身份模型，Claude 在团队频道拥有独立账号，权限按频道配置可覆写，撤销身份即可终止访问。AI 编码代价方面，Meta 一次 AI 生成代码（无人工验证）导致 Instagram 密码重置漏洞，CISO 离职；Amazon 核心平台中断；GitHub 因负载增长三倍不稳定。腾讯云开发者介绍 Harness 工程：同一 LLM 换装更精巧外架构后，TerminalBench 2.0 通过率从 52.8% 升至 66.5%，排名从 30 名外进入前 5。

ginobefun@hongming731 · 6月24日37

BestBlogs 早报 · 06-24 # Claude Tag / 智能体身份 / Harness 工程 / MiniMax / FDE [1] ★ 精讲｜智能体身份：适用于自主、团队级 AI 的新型访问模型 | Claude Anthropic 为 Claude Tag 推出「智能体身份」访问模型：团队频道里的 Claude 不再借用某个人的权限，而是拥有管理员配置的独立账号体系，按频道继承或覆写权限边界，能读写 GitHub、数据仓库等系统并留下独立审计轨迹。核心转变是从「这个用户能做什么」变成「这个智能体在这个范围内能做什么」——这是多人协作场景下自主智能体访问控制的关键基础设施。来源：Claude Blog https://www.bestblogs.dev/article/b6b6137f [2] ★ 精讲｜慢下来才能更快：AI 如何重塑软件工程 [视频] 《Pragmatic Engineer》梳理了 AI 高速生成代码带来的结构性代价：Meta 一次未经人工复核的 AI 生成代码直接导致 Instagram 重置密码漏洞，CISO 在事故调查中离职；Meta、Amazon 内部出现「刷 Token 量」绩效造假，GitHub 因 AI 驱动的提交量暴涨三倍而持续抖动。作者给出务实对策：限制每日可审计的生成量、把 AI 用于清偿技术债而非替代理解、不让工具决定架构判断——速度的代价正在系统性显现。来源：The Pragmatic Engineer https://www.bestblogs.dev/video/550c5a2 [3] ★ 精讲｜从 Harness 架构到 Token 经济学的探索腾讯云开发者结合 LangChain、Anthropic、OpenAI 等一线工程实践，系统拆解「Harness 工程」：同一模型换上更精巧的外层架构，TerminalBench 通过率即可从 52.8% 跃升到 66.5%，证明卡住效果的常是「壳」而非模型本身。文章用控制论、ReAct、Reflexion、MCTS 等理论对照真实的 Rules / Hooks / Skills 配置，并实测把单次对话基础开销从 23.5K 降到 15K token，降幅 36%——给 AI 编程团队一套可复制的架构与成本优化方法论。来源：腾讯云开发者 https://www.bestblogs.dev/article/70410bef [4] 当反思无法修复 AI 智能体的输出时该怎么办本文认为，使用基于 LLM 的反思来修复结构化 AI 智能体输出并不可靠，并提出一种确定性的「生成-验证-重试」循环作为更可靠的替代方案。来源：freeCodeCamp https://www.bestblogs.dev/article/4be45766 [5] 前 Meta L8 工程师的智能体工程设置一位前 Meta L8 工程师分享了他完整的智能体工程设置——以终端为中心、键盘驱动——将智能体作为自主队友用于规划、实现和验证。来源：ByteByteGo Newsletter https://www.bestblogs.dev/article/ea0d869f [6] Seed2.1 正式发布，深入 AI 生产力字节跳动发布 Seed2.1 系列模型，面向真实生产力场景，在通用 Agent、代码工程交付和多模态理解三大能力上实现显著提升，并已在豆包和 TRAE 上线。来源：字节跳动 Seed https://www.bestblogs.dev/article/1c83ff2d [7] OpenAI 联手 PE 砸下 40 亿美元，聊聊硅谷最火新职位 FDE 本文通过一线从业者对谈，深入解析 FDE（前线部署工程师）的岗位职责、能力要求，并探讨模型公司联手 PE 成立部署公司背后的商业逻辑，以及 AI 落地浪潮对咨询和私募行业的影响。来源：硅谷 101 https://www.bestblogs.dev/article/32b5da89 [8] Claude Code 主创复盘疯狂的一年｜对话 Boris & Cat Claude Code 主创 Boris 与 Cat 复盘了 AI 编程一年来团队内部工作流的演进，核心观点是工程师的核心工作正从写代码转向设计能自主发现任务、分派执行的循环系统（Loop Engineering）。来源：十字路口 Crossing https://www.bestblogs.dev/article/8b737736 [9] 对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局 [播客] MiniMax CEO 闫俊杰罕见公开分享从 M1 到 M3 的模型迭代至暗时刻与突破、训 10T 大模型的决心、以及对模型与 Agent 关系、中美差距的深度思考。来源：十字路口 Crossing https://www.bestblogs.dev/podcast/8823d0d [10] 谁做什么？面向智能体平台的团队拓扑本文将领团队拓扑应用于智能体平台，定义团队类型与交互方式，以分配 AI 驱动生产中被转化的认知负荷。来源：Hacker News https://www.bestblogs.dev/article/3fa5680e --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-24

译Anthropic 为 Claude Tag 推出智能体身份访问模型，赋予 AI 独立账号体系。Meta 因 AI 生成代码未经人工复核导致 Instagram 漏洞

Berryxia.AI@berryxia · 6月24日54

最近你的时间线一定出现了各种AI产品支持GLM 5.2 的宣传！是真的火出圈了，尤其鬼佬兴奋的不行。国人是因为抢不到coding plan 而暗自不爽😂 今天看到Flowith家的Matrix把GLM-5.2直接接入Matrix里，让用户能用1M上下文直接干长程产品构建和agent公司。 GLM-5.2本身就擅长long-horizon coding和复杂多步执行，现在通过Matrix这个agentic workspace，用户可以直接在里面构建产品、部门、工作流，甚至整个agent公司。 Matrix的beta用户还能领到1000万免费tokens（限时），这已经不是单纯的模型调用，是把强模型和实际执行环境绑在一起了。以前大家觉得“用AI建公司”还停留在聊天和prompt阶段，现在有了1M上下文 + 结构化的agent workspace，执行链条被大幅拉长和稳定化。 Matrix的用户反馈也指向了这一点：它更适合真正把东西做出来，而不是只停留在 ideation。这其实是把“模型能力”和“执行环境”进一步融合的一次尝试。强模型负责思考和规划，workspace负责持久上下文和多步执行，两者结合后，个人或小团队能做的事情边界又被推远了一点。

译GLM-5.2 近期火爆出圈，尤其海外用户兴奋，国内用户则因抢不到 coding plan 而不爽。Flowith 的 Matrix 产品已接入智谱 GLM-5.2，提供 1M 上下文窗口，适用于 long-horizon coding、产品构建和复杂多步执行。Matrix 作为 agentic workspace，用户可直接在其中构建产品、部门、工作流甚至整个 agent 公司。所有 Matrix beta 用户可领取 1000 万免费 tokens（限时），这标志着强模型与执行环境的进一步融合，个人或小团队的能力边界被推远。

gabriel@gabriel1 · 6月24日14

up in the middle of the night and seeing this computer on it's just the windows computer i bought for my cofounder so he could ask codex to work for 3 days until the app runs on windows this is so absurd and awesome

译半夜醒来，看到这台电脑开着。就是我给联合创始人买的那台 Windows 电脑，这样他就能让 Codex 连续工作三天，直到应用能在 Windows 上运行。这太荒谬也太酷了。

MiniMax (official)@MiniMax_AI · 6月24日28

Exciting conversations happening on July 1st with @friendliai @NVIDIAAI @kilocode

译7月1日 Inside The AI Coding Stack 活动阵容公布： @nvidia — Harry Kim 谈 AI 原生工作负载的 GPU 基础设施 @FriendliAI — Gon Chun 谈面向智能体的前沿 AI 推理 @MiniMax_AI — Victor Su-Ortiz 谈 M3 + 推理 @kilocode — Brian Turcotte 谈生产环境中的智能体编码名额有限！RSVP：https://luma.com/y454srtx ——MiniMax 表示期待这场对话。

Rohan Paul@rohanpaul_ai · 6月24日60

Atomic Chat just made Cline run coding agents on local AI models. @cline is the agent layer: it can read files, edit code, run terminal commands, inspect errors, and ask approval before actions. Atomic Chat is the model layer: it runs open-weight models offline locally, supports 1000+ models, and exposes a local API that other tools can call. A quieter shift in many areas: powerful agents moving back onto private machines.

译Atomic Chat 集成 Cline，使代码智能体能在本地 AI 模型上运行。Cline 作为智能体层，可读文件、编辑代码、运行终端命令、检查错误并请求批准，已被 800 万+开发者信任。Atomic Chat 作为模型层，支持 1000+ 模型离线本地运行，并暴露本地 API 供其他工具调用。整个过程私有、免费、开源，体现了强大智能体回归本地私有设备的趋势。

宝玉@dotey · 6月24日70

http://transitions.dev 这个网站的动画过渡效果很不错👍 还可以安装 Skill，这样 Agent 可以自己为你的网页添加炫酷的动画 npx skills add jakubantalik/transitions.dev

译http://transitions.dev 这个网站的动画过渡效果很不错👍 还可以安装技能，这样 Agent 可以自己为你的网页添加炫酷的动画 npx skills add jakubantalik/transitions.dev

AYi@AYi_AInotes · 6月24日62

哇偶哇偶，你的下一个同事，以后只需要在Slack里@一下。 Anthropic刚刚宣布把Claude Code嵌入Slack，推出Claude Tag。自带频道专属记忆、主动监控频道、独立跑代码提PR，任务收尾自动打上✅标记，内部产品团队65%的新增代码都由它产出。核心运行逻辑拆成三层，很好理解： 1. 独立身份+频道隔离记忆不同项目频道上下文完全互不混淆，不会串起产品、客服两条线的对话；每条对话线程单独分配沙箱，任务结束直接销毁，隔离性拉满。 2. 主动自主执行，不用反复写长提示词提前给清基础规则，它会全天盯紧频道、自动答疑、汇总项目信息，问题闭环后主动标记状态，全程不用人工催促。 3. 原生Claude Code代码能力，多层安全防护支持拉取仓库、编写调试代码、自动化测试、提交PR，所有操作在封闭沙箱运行；模型过滤、密钥权限管控、频道边界三重安全兜底，不会触碰敏感密钥。日常覆盖全团队高频工作： • 内部知识库检索：快速回复服务负责人、历史故障复盘等问题，不用翻海量历史链接 • 新人入职答疑，自动承接重复性基础提问 • 代码迭代、反馈处理、故障排查、数据统计全流程辅助 • 自定义频道值守规则，完全按你的要求自动运行上手门槛极低，频道添加@.Claude，一句自然语言指令就能完成配置。这件事真正的行业信号，远不止「Slack多了一个AI机器人」。过去我们用AI，要单独打开网页、复制粘贴上下文来回切换；现在AI直接驻扎在日常协作场景里。很多团队AI落地卡顿，瓶颈从来不是模型能力，而是没法让AI融入原本的工作流，Claude Tag给出了最务实的解决方案。目前仅Enterprise与Team付费计划开放Beta，小团队暂时无法使用。落地提醒：优先挑选低风险测试频道，清晰限定执行规则，所有代码、业务结论必须人工复核，复杂战略、客户沟通不能全权交给AI。如果你们团队正在用Slack，可以先拿一个辅助频道试水。

译Anthropic 将 Claude Code 嵌入 Slack，推出 Claude Tag。AI 以团队成员身份加入频道，具备频道专属记忆、主动监控、独立跑代码并提 PR，任务完成自动标记 ✅。内部产品团队 65% 新增代码由 Claude Code 产出。三层架构：独立身份+频道隔离记忆（不同项目上下文不混淆，沙箱任务结束销毁）；主动自主执行（设置规则后全天盯频道、答疑、汇总）；原生 Claude Code 代码能力（拉取仓库、调试、测试、提 PR），多层安全防护。支持知识库检索、新人答疑、代码迭代、故障排查等。仅 Enterprise 与 Team 付费计划开放 Beta。建议低风险频道测试并人工复核。

Rohan Paul@rohanpaul_ai · 6月24日51

AI coding has a QA problem. And Momentic just released a testing platform around that bottleneck: faster code means little if QA cannot scale with it. So Momentic's testing agents read the same product memory humans use, including Linear tickets, Notion PRDs, and PR diffs, so tests are based on intended behavior rather than blind script matching. They are claiming in the past few weeks, its agents analyzed 70K+ test failures, created 600 tests, and reached a 73% PR merge rate.

译AI编码速度提升但QA成为新瓶颈。Momentic推出测试平台，其智能体可读取Linear工单、Notion PRD和PR差异等产品记忆，使测试基于预期行为而非静态脚本。过去几周，该平台已分析7万+次测试失败，创建600个测试，PR合并率达73%并持续增长。客户包括Notion、Xero、Webflow、Retool、Runway和Bilt。

jason@jxnlco · 6月24日46

have you reserved your codex username? codex > settings > profile

译你有没有预留你的 Codex 用户名？ Codex > 设置 > 个人资料

jason@jxnlco · 6月24日16

Here you go! Maybe by @itsjessyin https://codex-billboard.vercel.app/

译给你！可能来自 @itsjessyin https://codex-billboard.vercel.app/

向阳乔木@vista8 · 6月23日68

新智元起名果然有一套，AI总结的规律： 1. 中位标题长度 32 字 2. 标点常用！和，接近八成 3. 数字出现率 56.7% 4. 英文模型/公司名出现率 90.8% 常见结构 “实体/数字/刚刚 + 动作/冲突 + 后果/榜单/人群影响” Skill安装 npx skills add joeseesun/qiaomu-xinzhiyuan-title 仅供娱乐，如有侵权，请联系删除。

译网友Vista通过AI分析新智元标题风格，总结出中位长度32字、标点使用率近八成、数字出现率56.7%、英文名出现率90.8%等规律，并发布名为`joeseesun/qiaomu-xinzhiyuan-title`的Skill，可用`npx skills add`安装，生成类似标题。

gabriel@gabriel1 · 6月23日42

every PR will obviously come with 100% coverage of AI app testing, that tries every button in the interface to make sure it works as expected why are the coding apps not making AI testing first class feature, 80% of problems are obvious for AI if it tries the app itself

译显然，每个PR都会带来100%覆盖的AI应用测试，它会尝试界面中的每个按钮以确保其按预期工作。为什么编码应用不把AI测试作为一等特性？如果AI自己尝试应用，80%的问题都是显而易见的。

Berryxia.AI@berryxia · 6月23日54

AI把“做出东西”变得容易了，但把东西做得真正优秀，反而更难了。 Paul Bakaus今天宣布成立Renaissance Geek（Impeccable背后的公司），拿了a16z的钱，还和GitHub达成合作。他核心的观点是：AI已经把地板抬高了（第一稿变容易），但天花板并没有被自动抬高。真正优秀的工作，依然来自清晰的意图、无休止的迭代……判断力和craft，而不是单纯的循环制胜。他把这个方向叫“增强工艺”——让人类深度参与智能体循环的最后20%，而不是把人彻底踢出去。天衣无缝的设计就是这个理念的第一个产品：给AI coding agent一套设计词汇表，让它在真实代码库里做视觉迭代，而不是只在聊天里生成slop。更重要的是，他提出了“文艺复兴极客”这个新人群画像：T型通才 + 高品味 + 高主动性 + 强好奇心的人。 AI让他们能跨领域移动，而他们的taste和判断力，正是AI目前最缺的东西。这篇文章把当前AI工具界的两种路径说得很清楚：一条是继续堆地板（让更多人能做出东西），另一条是认真抬天花板（让真正有品味的人能做出更好的东西）。他选择后者。我翻译了一下中文，感兴趣可以看看。

译Paul Bakaus 宣布成立 Renaissance Geek（Impeccable 母公司），获 a16z 投资并与 GitHub 合作。他认为 AI 降低了创作门槛，但未自动提高上限；真正优秀的工作仍需清晰意图、迭代、判断力与工艺。公司方向为“增强工艺”——让人类深度参与智能体循环的最后 20%。首款产品 Impeccable 为 AI coding agent 提供设计词汇表，支持在真实代码库视觉迭代，避免低质量输出。同时提出“文艺复兴极客”画像：T 型通才、高品味、高主动性、强好奇心，AI 赋能其跨领域移动，而品味与判断力是 AI 最稀缺的能力。

歸藏(guizang.ai)@op7418 · 6月23日49

http://x.com/i/article/2069421203073490944 # Seed 2.1 Pro 测评，终于能胜任 Agent 工作了今天 Seed 2.1 Pro 正式发布，我提前用它做了一些测试。 ## 它能不能进 Agent 工作流？这次我最关心一件事：它能不能进真实的 Agent 工作流。跑下来，我觉得答案是能。以前很多人对它的印象，可能还停留在基础问答：速度快、回答顺、多模态能力不错，适合日常聊天和查资料。但如果要把它放到 Codex、Claude Code 这类 Agent 场景里，让它读规则、调工具、改文件、生成网页、做 PPT，大家可能不会第一时间想到它。这次 Seed2.1 Pro 给我的感觉不太一样。它已经能认真跑 Agent 任务了，而且有几个长处很明显。第一，复杂任务里比较稳。 Agent 场景里，模型不能只会回答一句话。它要理解任务、读材料、遵循工具规则，最后产出一个能交付的东西。我用它跑 Skills 的时候，它没有明显瞎写，也没有绕开规则，基本是在已有约束里把结果做出来了。第二，视觉内容的规划能力强。这里说的好看，只是表层。页面、PPT、图片卡片、动效这些东西，它会自己安排信息密度和视觉层级。很多模型可以完成任务，但结果经常需要人返工；Seed2.1 Pro 的产出更接近“可以直接拿来展示”的状态。第三，多模态是它的额外优势。现在很多强 coding 模型没有完整多模态能力，或者视觉理解不是主场。 Seed2.1 Pro 可以在图片、文档、视频理解和视觉表达上承担更多工作，和其他模型配合时也会很有价值。 ## 我怎么测的这次我主要用两个渠道测试。一个是在豆包里选择任务模式，再选择本地电脑，让它以类似 Codex 或 Claude Code 的 Agent 方式操作。另一个是通过火山引擎 API，在 Cloud Code 这类常见 Agent 架构下调用。这样可以同时看它在自家产品里的表现，以及换到更通用的 Agent 工作流后是否还稳。 ## 先跑复杂 Skills 我先测的是自己的两个 Skills，PPT 生成和社交媒体卡片。原因很简单：大多数人日常使用 Agent，不会每天都做重度工程开发，更多是办公、内容生产、资料整理、简单工具调用。复杂 Skills 规则多、上下文长、要求细，刚好能看出模型的下限和上限。第一个是 PPT Skill。我把 Seed2.1 的官方介绍文章给它，让它生成一份介绍 Seed2.1 的 PPT。结果相当不错。它没有出现页面内容超出，也没有大面积空白。每一页的信息密度都比较合理，标题、正文、数据和视觉元素之间的比例很稳。更重要的是，它不会死板地套模板，而是会根据内容调整版式。这点很能说明它在 Agent 场景里的可用性。它会先理解内容，再做结构规划，不会只把文字塞进模板。它还会加入动效，做出一些 Skill 模板里没有明确给过的排版方式，效果也可以。我还试了社交媒体图片卡片 Skill，结果也不错。这个场景更偏日常内容生产，比如封面图、信息卡片、产品介绍图。 ## 再跑三个前端任务接下来我测了三个编程任务。这三个任务避开了传统 CRUD，更吃 Agent 编程能力、前端实现能力和空间感知，主要是 WebGL / 3D / 动效。第一个是抽屉式或者百叶窗式的图片动效。我让它做一个横向展开的图片交互，鼠标 Hover 到某一列时，当前列展开，其他列收缩，同时要有图片、文字、遮罩、局部放大和高级感。这个效果它基本一步到位。豆包产品内和 Cloud Code 下的版本风格还有点不一样：豆包里的版本更简洁、更高级； Cloud Code 下的版本动效更多，有自定义光标、圆形画中画、分层遮罩和更强的动态反馈。第二个是 WebGL 贝塞尔曲线效果。这个任务更难。我只是用文字描述了一个抽象效果：三格贝塞尔曲线，每一格都有对应色散，曲线一直在运动；鼠标 Hover 到对应区域时，色散会增强，但仍然要沿着贝塞尔曲线自然运动。 Seed2.1 Pro 做出来的结果很舒服。曲线没有僵硬地抖动，玻璃切片和色散也没有乱糊一片。鼠标移动时，局部折射会增强，但整体运动仍然保持连续。这个案例说明，它能把抽象视觉描述转成可运行的前端效果。第三个是跨整页的视差滚动网页。我让它做一个长页面，九张图片贯穿整个网页。随着滚动，这九张图片会不断堆叠、散开、组成九宫格、再横向流动，每一段散开的组织形式都不同，但整体动画要连续。这个任务很容易翻车。它是一整条时间线，卡片的位置、缩放、旋转、滚动进度、文字层级、背景变化都要互相配合。但 Seed2.1 Pro 的结果很完整。它用了 GSAP、ScrollTrigger 和 Lenis，把九张卡片组织成一段连续的视觉叙事：先是扇形展开，再到斜向视差流，然后进入九宫格、空间穿梭和横向叙事。 ## 它适合放在哪里所以我对 Seed2.1 Pro 的判断是：它未必是每个榜单上最顶尖的模型，但已经能在真实 Agent 任务里干活了。尤其是在内容生产这个方向上，它的组合能力非常好：能读材料，能遵循复杂规则，能做工具调用，能生成视觉内容，也能完成有一定难度的前端动效。我觉得它适合放在组合工作流里。强 coding 模型继续负责重工程和复杂代码链路，Seed2.1 Pro 负责多模态理解、内容规划、视觉表达和前端呈现。这样反而更接近我日常真正会用的方式。当然也有限制。官方这次强调了视频理解能力，这点我很期待。但我在 Cloud Code 下调用时，视频输入似乎还不是完整视频实例，更像是抽帧式处理。如果后续 API 和 Agent 框架能更好地支持原生视频输入，它的优势会更明显。总的来说，大家以前可能觉得它只是一个快、顺、多模态好的基础模型。 Seed2.1 Pro 这次更值得关注的地方，是它开始能进 Agent 工作流了。现在 API 已经在火山引擎全量上线了，可以去试试。而且他们也支持直接接入到各种 Agent 里面，Code plan 可能还要等等。如果觉得内容对你有帮助的话，可以帮忙点个赞或者转发，谢谢。

译Seed 2.1 Pro 正式发布，测评显示它能胜任真实 Agent 工作流。优势包括：复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式（本地电脑 Agent 操作）和火山引擎 API（Cloud Code）进行。复杂 Skills 测试（PPT 生成、社交媒体卡片）表现优秀，能根据内容调整版式。三个前端任务（百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页）均一步到位或结果完整。定位：未必最顶尖，但适合组合工作流——强编码模型负责工程，Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制：视频输入目前为抽帧式处理。API 已在火山引擎全量上线。

歸藏(guizang.ai)@op7418 · 6月23日42

测了一下，没想到 Seed 2.1 Pro 还不错啊补上了 Agent 和 Coding 短板的豆包应该会成为我日后关于内容创作的主要模型。更多的案例和提示词在文章里

译测试显示豆包旗下的 Seed 2.1 Pro 模型表现不错，尤其补上了此前在 Agent 和 Coding 方面的短板，将成为内容创作的主力模型。更多案例及提示词详见原文链接。

elvis@omarsar0 · 6月23日64

Most AI code review tools look at one repo at a time. But the bug usually isn't in the code that changed. It's in what that change quietly breaks three repos away. @QodoAI just shipped Cross Repo Review to solve this. I tested it on my own repos. Here's what it caught.

译大多数 AI 代码审查工具一次只看一个仓库。但 bug 通常不在被修改的代码里。而是在那次修改悄悄破坏的三个仓库之外。 @QodoAI 刚刚推出了跨仓库审查来解决这个问题。我在自己的仓库上测试了它。这是它发现的问题。

Alibaba Cloud@alibaba_cloud · 6月23日56

🚀 Coding Agent 2.0: From Personal Tool to Organization System ꔷ Sandbox isolation & session recovery ꔷ Long-term memory & multi-channel access ꔷ Prevent quota burn & ensure safety Build production-grade agents with AgentScope Harness. https://int.alibabacloud.com/m/1000414751/ #AgentScope #CodingAgent #LLMOps #OpenSource #AIEngineering #Java

译🚀 Coding Agent 2.0：从个人工具到组织系统 ꔷ 沙箱隔离与会话恢复 ꔷ 长期记忆与多渠道访问 ꔷ 防止配额消耗并确保安全使用 AgentScope Harness 构建生产级智能体。 https://int.alibabacloud.com/m/1000414751/ #AgentScope #CodingAgent #LLMOps #OpenSource #AIEngineering #Java

Alibaba Cloud@alibaba_cloud · 6月23日55

🚀 Coding Agent 2.0: From Personal Tool to Organization System ꔷ Sandbox isolation & session recovery ꔷ Long-term memory & multi-channel access ꔷ Prevent quota burn & ensure safety Build production-grade agents with AgentScope Harness. https://int.alibabacloud.com/m/1000414751/ #AgentScope #CodingAgent #LLMOps #OpenSource#AIEngineering #Java

译🚀 Coding Agent 2.0：从个人工具到组织系统 ꔷ 沙箱隔离与会话恢复 ꔷ 长期记忆与多通道访问 ꔷ 防止配额燃烧并确保安全使用 AgentScope Harness 构建生产级智能体。 https://int.alibabacloud.com/m/1000414751/ #AgentScope #CodingAgent #LLMOps #OpenSource#AIEngineering #Java

SiliconFlow@SiliconFlowAI · 6月23日59

What happens when frontier models face the same prompt? We tested GLM-5.2, GPT-5.5, Opus 4.8, and GLM-5.1. And the result: GLM-5.2 closed the performance gap with Opus 4.8 at the cost of friction. Get Opus-level frontend generation with GLM-5.2 on SiliconFlow—at ~3.6× lower input cost and ~5.7× lower output cost Let's build more & spend less today😈 https://cloud.siliconflow.com/models?target=zai-org/GLM-5.2

译硅基流动测试了 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 的相同提示。据 @arena 引用，GLM-5.2 (Max) 在 Code Arena: Frontend 排名第 2，以 +29 分领先 Claude Opus 4.7 (Thinking)，仅次于 Fable 5；是最好的开源模型，大幅超越 Kimi-K2.6 和 Minimax-M3，并在 React（第 2）、HTML（第 4）及品牌营销、参考设计、数据分析等多个子类别中位居第一。主推文指出，在 SiliconFlow 上使用 GLM-5.2 可获得 Opus 级前端生成能力，输入成本降低约 3.6 倍，输出成本降低约 5.7 倍。

eric zakariasson@ericzakariasson · 6月23日35

stay tuned for next model

译Cursor 在 Compile 大会主题演讲中宣布三项公告，包括与 SpaceX 合作训练新模型。敬请期待下一模型。

jason@jxnlco · 6月23日13

codex is for everyone.

译Codex 面向所有人。

Tibo@thsottiaux · 6月23日3

What are we codexing tonight

译今晚我们要codex什么？

jason@jxnlco · 6月23日29

Codex irl

译Codex 现实生活

jason@jxnlco · 6月23日12

Marketing said we could feature the good ones!!!

译市场营销部门说我们可以展示那些好的作品了！！！（来源引用：@jxnlco 号召大家发布自己最好的 Codex 广告牌。）

jason@jxnlco · 6月23日9

Codex remote control

译Codex 远程控制

jason@jxnlco · 6月23日13

Enough monkeys typing with codex and one of them will build openclaw

译足够多的猴子用 codex 打字，其中一只就会造出 openclaw。

小互@xiaohu · 6月23日55

Codex正在后台偷偷“搞废”你的固态硬盘固态硬盘（SSD）的寿命是靠“写入量”决定的，写得越多，死得越快 Codex 似乎一直在后台疯狂写入，哪怕你电脑挂机什么都不干，它也在后台疯狂地狂写日志文件它正在把你的硬盘寿命给“烧”光… 狂造垃圾：你就随便用用，它就偷偷在后台写了几万条毫无用处的废话记录暗中伤盘：别看日志文件只有几百兆，它的底层运行逻辑有大毛病，正在像针扎一样疯狂且高频地擦写你的硬盘。文件看着没变大，硬盘寿命倒被偷偷榨干了…

译用户反映 Codex 在后台持续写入大量日志文件，即使电脑闲置时也在高频擦写固态硬盘（SSD）。SSD 寿命由写入量决定，此类行为会加速硬盘损耗。虽然单次写入仅几百兆，但底层频繁擦写机制持续消耗硬盘寿命，相当于“偷跑”写入量。

AYi@AYi_AInotes · 6月23日65

所有大模型排行榜都在骗你。 Cline团队用自己仓库的真实bug，在完全相同的环境下，测了GLM-5.2和Claude Opus 4.8。结果非常打脸。 Opus速度快3倍，token消耗少一半，价格贵一倍。它修完了bug，跑通了所有测试。但生产构建直接崩了，留下了未被发现的类型错误。 GLM速度慢，token多67%，工具调用多2.3倍，价格便宜一半。它不仅修好了bug，还主动清理了死代码。最终构建干净通过，没有任何隐患。这就是排行榜和真实世界的差距。 SWE-bench只能测出能不能修bug。测不出修完之后会不会偷偷搞崩你的生产环境。测试过了不等于代码能用。这在大型项目里，是致命的。本质不是谁更聪明，因为训练目标完全不一样。 GLM被强化学习训练出了验证文化。多花的token，全用在了跑构建，查类型，清垃圾，防回归上。它不是笨，是负责任。 Opus追求高效交差，GLM追求一次做对。更值得注意的是，这是开源模型。它不再只是闭源模型的廉价替代品。它在长周期代码智能体的维度上，找到了自己的差异化优势。智能体时代的性价比逻辑彻底变了。以前比每千token多少钱。现在比每次成功任务多少钱。多花点token一次做对。永远比快但要返工两次更划算。更别说省下的人工排查成本。给所有做智能体的人两个建议，第一，别信排行榜，拿自己仓库的真实bug跑一遍。第二，在你的系统提示里强制加一条，完成前必须跑构建验证，清理死代码。未来比拼的从来不是谁的模型更聪明，而是看谁的模型更负责任。

译Cline团队用自家仓库真实bug测试GLM-5.2和Claude Opus 4.8。Opus速度快3倍（1.6分钟vs 4.7分钟）、token少一半（660K vs 1.1M）、价格贵一倍（$0.81 vs $0.41），修好bug但生产构建崩溃，留下类型错误。GLM多花67% token、多2.3倍工具调用（28次vs 12次）、价格便宜一半，不仅修好bug还主动清理死代码，构建干净通过。根本差异在于训练目标：GLM被强化学习训练出验证文化，多花token跑构建、查类型、防回归；Opus追求高效却忽略隐患。排行榜只测修bug能力，测不出是否破坏生产环境。开源模型GLM在长周期代码智能体上找到差异化优势。

meng shao@shao__meng · 6月23日59

AI：你永远想象不到人类对可视化的执念？！前不久 Claude Code 开发者 @trq212 发布了 Using Claude Code: The Unreasonable Effectiveness of HTML https://x.com/trq212/status/2052809885763747935 用 HTML 代替 Markdown 来给人类做解释，今天 @HeyGen 甚至把它做成了视频「pr-to video Skill」 https://x.com/trq212/status/2052809885763747935 Markdown -> HTML -> Video 人类的最佳信息输入源，真的是视频吗？这么说，我要把荒废了很久的视频内容重新做起来了！

译继 Claude Code 开发者用 HTML 代替 Markdown 向人类解释模型输出后，HeyGen 为其 HyperFrames 平台推出新技能 pr-to-video。智能体可将无人阅读的 Pull Request（PR）直接转化为简短解释性视频，用户可通过命令 `npx skills add heygen-com/hyperframes` 添加该技能。作者感叹视频或为人类最佳信息输入源，并表示将重启视频内容。

meng shao@shao__meng · 6月23日37

智谱是真的大火了，居然收到了关于「智谱 AI」的付费咨询邮件，这还是我收到的第一个针对 AI 团队的付费咨询呢不过我对 GLM-5.2 确实还没深入使用，Coding Plan 抢不到，Zcode 使用限流，也拿不到 Zcode 商单和赠送 Token（好惨。。）含泪拒了这个付费咨询吧，虽然之前有接触过几位智谱的朋友，了解一些细节，不敢瞎说。。。

译智谱AI近期大热，作者收到针对「智谱 AI」的付费咨询邮件，但因对 GLM-5.2 尚未深入使用，且 Coding Plan 抢不到、Zcode 使用限流，也无法获取 Zcode 商单和赠送 Token，最终含泪拒绝了这次付费咨询。