演示视频中的书籍解读口播脚本 Skill 开源了 https://github.com/joeseesun/qiaomu-book-script 安装指令：npx skills add joeseesun/qiaomu-book-script 只需要说：解读《被讨厌的勇气》 Skill 会调用多个Subagent从不同角度写脚本，最后主LLM整理成终稿。

译Vista 开源的 qiaomu-book-script Skill 可通过 `npx skills add joeseesun/qiaomu-book-script` 安装。用户说“解读《被讨厌的勇气》”即可触发，多个 Subagent 分别撰写脚本，最后由主 LLM 整理成终稿。此前 Vista 已用该 Skill 生成口播脚本并完成录制。

🚨 AI News | TestingCatalog@testingcatalog · 6月10日63

HeyGen has released HyperFrames connector for Claude, allowing users to generate short videos directly from Claude conversations. The composition agent has 25+ built-in skills that handle typography, motion, captions, and voice, then render to MP4, WebM, or MOV in the cloud.

译HeyGen 发布 HyperFrames 连接器，成为 Claude 官方连接器（与 Anthropic 合作）。用户可在 Claude 对话中直接生成短视频。合成代理内置 25+ 技能，处理排版、运动、字幕和语音，云端渲染输出 MP4、WebM 或 MOV。旨在解决 LLM 回答文本密集、难以阅读的问题，将文档略读转化为视频理解。

AYi@AYi_AInotes · 6月10日69

关于屌炸天的Claude Fable 5，这条推文是你必看和必收藏的，帮大家总结了Anthropic内部用烂了的核心杠杆和方法：我敢说用了这个，你的Agent会越用越聪明，复利效应爆炸。虽然很多人吐槽Fable 5的费用是Opus 4.8的将近3倍，但我想说他确实值这个价！ Anthropic内部工程师这篇文章大家可以看看，基本说透了，我帮大家总结下核心要点： 1️⃣90%的人都在浪费Fable 5的能力，很多人还在给它扔单次prompt，它真正的实力，是当一个能自主干活的长期工程师， 2️⃣Fable 5是第一个能真正自律循环的模型，所以不要只给它一个指令让它交差，得给它一个清晰的目标，一个可量化的打分标准，一个能自己跑的环境，然后它会自己做实验、看结果、踩坑、反思、改代码、再跑，直到把事干成。 3️⃣这就是它比Opus强一个档次的真正原因，任务越长、越复杂、越需要迭代，它的优势就会越夸张： ✅ Parameter Golf工程挑战，效率比Opus高6倍 ✅ Slay the Spire加持久记忆后，表现直接翻3倍 ✅ 50万行代码库迁移，一次性搞定不用人擦屁股 4️⃣@RLanceMartin 分享了两个Anthropic内部用烂了的核心杠杆：杠杆❶ 自我纠正循环：不要写prompt，写rubric 不要说帮我优化这个代码，要说： • 目标：把这个接口的延迟降到100ms以内 • 评分标准：延迟达标、所有单元测试通过、代码不超过300行 • 给它一个能自己运行代码的沙箱然后你就可以去喝咖啡了😆 它会自己改、自己跑、自己看日志、自己调， 5️⃣最关键的一步：不要让它自己批评自己，单独开一个独立上下文的验证代理，客观打分，这一个改动，准确率直接翻倍！杠杆2 记忆系统：给它一个能写日记的外脑不要把所有东西都塞进上下文，给它一个共享的文件系统，让它每次干完活，都写工作笔记： • 今天犯了什么错 • 为什么会错 • 下次应该怎么改 • 提炼成一条通用规则 Fable 5是目前唯一一个能真正走完这个流程的模型：出错→调查→验证→蒸馏成规则→下次直接用。 Opus只能到第二步，Sonnet连第一步都做不好。

译Claude Fable 5 费用约是 Opus 4.8 的三倍，但效率提升显著：Parameter Golf 挑战效率高 6 倍；Slay the Spire 加持久记忆后表现翻 3 倍；可一次性迁移 50 万行代码。Anthropic 内部两大杠杆：① 自我纠正循环——写 rubric（目标+量化评分标准+沙箱），让模型自主改代码、跑测试；② 记忆系统——共享文件系统作为外脑，每次记录错误与改进规则。Fable 5 是唯一能完整走通“出错→调查→验证→蒸馏成规则”流程的模型。独立上下文的验证代理可使准确率翻倍。

向阳乔木@vista8 · 6月10日65

一个专门给产品经理准备的Skill，五天竟有13k Stars。从名字看，确实涵盖了产品经理日常工作范围。警惕大而全的Skill产品包，最好体验根据需求微调。安装地址见评论

歸藏(guizang.ai)@op7418 · 6月10日19

笑死，藏师傅 PPT Skill 也上央视了，感谢腾讯云和 workbuddy

meng shao@shao__meng · 6月10日77

Text-To-Lottie: 一套「Agent Skill + 本地预览 Harness」的组合，让 Agent 生成 Lottie，在浏览器里实时验收开源作者 @konstipaulus ，开源地址： https://github.com/diffusionstudio/lottie 安装方式：npx skills add diffusionstudio/lottie Skill：教 Codex / Claude Code / Cursor 等 Agent 如何写出 Skottie 可渲染的 Lottie JSON Harness：基于 Skia CanvasKit（Skottie）的全屏播放器 + React 控制面板，Agent 写入 public/lottie.json 后 Vite 热重载，立刻可见技术架构 · 输出物：标准 Bodymovin JSON（public/lottie.json） · 渲染引擎：Skottie（非 lottie-web）—— 与 AE 导出路径更接近，也更适合程序化生成 · 预览闭环：写文件 → 保存 → 页面自动刷新 → 肉眼验收 · 可编辑性：Skottie Slots + controls.json，实时调颜色、尺寸等参数 · Agent 验收：URL 参数 ?frame=60&paused=1 精确定位帧，截图比对，不靠拖进度条作者给的五条 Prompt 指南 1. 给具体素材：SVG、真实数据、截图；抽象描述质量明显下降 2. 用动效术语：ease-in / ease-out / ease-in-out，对应 Lottie 关键帧贝塞尔手柄 3. 像摄影师思考：pan / zoom / hold—— 用父级 Group 的 transform 模拟镜头 4. 声明需要的控件：默认只有背景色；颜色、描边宽度等需显式要求 Slots 5. 锁定时间规格：如「150 帧、30 FPS」= 5 秒成片，避免 Agent 随意猜时长适用 / 不适用 1. 适合： · 单场景、短时长 Motion Graphics · SVG → Lottie（Figma 导出路径） · 数据可视化动效（K 线、图表、指标） · 需要透明背景、矢量、可嵌入 UI 的动效 2. 不适合： · 多镜头剪辑、音视频合成 → 用 Remotion · 复杂角色绑定、粒子、3D → AE 手工或专用工具更合适 · 需要 lottie-web 全特性兼容时 → Skottie 子集有差异

译开源项目 Text-To-Lottie 提供一套 Agent Skill 和本地预览工具，让 Codex/Claude Code/Cursor 等 Agent 生成标准 Bodymovin JSON（public/lottie.json），通过 Skottie 渲染引擎在浏览器中实时验收。安装命令：`npx skills add diffusionstudio/lottie`。技术特点：输出标准 Lottie JSON，使用 Skottie 渲染（非 lottie-web）；基于 Vite 热重载实现自动刷新闭环；支持通过 Skottie Slots + controls.json 调整颜色、尺寸；Agent 可用 URL 参数 `?frame=60&paused=1` 精确定位帧截图。Prompt 指南包括：给具体素材、使用动效术语、pan/zoom/hold 模拟镜头、显式声明 Slots、锁定时间规格。适合单场景短时长 Motion Graphics、SVG→Lottie、数据可视化、透明背景矢量动效；不适合多镜头剪辑、复杂角色绑定、粒子、3D 或需 lottie-web 全特性的场景。

Chubby♨️@kimmonismus · 6月10日35

yay weekly reset, thanks!

译Anthropic重置了产品使用限制，并分享四条使用Fable模型的技巧：1）分配比此前模型更宏大、更具挑战性的任务；2）默认使用xhigh/high effort获最佳性能，medium适合快速交互；3）重写Skills和CLAUDE.mds，避免旧指令限制Fable的自主判断；4）从提供任务转向提供目标，描述完成状态和验证方式，让Fable自行规划路径（/loop与/goal命令专为此设计）。

OpenClaw🦞@openclaw · 6月10日44

OpenClaw 2026.6.5 🦞 🔎 Parallel web search bundled 🛡️ security.installPolicy for skill/plugin installs 🎙️ Matrix voice + thread fixes 🧠 Anthropic/MCP recovery hardened Less chaos. More claws. https://github.com/openclaw/openclaw/releases/tag/v2026.6.5

译🔎 并行网页搜索已捆绑 🛡️ 技能/插件安装的安全策略 🎙️ Matrix 语音 + 线程修复 🧠 Anthropic/MCP 恢复加固更少混乱，更多钳子。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.5

elvis@omarsar0 · 6月10日60

// Self-Harness: Harnesses That Improve Themselves // (bookmark this one) Most of the agent scaffolds we rely on today are built once and remain frozen or mostly unchanged. The harness, like the skills, needs to evolve with new models. What if the scaffold rewrites itself? This new work treats the harness, the prompts, tools, and control flow around the model as a learnable artifact that improves from its own runs rather than staying a fixed wrapper you hand-maintain. The scaffolding becomes the part that compounds, run after run. If you run long-horizon agents, a self-modifying harness turns scaffold upkeep from manual work into something the system earns on its own. Paper: https://arxiv.org/abs/2606.09498 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译当前多数智能体脚手架（scaffold）构建后保持静态。新研究Self-Harness将harness（提示词、工具、控制流）作为可学习的工件，通过自身运行迭代改进，而非手动维护的固定包装器。运行长周期智能体时，自我修改的harness将维护工作转化为系统自动获得的能力。论文：arxiv.org/abs/2606.09498。

Chubby♨️@kimmonismus · 6月10日66

The HyperFrames engine leaving the terminal and becoming a Claude connector is a bigger deal than it looks. Ask for a video the way you'd ask for the report. No repo, no setup. That's the version of AI video that non-developers will actually use.

译HyperFrames 引擎已脱离终端，正式成为 Claude 官方连接器（MCP），与 Anthropic 合作实现：用户像索要报告一样直接请求视频，无需代码仓库或本地配置。这使非开发者也能真正使用 AI 视频生成——文档常被略读，而视频更易理解。

AYi@AYi_AInotes · 6月10日74

分享一个开源免费的省token神器，17k star，本周增速最快的项目之一，可以把AI API账单直接砍到原来的1/5，回答质量还不变，这就是刚火起来的 headroom，专门干一件事：把所有要喂给AI的东西（输出、日志、文件、RAG块）先压缩一遍，砍掉 60%-95% 的 token，最终回答质量完全没变。最爽的是不用改一行现有代码，直接当库、代理或者 MCP 服务器插进去就行，无缝对接所有大模型。以前为了省token绞尽脑汁凑提示词，现在一行配置，直接砍九成账单，这才是所有AI开发者真正的刚需啊😲

译开源免费的 token 压缩工具 headroom 本周增速最快，已获 17k star。它专为所有 AI API 调用（输出、日志、文件、RAG 块）设计，压缩 60%-95% 的 token，将账单直接砍到原来的 1/5，且回答质量不变。无需修改一行现有代码，可作为库、代理或 MCP 服务器无缝对接所有大模型。开发者无需再绞尽脑汁凑提示词，一行配置即可大幅降低 API 成本。

Chubby♨️@kimmonismus · 6月10日66

Most "chat with your data" tools are still black boxes. You ask a question, you get a number, and you have no real way to know whether the model invented it. Mora goes the other direction. It maps the question to a semantic layer, runs SQL against your actual schema, and puts the query and the underlying rows right there in the panel. You can verify every number yourself, or fix the join if it got it wrong. Add an MCP layer so the same engine runs inside Claude and Cursor, and this stops looking like another AI demo and starts looking like governed self-serve that data teams might actually trust. Worth a look if you are tired of being the bottleneck for every revenue question.

译大多数“与数据聊天”工具仍是黑箱，用户无法验证答案。Mora反其道而行：将问题映射到语义层，直接对实际schema运行SQL，并在面板中展示查询语句与底层数据行，用户可自行验证或修正。通过添加MCP层，同一引擎可在Claude和Cursor中运行，使数据分析变得可治理且可信。引用@pladevall称，分析是AI最大机会，目前工具远未满足需求，因此今天正式发布Mora。

meng shao@shao__meng · 6月9日52

微信的运维同学，醒醒！现在 2026 年了啊！ 1. 英文内容，中文配图？ 2. 每句都有表情？ 3. # 早就被 X 平台命令禁止了啊！

译微信开放平台新增AI能力，支持小程序通过自动模式或开发模式接入。运维吐槽：推文格式问题该醒醒了。

Berryxia.AI@berryxia · 6月9日26

卧槽！我还是太草率了！前有饺子馆的Skills，今有瑞幸咖啡的CLI/Skills/MCP 服务一应俱全啊！程序员的浪漫我是不懂啊，下个单都要搞这些有的没得？自己给我付钱就行了，我负责免费喝。安装地址：https://open.lkcoffee.com

译瑞幸咖啡（Luckin Coffee）近日开放CLI、Skills和MCP服务，用户可通过安装地址（open.lkcoffee.com）体验。此前“饺子馆的Skills”已引发关注，瑞幸紧随其后提供一整套开发者工具，支持命令行下单等操作。目前具体功能细节尚未完全披露。

数字生命卡兹克@Khazix0918 · 6月9日70

http://x.com/i/article/2064208729172746240 # 帮大家总结了一下凌晨的苹果WWDC26。就在凌晨，苹果的WWDC 2026结束了。这是Tim Cook作为CEO最后一次站在WWDC的舞台上了，9月1号，他就会把位置交给硬件工程高级副总裁John Ternus，所以今年这场，多少带了点告别的意思。但发布会本身，坦率的讲，还是那个苹果。不惊不喜，稳稳当当。整场下来最大的主题就一个，还是AI，比如跟Gemini的合作终于落地了，比如Siri终于有了个AI的后缀，比如各种IOS的APP，也都往AI化的方向一步步集成。不过苹果还是那个苹果，动作慢的可怜，并且最难崩的依然是国区几乎都不支持。原话是：不过，这些功能的更新还是值得一看的，以及国内到底苹果会跟谁合作，还是一个意思的话题。我也通宵给大家蹲完，然后整理完了。希望对大家有用。一. Apple Intelligence新架构先说底层，因为后面所有AI相关的东西都建立在这套新架构上。 1. 跟Google Gemini的深度合作这次苹果也终于官宣了。 Apple Foundation Models的新一代是跟Google合作，基于Gemini家族一起来做的，搞了5个模型，然后苹果把这些模型适配到了端侧运行和Private Cloud Compute服务器上运行。 Private Cloud Compute就是苹果专门为AI搭建的一套云计算基础设施，跑在苹果自研芯片上，用的是一个从iOS裁剪出来的专用操作系统。核心承诺是，你的数据端到端加密，只用于处理你的请求，处理完立刻删除，不存储、不留痕，连苹果自己的工程师也看不到你的数据。再细节的参数啥的就没说了，反正就是苹果承认了自己在大模型基础能力上追不上第一梯队，选择花钱买他们认为对普通消费者来说最好的底座，然后在上面做自己擅长的系统集成和体验设计。策略上说得通，面子上。。。面子有啥用你说对吧。 2. 双端侧模型苹果今年的端侧模型分了两档。所有支持Apple Intelligence的设备都有一个基础版端侧模型。但在能力强一点的的Apple设备上，比如iPhone 17 Pro、iPhone 17 Pro Max、iPhone Air、M4 及以上且至少 12GB 统一内存的 iPad、M3 及以上且至少 12GB 统一内存的 Mac，苹果额外部署了一个更强的第二版。这两个端侧模型分别是： AFM 3 Core，一个3B的小模型。AFM 3 Core Advanced，20B的MoE模型。这个更强的模型多出来的核心能力是语音和更高精度的听写等功能，它能听懂语音也能生成语音。所以像Siri更有表现力的新声音、更精准的全系统听写这些功能，都只有跑得动第二版模型的设备才能用。 3. 系统架构有了模型之后，对模型的调度还是需要一些设计的。苹果做了一个叫系统编排器（System Orchestrator）的东西，它是整个Apple Intelligence的调度中心，负责协调四大系统级能。上下文理解。你设备上所有的内容，照片、邮件、备忘录、消息，都通过Spotlight的语义索引被组织起来了。广泛世界知识。比如你问世界杯赛程是什么，系统编排器会让Apple Intelligence联网去搜索，然后通过Private Cloud Compute来生成回答。 App Actions。这是让Siri能动手做事的关键。系统编排器知道你手机上每个App能做什么（通过App Intents框架），当你说发消息给某某的时候，它会调用Messages来执行。理论上，任何适配了App Intents的第三方App都能被Siri调用。屏幕感知。系统编排器能看到你当前屏幕上显示的内容。比如你正在Safari里看一篇文章，这时候问Siri一个问题，它能结合你正在看的内容来给出更相关的回答。这四个能力组合在一起，就是苹果所说的以你为中心的AI，也是硬件跟AI结合的一个比较完整的方案。 4. 隐私他们的原话是： We believe privacy in AI is non-negotiable. 我们认为，AI中的隐私是不可谈判的。苹果的态度是，很多AI厂商在嘴上说隐私，但默认情况下都在保留你的个人交互数据，把保护隐私的责任推给用户。苹果的方案就是前面说的端侧处理+Private Cloud Compute，数据不存储、不可访问，只用于执行请求，外部专家可以随时审计。二. Siri AI 今天真正的重头戏，也是苹果最大的发布了。给新版Siri正式命名为Siri AI。 1. 核心能力升级 Siri AI基于整套新的Apple Intelligence架构，集成了上面提到的很多的新能力。苹果的说法是，Siri现在是一个“有了质的飞跃”的助手。然后基于这次的新Siri AI，他们做了一些演示。演示一，问答+提醒+音乐。问“旧金山的某位歌手演唱会什么时候”→ Siri给出答案（7月26号）→ 追问怎么买票 → Siri说要抽签 → “抽签开始的时候提醒我”→ 设好提醒 → “放一首她的新单曲” 演示二，屏幕感知+个人上下文+路线规划看到一张照片问“这是哪”→ Siri识别出圣克鲁兹海岸的天然桥州立海滩 → “我朋友Jeff最近搬到附近了，他新家在哪”→ Siri从消息记录里找到Jeff发过的地址 → “给我导航到那个拱门，中间停一下Jeff家”→ Siri规划路线演示三，照片筛选+共享 “给我看上周在沙斯塔山的照片”→ Siri搜索照片 → “只把有Bryce、Madison和Quinn的照片加到家庭共享相册”→ 完成演示四，对话式体验查世界杯开幕周末赛程 → “我想为巴西vs摩洛哥那场办个观赛派对，给我两个国家的经典菜”→ Siri给出菜品（还带图片）→ “Maria最近提到的那个甜点是什么”→ Siri搜索消息找到椰子饼干→ “把这些整合成一个菜单”→ Siri生成创意菜单 → “发消息给Gold Chasers群组问他们要不要来，附上菜单”→ 发送演示五，Mac上的对话式Siri Siri也集成进了Spotlight。在Spotlight里输入问题就能启动跟Siri的对话，窗口可以拖拽和调整大小。演示了让Siri分析多个不同格式的文件比较三个棚子的报价，然后结合儿子之前发的消息里提到的电路问题来做推荐，最后让Siri直接起草一封邮件给选中的供应商。大概就是这样。我的感受是，怎么说呢。 2026年了，Siri AI的演示核心还是问答、搜索个人信息、发消息、设提醒这些事。对话式体验确实比以前强了不少，能连续聊、能带上下文了，但说实话，这些demo跟现在的ChatGPT、Claude比，谈不上什么惊喜。最关键的是，没有看到真正的Agent能力。也没有看到Siri自主规划、自主执行多步任务、自主调用多个App完成一个复杂目标的场景。苹果说了App Actions，但演示里最复杂的也就是搜索照片→筛选→加到共享相册这种程度。这块确实是有一点失望。 2. 新语音体验在支持第二个强端侧模型的设备上，Siri有了全新的语音。更有表现力，语调变化更自然。苹果还让你可以自定义Siri的语音风格，调表现力和语速，更亲切更好玩一点。 3. 全系统听写升级同样需要第二档端侧模型，新的听写引擎在拼写、标点和大小写上都更精准了。因为它是内建在系统键盘里的，所以不管你在哪个App里，只要调出键盘就能用。发布会上提到的场景是“在地铁上用语音发消息”和“边想边说地用日记App记录”，都是日常会用到的，这个我觉得还是比较刚需的，好评。 4. 视觉智能 iPhone上，Visual Intelligence（视觉智能）集成进了相机App，新增了一个Siri模式。按快门键让Siri看到你看到的东西，然后给你有用的回应，可以下拉查看详细信息、问后续问题。 5. 写作工具 + Siri集成写作工具现在更深度地跟Siri结合了，你可以在任何能打字的地方用自然语言描述让Siri从头生成文本。在邮件和信息里，Siri还能根据你跟特定联系人的沟通风格来调整语气。另外，Apple Intelligence现在全系统自动校对了，你在任何App里打字，它都会自动检查拼写和语法，不用你手动触发，大多数第三方App也支持。 6. Siri独立App + 跨平台苹果给Siri做了一个独立的App，这是第一次。现在有了独立App之后，你所有跟Siri的对话都会被保存在这里，可以随时回看。最重要的是跨平台同步，你在iPhone上跟Siri聊了一个话题，打开iPad上的Siri App可以看到这段对话，继续往下聊，在Mac上也一样。对话历史通过iCloud加密同步，苹果看不到你的对话内容。 Siri AI还扩展到了watchOS（手腕上直接问）和visionOS（3D可视化的Siri，放在你空间里的任何位置，看着它说话就行，不用说「hey Siri」）。然后新版的Siri，目前只支持英语，后续会扩展其他的语言，欧盟和中国都目前不可用，可用时间未知。三. APP智能化反而是我今天觉得比较惊喜的部分。让AI渗透进所有人的生活中，确实还是得从老的APP改造入口，是最能进日常场景的。 1. Safari 三个新功能。智能标签页整理，Safari用Apple Intelligence分析你打开的每个页面，自动按主题分组。你浏览的时候，相关新标签页会自动归到对应主题下，可以一键关掉整个主题或者存为标签页组。 Notify Me，你可以用自然语言告诉Safari你在等什么变化（比如某个商品补货、某个报名开放），然后关掉那个标签页，Safari会自动监控，变化发生时推送通知。这个功能太实用了，不知道执行效果怎么样，但思路是对的。 Describe an Extension，用自然语言描述你想要什么，Safari帮你生成一个自定义扩展来调整网页内容，比如在工具栏加一个按钮来保存和评分你试过的食谱。还有一条，Safari所有智能功能都不追踪你的浏览数据，不跟任何人分享，包括苹果自己，然后稍微内涵了一下友商。。。 “不像某些浏览器”。 2. 密码App 密码App现在已经能提醒你弱密码和泄露密码了。新功能是，它现在能自动帮你更新密码，背后是Apple Intelligence和Safari配合，自动导航到对应网站、登录、改密码。一个“agentic”的动作，难得见到苹果用这个词。。。 3. 短信 Messages现在能理解对话上下文，提供一键建议。比如有人提到某个事，Messages会建议你创建提醒或备忘录，有人问你要照片，Messages帮你根据关键词、地点和人名搜索最合适的照片。 4. 邮件邮件也有了更智能的上下文建议，让你快速用喜欢的App（包括第三方App）采取行动。 5. 日历可以用自然语言添加事件了。你打字的时候，日历会自动识别联系人、地点，填上标题。编辑也更智能，比如把“每周”改成“每两周”，日历自动调频率。 6. 电话苹果把这个电话的功能叫Call Context。这个是我的刚需。打电话给商家的时候，电话App可以主动从你其他App里找相关信息。比如你打电话给航空公司改机票，它能自动从邮件里找到你的确认码。而且全部端侧运行，看的是你打给谁。但是咱就是说，新AI上国内的时候，咱能不能把那些恶心的营销电话也都用AI处理一下。。。 7. Home 家庭App可以支持用Apple Intelligence理解摄像头通知，把相关的通知合并成一个持续更新的活动通知。还能分析录像片段，生成描述，支持用自然语言搜索录像内容（比如搜快递），支持4K分辨率回放。 8. 快捷指令这个更新也挺好的，类似飞书的AI生成工作流。快捷指令现在支持用自然语言描述你想要的自动化，Apple Intelligence帮你组装所有步骤。演示里的例子是，“当我离开公司时，发消息告诉佩德罗我在路上，附上到家的预计时间”→ 快捷指令自动创建了一个自动化，检测离开公司地址 → 用地图计算到家时间 → 用信息App发送。还能追加描述来调整，比如自动播放最爱的播客。四. 创意与影像这块苹果也用AI雕了一些有意思的花。 1. Image Playground大升级 Image Playground这次大幅升级了一下。核心变化，支持写实风格了，之前只能生成那种卡通/插画风格，现在用Private Cloud Compute上的跟Gemini搞的新生成模型，可以做高质量的各种风格图片。毕竟你都用Gemini了，生图再不迭代一下，那就真说不过去了。你可以用照片库里的人来生成图片，用自然语言描述修改，用触摸手势圈选对象来移动/缩放/修改。还能选择不同的画幅，生成联系人海报和锁屏壁纸。同时，给开发者也开放了Image Playground API。 2. Photos AI编辑三件套 Cleanup升级，去除干扰物的效果更好了，复杂场景下的填充更真实。 Extend，扩展图片边界，给主体更多空间，或者调整画幅时不用裁掉重要内容。 Spatial Reframing（空间重构），这个是今年Photos里最酷的新功能。你可以在拍完之后重新调整照片的构图，就像你在拍照那个瞬间移动了相机一样。它用的是端侧的空间模型做实时预览，然后用Private Cloud Compute上的生成模型来填充透视变化产生的新区域。只生成空白区域的内容，原始照片的部分保持不变。演示效果确实不错，而且这个功能基于Apple Vision Pro积累的空间理解技术，对老照片和其他相机拍的照片也能用。五. 开发者工具 1. Xcode 苹果说Xcode是做agentic coding最好的地方。。。我一直不知道该从哪开始吐槽起。。。反正这次也做了一些更新，也基本围绕的着AI。比如它现在能一键把你的整个App本地化成其他语言，能跟模拟器里的虚拟设备直接交互（以前只能看代码），还支持自定义skills来扩展助手的能力。然后呢Xcode的代码助手现在可以选择不同的AI模型了，包括Google的Gemini。。。你还可以把它跟Figma和GitHub这样的外部工具连起来，让代码助手能够参考设计稿和代码仓库。测试方面，苹果推出了全新的Device Hub，把所有模拟设备和真实设备统一到一个界面里。你可以在里面模拟多点触控操作，一键切换App的深色/浅色模式，还能动态调整App的窗口大小来测试不同屏幕尺寸下的表现。 2. Foundation Models Framework 开发者可以在App里用Apple的端侧模型，今年新增了图像输入（之前只有文本），支持自定义Skills扩展模型能力，还能用同一套Swift API调用服务器端的模型。 3. Core AI Framework 全新框架，可以在所有苹果平台上用Apple Silicon的全部算力来本地运行其他模型。这个对开发者来说可能是最实际的，意味着你可以把自己的模型或者第三方模型直接跑在设备上。六. 体验升级就是一些偏系统偏设计的了，跟AI关系不大了。 1. Liquid Glass优化去年WWDC最爆的就是Liquid Glass这套全新设计语言。好看是真好看，但争议也不小。苹果今年也说去年太激进了，所以在IOS27上，底层优化了Liquid Glass的模糊算法，对复杂背景的弥散效果好多了。也加了一个透明度滑块，现在，你可以自己调Liquid Glass的透明度。 macOS上还做了几个调整，工具栏更统一了，侧边栏延伸到窗口边缘，侧边栏图标恢复了彩色，所有窗口统一了更紧凑的圆角，App图标也迭代了一版，在图标内部加了多层Liquid Glass折射效果。 2. 性能提升常规操作，比如iPhone和iPad上App启动速度快了30%，新拍的照片在图库里出现的速度快了70%，隔空投送传文件速度快了80%，iPad接外部硬盘浏览和传输文件速度快了5倍。 3. 搜索基础设施重建苹果重建了聚焦搜索、照片和邮件背后的搜索索引，让它更稳定、更全面。新内容几乎实时入索引，邮件搜索还加了全新的排名系统，置顶结果更准了。 4. 其他小更新照片，iCloud共享相册终于支持Android和Windows用户加入了，还支持全分辨率共享。 AirPods，支持自定义EQ了。 Apple Vision Pro，全景照片可以变成有深度的空间场景。地图，Flyover大幅升级，航拍影像+视觉智能模型，建筑细节和树木形态都清晰得多。网络切换，iPhone更智能地判断什么时候该从Wi-Fi切回蜂窝（终于不用手动去控制中心关Wi-Fi了）。信息App，低带宽环境下发大文件不会卡住对话了，会显示发送进度。无障碍，苹果官网上列了不少Apple Intelligence在无障碍方面的集成。 VoiceOver现在能更丰富地描述周围环境和屏幕内容，Magnifier可以放大后直接问Siri，Voice Control更灵活了，可以用自然语言跟App交互。这块发布会上没提，但确实是AI落地到实际场景里的好例子。写在最后今天WWDC算是平稳结束了。这也是Cook最后主持的一届WWDC了。苹果，这个伟大的企业，终于要交接到了下一棒人手中去。最后，我想用我特别特别喜欢的乔布斯的一段词结尾： "向那些疯狂的家伙们致敬。他们特立独行。他们桀骜不驯。他们惹事生非。他们格格不入。他们用与众不同的眼光看待事物。他们不喜欢墨守成规。他们也不安于现状。你可以认同他们，反对他们，颂扬或是诋毁他们。但唯独不能漠视他们。因为他们改变了寻常事物。他们推动人类向前迈进。或许他们是别人眼里的疯子，但他们却是我们眼中的天才。因为只有那些疯狂到以为自己能够改变世界的人，才能真正改变世界。

译苹果WWDC 2026落幕，核心仍是AI。Apple Intelligence新架构：与Google Gemini合作开发5个模型；端侧分AFM 3 Core（3B）和AFM 3 Core Advanced（20B MoE）。新Siri正式命名Siri AI，基于系统编排器融合上下文理解、App Actions、屏幕感知等能力，支持连续对话、跨平台同步及独立App，但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语，国区不可用，可用时间未知。

Berryxia.AI@berryxia · 6月9日75

兄弟们！地主家家没有余粮了都！天天烧Token 心里没有点b数啊？ AI coding工具天天帮你狂飙代码，结果你连自己到底烧了多少钱都蒙在鼓里？今天给大家推荐Lank 的Tokei这个macOS菜单栏小工具给你直接轻松拿捏它！对了！开源免费啊！记得给Star啊！它只读本地日志，零网络调用，30秒自动刷新，实时盯死Claude Code、Grok CLI、Aider、OpenCode等8个主流AI coding agent的token用量、实时成本、性能数据，还带每日图表、周热力图和年度Wrapped。更绝的是它支持私人Git多设备同步，价格表还能本地覆盖，闲置太久还会提醒你该休息了。以前大家只顾着堆agent、堆prompt去卷生产力，结果真正在烧钱的那些细节全被忽略了，现在Tokei直接把AI coding workflow从“爽用”变成了“精算”。这套本地监控一装上，你才发现原来真正掌控AI生产力的，从来不是模型大小，而是你对每一次token消费的清醒。地址见评论区👇

译Berry Xia 推荐开源工具 Tokei，这是一个 macOS 菜单栏小工具，只读本地日志、零网络调用，30 秒自动刷新，实时监控 Claude Code、Grok CLI、Aider、OpenCode 等 8 个主流 AI coding agent 的 token 用量、实时成本与性能数据，并附每日图表、周热力图和年度 Wrapped。支持私人 Git 多设备同步、价格表本地覆盖，闲置过久会提醒休息。引用推文指出，token 消耗情况可作为深度使用 AI 的面试亮点，数据全程私有，零侵入，无需任何认证。

meng shao@shao__meng · 6月9日68

Claude Code 上线一周年：演进与方法论回顾来自 Claude Code 负责人 Boris Cherny 与产品负责人 Cat Wu，从一年前首次内部 demo 只有两个 Slack 点赞，到现在绝对主流 Coding Agent，这一年 Claude Code 到底做对了什么？ https://www.youtube.com/watch?v=Hth_tLaC2j8 # 两条底层方法论 1. 错误即资产：写入规则，而非口头纠正 Boris 的核心习惯：每次 Claude 犯错，不直接说「下次别这样」，而是写入 CLAUDE.md、Skill 或类似持久化机制。逻辑是：口头纠正只影响当前会话；规则沉淀后，agent 可长期、反复、自主执行。这是「让 agent 几乎无限运行」的前提。 2. Verification（验证）≠ 单元测试多数人把 verification 理解成 lint、类型检查、单元测试——这些早已自动化，不是 agent 时代的重点。真正的 verification 是：agent 能否亲自「跑起来」验证结果。 · 早期案例：让 Opus 4 写完功能后，在 bash 里启动另一个 Claude CLI 自测。 · 现在：iOS/Android 模拟器、桌面应用的 computer use 点击测试已成常态。 · Cat 的实践：桌面开发 Skill 教 Claude 启动本地 app、点 UI、测边界；若 staging 异常，先读 Slack 判断是否环境问题；修完后更新 Skill，形成闭环。要点：验证能力往往需要针对具体产品定制，无法一键通用。 # Loops/Routines：从「人用工具」到「系统替人值守」 Routines 被定位为 Agent SDK 之后第一个「显而易见」的规模化应用。典型案例： · 某工程师为 Voice Mode 设 routine：监听所有相关 GitHub issue/bug → 自动提 PR → 通知本人。 · 另一 routine：5 小时未响应的 bug 自动修复，易验证的直接 merge。 · Cat 遇到自己功能的 edge case bug，还没动手，Claude 提示「另一个 Claude 已修好」。组织影响： · 代码评审、CI 修复、rebase 等琐事，团队成员已很久没亲手做。 · 多个人的 Claude 并行工作，形成「隐形协作网」。重点：把工程运维流程产品化、自动化。 # Auto Mode：取代 Plan Mode 的默认选择 Boris 明确表示：Plan Mode 已基本不用，全面切到 Auto Mode。原因： · Opus 4 ~ 4.5 仍需显式规划；从 4.6、尤其 4.7 起，模型已能自主规划。 · Auto Mode 的价值是：启动 agent 后即可转向下一个任务，无需盯屏点确认。安全设计的反直觉结论：人工逐条审批 99% 都会点「是」的权限提示，反而更危险；Auto Mode 用独立分类模型筛风险，人只关注被拦截的少数异常，整体更安全。上线前流程： · 收集数千条 agent 轨迹 + 权限请求，训练分类器； · 红队 prompt injection、渗透测试； · 建 eval，确保已知攻击全部被拒； · 内部团队继续攻击、迭代。 Boris 认为：「把 prompt 路由给另一个模型做安全检查」——他最初认为行不通，实测却效果很好。这反映基于大模型构建产品时，许多旧工程直觉需要重写。 # 组织变革：AI 必须成为流程中心 Boris 引用 90 年代 HBR 案例：PC 普及初期生产力未显现，因为企业只是把电脑「放在旁边」，流程仍是纸笔+文件柜。真正释放价值，需要把电脑置于业务流程中心，淘汰旧媒介。类比到 AI： · Anthropic onboarding 不问人，问 Claude； · 提问、写代码、CR、安全审查、填表，均经 Claude/Co-Work； · 领先企业正在把 AI 放到同样位置。与 PC 转型需 10–15 年不同，AI 转型更快，因为： · 工作已高度数字化； · Claude 能操作电脑、写代码、跑代码。角色融合： · 产品、设计、DevRel 都在写代码、提 PR； · 工程师端到端负责：构思 → 实现 → 对接法务/市场/安全 → 发布； · 设计、PM、财务、数据科学等「邻接角色」广泛采用 Claude Code。 · 未来不是「人人 PM」或「人人工程师」，而是两者合一——好奇心、产品品味、端到端 ownership 成为关键能力。 # 多 Agent 时代的工具形态从「6 个终端 tab + 6 份 git checkout」→ 单 tab + Agent View + Desktop App（自动 worktree）。意外变化：Boris 约一半工程工作已在手机上完成——Remote Control、Voice Mode，边走边看 agent，现场聊出新想法即开 agent 实现，无需回电脑。这说明：工程师的主战场正从 IDE 转向 agent 编排界面。 # Context Minimalism（上下文极简主义）技术话语的演进轨迹： · Sonnet 3.5 时代 → Prompt Engineering · Opus 4 时代 → Context Engineering · 当前模型 → Context Minimalism 原则： · 最小 system prompt、最少工具集； · 只给模型「拉取上下文的能力」，不塞满上下文； · 过多上下文 ≈ 微观管理，限制模型找更优路径； · Harness 本身也在变瘦，把 token 空间留给用户意图。这与一年前「精心构造 mega prompt」的做法形成鲜明对比。 # 对未来的判断团队预判： · Agent 运行更久、更自主； · 很少只跑 1 个 agent，常见是数十、数百、数千； · 一年后的产品形态很可能与今天完全不同； · 创新将更多来自用户社区，而非官方闭门设计。值得肯定的洞见： · Verification 定义准确，切中 agent 工程要害； · 「错误写入规则」是可复制的工程纪律； · Auto Mode 安全思路有实证支撑，不是空喊； · 组织变革类比有历史参照，不过于浪漫化。需保持审慎之处： · 发言者身处 Anthropic 内部，描述的是理想态实践，外部企业落地节奏未必相同； · 「财务用 Claude Code 做预测」等案例缺少可验证细节； · Routines 全自动 merge 依赖「易验证」边界，复杂系统风险需自行评估； · 「角色融合」「手机写代码」更像前沿团队样本，非行业普遍现状。

译Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论：每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正；Verification指agent亲自跑起来验证（如启动模拟器、computer use测试）。Auto Mode取代Plan Mode，用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维（如监听GitHub bug自动提PR）。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行，产品形态将巨变。

Berryxia.AI@berryxia · 6月9日75

Kimi 终于更新了一些新东西啊！ Kimi Work直接在你本地桌面塞进300个AI代理并行狂奔它刚上线，macOS和Windows都能跑，配上WebBridge扩展，Agent自己就能在浏览器里搜、滚、点、打字，把整件事干完。专门为财经场景调教好，Yahoo Finance、世界银行数据直接原生调用，零配置拉全球市场和经济情报。更狠的是它自带记忆系统，会默默记下你的偏好、每一次决定，下次就越来越懂你该怎么干。 300个子Agent自动拆任务、协作执行，最后直接把现成的PPTX、Word、PDF、Excel扔到桌面。以前大家以为agent必须靠云端大模型才能真正干活，结果Kimi Work用本地swarm+原生工具+长记忆，直接把生产力拉到桌面原生体验。这套东西一上手，你电脑就多了一整个懂你的秘书团。

译Kimi Work 是一款桌面 AI 代理，支持在本地最多 300 个代理并行执行任务，已适配 macOS（Apple Silicon）和 Windows。配合 WebBridge 扩展，代理可自主在浏览器中搜索、滚动、点击、打字完成操作。内置财经场景优化，原生调用 Yahoo Finance 和世界银行数据，无需复杂 API 配置。自带记忆系统记录用户偏好和决策历史。最终自动生成 PPTX、Word、PDF、Excel 文件。

AYi@AYi_AInotes · 6月9日58

WWDC 2026 Apple 发布了下一代 Apple Intelligence 驱动的 Siri，MKBHD猜测首版 Siri AI 很可能不支持随意切换默认 App。我觉得MKBHD大概率是对的，毕竟App Intents 的框架和Shortcuts 在那，默认 App 设置也在那，理论上新 Siri 完全可以读你的偏好然后调第三方 App，但从能调用到真正替你干活，中间隔着一堵墙，权限、隐私、商业利益，每一层苹果都极其保守，让一个 AI 自动把你的日程写进 Google Calendar、自动处理冲突、自动发 WhatsApp 消息，这跟你手动切个默认邮箱完全不是一回事，相当于直接把用户数据和使用场景送出去给竞争对手，苹果肯定不干这种事，我猜第一版的剧本大概率是这样：在苹果自己的 App 里，新 Siri 玩得飞起，理解你、记住你、跨 App 串联，只要你别出这个它自己的苹果生态就行，出了苹果生态它就开始装傻，倒不是技术限制，纯粹是战略选择，因为苹果的战略核心逻辑是生态控制和隐私优先。但真正麻烦的还不是美国国内，在美国iMessage 和 Apple Calendar 是主流，这个限制只是有点小烦，出了美国WhatsApp 是刚需，Google 服务是生产力主力，Siri 如果在这些地方打不通，就不是有点烦了，等于是完全不可用，一个号称懂你生活的助手，结果连你每天发消息的 App 都进不去，那它能懂多少，所以新 Siri 有多聪明其实不是问题，关键是是它听谁的，听你的，它是你的贴心智能助手，听苹果的，它就是个苹果系统的门卫，感觉第一版看起来更像门卫

译MKBHD猜测WWDC 2026发布的Apple Intelligence驱动的新Siri，首版不会允许用户切换默认App（如用Google日历代替Apple日历）。推文作者赞同这一判断，认为苹果出于权限、隐私和商业利益考虑，会在自有生态内让Siri强大，但出生态则受限。在美国市场这一限制可忍受，但在海外WhatsApp和Google服务是刚需，Siri若无法调用则近乎不可用。新Siri的核心矛盾不在于智能，而在于它听用户的（贴心助手）还是听苹果的（生态门卫）。

NotebookLM@NotebookLM · 6月9日72

Want a closer look at today’s launch? Here is a breakdown of what’s new and exciting 🧵: First up: An upgraded, more thoughtful chat experience. Powered by Gemini 3.5 and @Antigravity, you will now have better visibility into the AI's thinking process. Plus, each notebook has a secure cloud computer including 100+ curated software skills, unlocking deeper research and more complex analysis.

译想更详细了解今天的发布吗？以下是新功能和亮点的介绍🧵：首先：升级版、更周到的聊天体验。由Gemini 3.5和@Antigravity提供支持，您现在将更清晰地看到AI的思考过程。此外，每个笔记本都有一台安全的云电脑，包含100多种精选软件技能，解锁更深入的研究和更复杂的分析。

ClaudeDevs@ClaudeDevs · 6月9日64

We've added an observability dashboard for developers of connectors. Connectors let third-party developers bring their tools and data to Claude via MCP.

译我们为连接器开发者添加了一个可观测性仪表盘。连接器让第三方开发者能够通过MCP将他们的工具和数据带到Claude。

宝玉@dotey · 6月9日54

帮转，豆包手机团队招设计工程师

译字节跳动豆包手机团队招聘设计工程师，需具备 Android 平台经验。团队调研总结了五种设计工程师画像：AI Design Engineer（转译 AI 能力为交互产品体验，处理 agent workflow、tool call、状态反馈等）、Product UI Craft Engineer（打磨高质量前端原型和交互细节）、Design Systems Engineer（建立设计系统与前端基础设施，连接 Figma 变量和代码组件）、Creative Technologist / Motion & Graphics Engineer（负责动效、实时图形、3D/空间交互）、AI Design Workflow Architect（搭建 AI 辅助设计工作流，使用 Claude Code、Cursor、v0 等工具）。多数设计工程师技能交叉，欢迎感兴趣者联系。

宝玉@dotey · 6月9日61

微信格局还是不够，总是想着大家都去他们家一亩三分地耕耘，还幻想着未来微信会继续是超级入口，人人都在用微信，所以只需要让 AI 去操作小程序。但现实是，未来微信的入口属性会越来越少，以后的年轻人，不会再去打开微信，只会问自己的 Agent：去帮我总结一下我昨天的群聊，去给我妈发条消息说晚上不回家吃饭了。而这个承担超级入口职责的 Agent，大概率不是微信 AI。

译微信发布《开发者接入微信 AI 生态的指引》，引导小程序开发者接入微信 AI，让 AI 控制小程序。宝玉对此评论称，微信试图通过让 AI 操作小程序来维持自身超级入口地位，但未来年轻人不会主动打开微信，而是直接向自己的 Agent（如"帮我总结群聊"或"给妈妈发消息"）发出指令。承担超级入口职责的很可能不是微信 AI。

OpenRouter@OpenRouter · 6月8日72

New server tool: Advisor Let smaller models consult a higher-intelligence "advisor" model. Helps them escape doom loops, and helps you migrate to cheaper models! 🧵

译新服务器工具：Advisor 让较小的模型咨询一个更高智能的“顾问”模型。帮助它们逃出困境循环，并帮助你迁移到更便宜的模型！🧵

Kimi.ai@Kimi_Moonshot · 6月8日76

Meet Kimi Work - a local AI agent on your desktop that does the work for you. 🔹Native agent swarm: Up to 300 AI agents running in parallel on your local machine. 🔹Browser use: Paired with WebBridge extension, your agent will navigate websites in your browser: search, scroll, click, type and complete tasks. 🔹Built for Finance: Native global market data tool call from Yahoo Finance and World Bank - no complex API setup required. 🔹Memory system: Kimi Desktop keeps a running diary of your preferences, past decisions, and context to know you better. Available for macOS (Apple Silicon) and Windows. 🔗Try it now: https://www.kimi.com/products/kimi-work

译Kimi发布Kimi Work，一款本地运行的桌面AI智能体。支持最多300个AI智能体同时在本地机器并行运行；配合WebBridge浏览器扩展，智能体可在浏览器中导航、搜索、点击、填写并完成任务；内置全球市场数据工具，可直接调用Yahoo Finance和世界银行数据，无需复杂API设置；记忆系统会记录用户偏好、过往决策和上下文。支持macOS（Apple Silicon）和Windows。

Rohan Paul@rohanpaul_ai · 6月8日68

A longer context window does not solve the real memory problem in AI work. Kocoro just made AI memory a local Mac feature. It’s an open-source Mac AI agent framework at the engine level. Kocoro works by running a local agent on your Mac that can read your past sessions, files, apps, browser, screen, and terminal, then compress useful facts into memory so it can continue work without you repeating everything. Its security model is mostly local-first control: tool actions need permission, risky commands are blocked or re-asked, actions are audit-logged, secrets are auto-redacted, and memory/session sync is opt-in rather than always uploaded. Its Episodic Memory turns past sessions into selected project facts, decisions, collaborators, deadlines, and habits, so the agent can resume work like a teammate rather than a help desk ticket. Every night it distills your workday into a local knowledge graph — projects, decisions, open tasks. Next morning it picks up exactly where you left off. No context re-pasting. Github links in comments

译Kocoro 是一个引擎级的开源 Mac AI agent 框架。它通过本地 agent 读取用户的过往会话、文件、应用、浏览器、屏幕和终端，将有用事实压缩为记忆，使 agent 无需重复上下文即可继续工作。安全模型以本地优先：工具操作需授权，危险命令被拦截或二次确认，行为可审计，秘密自动脱敏，记忆/同步默认不上传。其“情景记忆”将历史会话转化为项目事实、决策、协作者、截止日期和习惯。每晚自动将工作日蒸馏成本地知识图谱，次日直接恢复进度。

小互@xiaohu · 6月8日53

微信公布小程序接入微信AI 的方式两种模式自动模式：微信自动分析喝操控你的小程序完成任务开发模式：开发者自助开放相关特性，审核后可让微信AI调用目前微信AI还在内测阶段，还无法体验…

Alibaba Cloud@alibaba_cloud · 6月8日34

Drowning in admin work? 📩 In Alibaba Cloud Claw Talks EP5, Brian Turcotte (Kilo Code) shows how OpenClaw-powered personal AI agents offload emails, update your CRM, and reduce context switching。 🎥 Premieres June 9, 2026 at 5 PM (UTC+8) 👉 https://youtu.be/d3QV28XCq2Y

译被行政工作淹没了？📩 在阿里云 Claw Talks 第 5 期中，Brian Turcotte（Kilo Code）展示了由 OpenClaw 驱动的个人 AI 智能体如何帮你处理邮件、更新 CRM、减少上下文切换。 🎥 首播时间：2026 年 6 月 9 日下午 5 点（UTC+8） 👉 https://youtu.be/d3QV28XCq2Y

meng shao@shao__meng · 6月8日73

让 Claude Opus 长时自主运行的 5 条核心实战建议来自 Claude Code 作者 Boris Cherny，咱们尽量体现独立于模型的建议，让它放到 Codex + GPT-5.5 等也能适用。 1. 启用 Auto Mode（自动权限模式）避免 Claude 频繁请求人工批准，让流程真正连续自主运行。 2. 采用 Dynamic Workflows（动态工作流）让 Claude 自主编排数百至数千个子 Agent，协同完成复杂任务。这是实现大规模长时任务的核心机制。 3. 使用 /goal 或 /loop 指令明确提示 Claude “持续推进直到任务完成为止”，防止中途停滞或过早收尾。 4. 优先使用云端 Claude Code 可随时关闭笔记本/电脑（推荐桌面或移动 App），真正实现无人值守长时间运行。 5. 确保端到端自我验证能力 · Web 项目：利用 Chrome 浏览器扩展中的 Claude MCP。 · 移动端：iOS/Android 模拟器 MCP。 · 后端服务：启动完整 Web Server 或服务进行验证。强调“self-verify its work end to end”，尤其结合动态工作流进行 E2E 测试、边缘案例和 UI 检查。提炼到独立于 Claude Opus 和 Claude Code： 1. 自动权限很重要，不然频繁找我确认，就不自动了 2. Goal 或 Loop 很强，不过要分任务，更适合高难度探索性、目标明确的任务，因为 token 消耗真的很高 3. 让本地电脑的关机、休眠等不成为障碍，不管是云端 Agent，还是保证本机能持续运行，都行 4. 端到端自我验证，最最重要，如果不能验证，token 消耗很可能变成无用功！！

译Boris Cherny 给出五条让 Claude Opus 自主运行数小时/天的建议：1. 开启 Auto Mode 减少审批；2. 用 Dynamic Workflows 编排数百至数千子 Agent；3. 使用 /goal 或 /loop 指令持续推进；4. 优先用云端 Claude Code，可关闭笔记本；5. 确保端到端自验证能力。邵猛补充：自动权限是前提；/goal、/loop 适合高难度任务但 token 消耗高；需解决本地关机/休眠；端到端验证最重要，否则 token 可能白费。

宝玉@dotey · 6月8日44

长时间运行 Agent，Agent 能自行验证才是关键，否则可能只是浪费 Token

译宝玉指出，Agent 能否自我验证是长时间运行的关键，否则可能浪费 Token。@bcherny 的基准测试显示 Claude Opus 最适合长时间运行，并给出 5 条自主运行技巧：1. 使用自动权限模式；2. 部署动态工作流让 Claude 协调数百/数千个 Agent；3. 用 /goal 或 /loop 指令持续推进；4. 在云端运行 Claude Code 以便关闭笔记本；5. 确保端到端自我验证——通过 Chrome 浏览器扩展验证网页、iOS/Android 模拟器 MCP 验证移动端、启动完整 Web 服务验证后端。

Boris Cherny@bcherny · 6月8日57

Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomously for hours/days: 1. Use auto mode for permissions, so Claude doesn’t ask for approval 2. Use dynamic workflows, to have Claude orchestrate hundreds/thousands of agents to get a task done 3. Use /goal or /loop, to nudge Claude to keep going until it’s done 4. Use Claude Code in the cloud, so you can close your laptop (easiest way is the desktop or mobile app) 5. Make sure Claude has a way to self-verify its work end to end: Claude in Chrome browser extension for web, iOS/Android sim MCP for mobile, a way to start the full web server or service for backend work

译多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务（如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器）。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧：使用自动权限模式避免审批；用动态工作流协调数百/数千个智能体；用 /goal 或 /loop 推动持续执行；在云端使用 Claude Code（桌面/移动端）以便关闭笔记本；确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。

Berryxia.AI@berryxia · 6月8日54

我靠，这不直接抢了苹果的活儿啊！ 6.6B的小模型直接把Siri和一堆云端巨头干到闭嘴，还只吃7GB内存就跑在Mac本地。 CJ Zafir他们搞的Mac-1，不光参数小到离谱，还一次性接了487个Mac原生工具，能链式调用、自动推理、连发邮件订会议都行，速度65 tok/s，UI还是纯Mac风。以前大家都觉得agent要靠大模型+云端才能靠谱，结果这个本地小家伙直接把“模型越大越强”的理论快要掀桌子了。它真正厉害的地方是把应用层做成了Mac原生体验，人用着舒服，Agent后台自己干活。云端SaaS的agent时代，可能还没真正开始，就已经被本地小模型+原生工具的组合终结了。感觉苹果没有做成的事儿，被这家公司嘿干了啊！完了实际测测支持中文方便是否也丝滑～

译CJ Zafir团队发布Mac-1模型（6.6B参数），可在任何Mac本地运行，仅需7GB内存（12GB更佳）。它支持487个MacOS原生工具，能执行多工具链式调用，推理开启，输出速度约65 tok/s。应用层基于Mac原生UI/UX设计。作者认为这种本地小模型+原生工具的组合直接挑战云端SaaS agent，甚至可能抢了苹果Siri的活儿。

宝玉@dotey · 6月8日74

之所以研究 Claude Design，是因为最近摸索出一套不错的开发模式： 1. 先用 Claude Design 去设计 App 的 UI 和 UX，第一版本越简单越好。 Claude Design 交付的结果是 HTML + CSS + React + data.js，通过 CSS 一下就可以看清楚设计系统的颜色系统、尺寸规范，通过 React 可以看清楚组件结构，通过 data 可以知道数据结构什么样子。这几个组合可比 figma 对于 AI 来说友好多了，尤其是 data.jsx，这是一般的设计 App 不会有的，但对开发特别重要的。还有一个优势就是交付的结果都是文本格式的，可以一起提交到 git 做版本管理，用 git diff 就可以清楚的让 AI 知道设计稿修改了什么。 2. 把 Claude Design 生成设计稿交给 Claude Opus 4.8 去实现一个 MVP，第一个版本只实现 UI 功能，告诉它技术栈（比如 AppKit 而不是 SwiftUI），通过几个小版本的迭代，让它逐步完善。比如第一个版本只是主界面之所以不用 GPT，是因为 Opus 在 UI 实现上比 GPT 好太多，同样的设计稿，GPT 实现的各种细节问题的，不能很好的遵守设计稿。之所以不一下子实现太多功能，是因为功能越少 Agent 越容易聚焦，做出来效果越好。所以怎么拆分版本，也是用好 Coding Agent 的一种能力。非 UI 的功能，用什么模型没有那么大差别，所以我也会用 Codex 配合非 UI 工作。 3. 每次生成一个版本，要让它可以运行，无论是 Agent 还是人都是需要即时反馈的，有了反馈才知道方向对不对，才知道下一步要做什么。人在测试的时候，能发现各种问题，代码问题就让 Agent 去修改，UI 设计有问题不是马上修改代码，而是要去 Claude Design 去修改设计稿，设计稿修改完了，把设计稿下载回去，替换本地的设计稿文件。设计稿替换后，让 Agent 去 git diff 分析一下变更，给它个截图，都不用多说它就知道怎么改了。 4. 版本稳定后继续新一轮迭代当设计的功能做完之后，不一定是要马上去设计新的功能，而是可以重新审查一下实现的代码，重构优化一下。比如我在第一版实现后，让 Opus 4.8 去做了性能分析，看性能问题在哪，然后告诉我当前用 NSScrollView，内容一多就内存暴涨，建议 NSTableView。我心想这不应该是一开始就该考虑到的么！不管怎么样亡羊补牢也不算晚。性能优化完就继续加功能，更新设计稿，让 Agent 参考新设计稿优化功能。 --- 再回来说研究 Claude Design 的事，因为反复 Claude Design 修改，同步到本地，然后这一步让我后来很烦，因为需要在本地和 Claude Design 网页切换，还要导出下载到本地，解压缩替换。于是我就想能不能在本地就可以重现 Claude Design 直接集成到本地 Agent，所以我去研究了 Claude Design，然后发现完全可以本地跑起来，只是本地 Agent 在工具调用上有些差异，以及不方便直接在设计稿上标记编辑。上周正好 Codex 发布了直接调试 iOS 的功能，它带了标记修改的功能，然后我灵机一动，这不正好可以代替 Claude Design 的标记修改功能么。（图2）问题是 GPT 5.5 模型设计能力不够，在 Codex 里面设计效果也不会好。接着 Cursor 也发布了网页标记功能，这下正好，Cursor 里面可以用 Opus 4.8，做成 Skill 就可以本地运行了，还可以在 Cursor 内置浏览器中，直接标记、评论修改。好在 Claude Code 的核心逻辑都在浏览器前端，他们在网页上做了个 Harness，这给了我分析的便利，耐心一点就可以分析出所有的 Prompt、内置 Skills、初始组件，再针对 Cursor 的工具做一些兼容就可以跑起来了。（图3）测试对比了一下和在 Claude Design 上跑的效果差不多。（图4）归根结底，还是 Claude Desktop 太拉胯了，Claude Design 本应该集成在 Claude Desktop 的，不然也不需要我这么折腾。当然不折腾下我也没机会学习 Claude Design 优秀的设计，真的很棒，接下来会系列更新我的学习心得。推荐去试试最终的 Skill，让你本地就可以跑 Claude Design： https://github.com/jimliu/baoyu-design

译宝玉分享开发模式：先用 Claude Design 设计 App UI/UX，生成 HTML+CSS+React+data.js（优于 Figma，利于 AI 理解和 Git 版本管理）；再用 Claude Opus 4.8 实现 MVP（GPT 5.5 在 UI 实现上差距明显）。因反复在本地与网页间导出替换设计稿繁琐，他编写工具解析 HAR 文件、解密 Claude Design 二进制内容，分析其 Prompt 和内置组件，将核心逻辑本地化集成到 Cursor（利用网页标记功能），配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。

🚨 AI News | TestingCatalog@testingcatalog · 6月7日68

ChatGPT can now provide more personalized responses based on the data from Gmail. This feature seems to be rolling out to more accounts now. > ChatGPT can now reference your synced Gmail account for more personalized information.

译ChatGPT现在可以根据Gmail数据提供更个性化的回复。这个功能似乎正在向更多账户推出。 > ChatGPT现在可以引用你同步的Gmail账户，以获取更个性化的信息。

宝玉@dotey · 6月7日75

最近为了研究 Claude Design，专门写了一个工具，可以解析 HAR 文件，解密 Claude Design 传输的二进制内容，这样可以方便的看到请求的 Prompt

宝玉@dotey · 6月7日76

对比一下 GPT-5.5 的设计效果和 Opus 4.8 的设计效果我真不是尬黑 GPT-5.5，我这种审美水平都能看出来差距使用 Skill：https://github.com/JimLiu/baoyu-design ---- 提示词 ---- /baoyu-design 帮我开发一款Reader Mac App，帮助我更好的阅读和收藏文章。数据都在本地。 ## 信息采集 1. 主动添加可以手动添加不同类型的信息： - URL：输入 URL，自动抓取内容和图片 - 附件：上传PDF、视频、图片 - Markdown 编辑：类似于发布博客，输入标题、内容、发布图片 - 其他 2. 自动订阅 - RSS 订阅 - 社交媒体账号：X、微博、YouTube - 其他 ## 信息编辑和分类 1. 标签每条内容都可以打标签 2. 分类、目录可以创建树形目录，可以把内容放到不同的分类 3. 收藏可以点击收藏 4. 编辑每一条内容都可以编辑，有个内置的Markdown编辑 ## AI 辅助 ### 功能 1. 自动翻译可以支持不同语言的翻译 2. 总结和摘要可以去对抓取了的内容进行摘要 3. 二次创作可以基于一条或者多条内容进行二次创作 ### 交互 1. CMD + K 随时唤出菜单 2. 集成 AI Chat Sidebar 可以显示 Chat Sidebar 通过 AI Chat 去调用 AI Agent 辅助对内容进行处理 3. 选中操作选中内容文字，可以进行处理，比如翻译、润色、修改之类

译宝玉对比了GPT-5.5与Opus 4.8的设计能力，认为Opus 4.8效果远优于GPT-5.5。他使用了基于Cursor浏览器和元素标注的baoyu-design Skill，该Skill通过npx skills add JimLiu/baoyu-design安装，可在本地运行：描述屏幕需求即可生成精良HTML，点击预览中任意元素即可发出修改指令。官方推荐搭配Opus 4.8以获得最佳效果。工具GitHub仓库：https://github.com/JimLiu/baoyu-design。

宝玉@dotey · 6月7日76

Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 — Claude Design, running locally. Describe a screen → get polished HTML → click any element in the preview & say what to change. Best w/ Opus 4.8. npx skills add JimLiu/baoyu-design https://github.com/jimliu/baoyu-skills

译Cursor 的新浏览器和元素标注功能，使其变成了一个设计工作室。认识一下 Cursor Design 🎨 — 在本地运行的 Claude Design。描述一个屏幕 → 获得精美的 HTML → 点击预览中的任意元素并说出要修改的内容。最佳搭配 Opus 4.8。 npx skills add JimLiu/baoyu-design https://github.com/jimliu/baoyu-skills

ginobefun@hongming731 · 6月7日60

http://x.com/i/article/2063404046279692288 # BestBlogs 早报 · 06-07｜多智能体编排、MCP 接口设计、缓存命中率在线阅读每日早报：https://www.bestblogs.dev/explore/brief/2026-06-07 ## 导语欢迎阅读 BestBlogs 每日早报 EP80。本期聚焦智能体时代的「工程底层」：一家从零出发、6 个月内靠多智能体编排拿到 1 亿美元 ARR 的公司，揭示了把「全部软件工程自动化」当作单一赌注的可行路径；Chrome DevTools 团队则在为 MCP 构建 Agent 接口的过程中，发现了 AI 协作界面设计与传统 UX 的本质裂缝。缓存失效、上下文窗口、工具 schema 稳定性，三篇文章指向同一个问题：Agent 系统的可靠性到底靠什么支撑。今日速览：3 篇精讲深度内容、7 条快讯速览、10 条补充阅读，带你掌握智能体工程最新动态。 ## Emergent：六个月 AI 折腾，如何催生一家 1 亿美元 ARR 公司阅读原文 → 从 Dunzo 到 Emergent：一次彻底的认知重建 Emergent 的故事，从一次失业开始。在此之前，创始人 Mukun 在印度超本地配送独角兽 Dunzo 深耕多年。Dunzo 融资约 5 亿美元，拥有近百万合同骑手，每月处理超过 1000 万单配送，是一家骨子里由物流、运营和真实世界摩擦驱动的公司。2023 年底，Mukun 从 Dunzo 离职，陷入创始人特有的疲惫期。他给自己放了半年假。这段时间里，他在笔记本上随意写代码，摸索早期的 GPT-4 和开源音频架构，没有目标，也没有压力。正是这种无结构的探索，给了他一个冷静的基线判断：当时大多数开发团队还在做「代码补全插件（Copilot）」，但指数级增长的深度学习模型意味着全系统自动化完全可行。 > 「我们持有一个非常宏观的判断：AI 能力将指数级增长，我们永远顺着 AI 的方向构建……要么一次性自动化全部软件工程，要么就别做。」这个判断，对比「逐功能替换」的主流路线，是一个极其激进的单点押注。技术底层：多智能体编排与定制容器 Emergent 的竞争对手大多从生成静态原型或前端 UI 入手，本质上是「演示软件」。Emergent 的目标更高：构建能直接被用户商业化的全栈应用。这要求他们走出「一个 Prompt 调一次 LLM」的简单模式，进入复杂的基础设施架构。多智能体编排工作区 Emergent 协调多个专用自主 AI 智能体，包括设计智能体、代码生成智能体和自动化测试智能体。这些智能体通过一个多层分布式记忆网络同步工作区。平台上每个应用构建的成功组件，都会被抽象并索引回这个全局记忆核心，持续驱动平台迭代改进。定制容器架构由于多个 AI 实体需要动态交互源文件，同时不能互相覆盖执行状态，标准虚拟环境远远不够。团队为此设计了专有容器模式： - 状态快照：自建内存快照框架，支持对运行中的应用进程做即时分叉（fork）。 - 快照路由：设计磁盘快照阵列，允许不同评估智能体并发测试替代功能实现。 - 动态 RL 流水线：实现与实时执行输出挂钩的本地强化学习循环。极端工程灵活性为了跟上基础模型的跨越式升级（例如 Anthropic 的 Opus 级模型），Emergent 采用了一个反直觉的策略：主动删除稳定的生产组件，从零重建内部智能体框架。这一策略在不到 9 个月内导致了三次完整的平台架构重写。登顶代码基准的 3 个月冲刺在正式对外发布之前，Emergent 投入 3 个月时间，专攻代码生成基准排行榜，最终登顶第一位。这并非为了排名本身，而是为了在融资和推广之前建立技术可信度。 > 「我们需要一个可验证的第三方信号，证明我们的系统是真实的。排行榜是我们能找到的最直接的证明方式。」结果与意义上线不到 9 个月，Emergent 达到 1 亿美元 ARR，覆盖 190 个国家、850 万用户，其中大多数是没有任何编程背景的普通用户，他们用 Emergent 构建可直接投入使用的商业应用。 Emergent 的故事揭示了一条在 AI 时代独特的增长路径：选择一个足够大的单点赌注（全部软件工程自动化），在底层技术上做出真正的工程创新（多智能体编排 + 定制容器），用可验证的第三方基准积累信任，最终撬动规模化的大众市场。这与传统 SaaS 的功能渐进式迭代路线截然不同。对于今天思考「AI 能做什么」的工程师和创业者来说，这篇访谈提供的不只是一个成功案例，更是一套思考框架：不要问 AI 能辅助哪个环节，而是问 AI 能否一次性接管整个流程。 ## 为智能体构建界面：Chrome DevTools 设计 MCP 工具的经验阅读原文 → 核心问题：Agent 是一种全新的用户类型 Chrome DevTools 团队在为 MCP（Model Context Protocol）构建 Agent 接口时，踩过一个几乎所有人都会踩的坑：把 Agent 当成「自动化后端」来设计。他们很快意识到，这个假设从根本上就是错的。人类和 Agent 可能拥有完全相同的目标，比如诊断并修复一个有 bug 的网页。但它们的认知局限、处理习惯和交互需求截然不同。传统 UX 设计的核心原则是「减少摩擦」，但在 Agent 界面中，这条原则有时反而会制造安全漏洞。「数据倾倒区」：上下文窗口的陷阱团队最初尝试把标准的性能追踪日志直接传给 Agent。一份典型的性能分析报告包含超过 5 万行复杂 JSON，体积达数 MB。结果显而易见：Agent 会立即耗尽上下文窗口，陷入所谓的「数据倾倒区（Dump Zone）」，完全失去有效处理能力。解决方案是主动做信息过滤。Chrome DevTools for Agents 剔除了视觉布局需求和过于密集的文件，改为返回清晰的 Markdown 文件和语义摘要，只突出最关键的性能指标（如最大内容渲染时间 LCP）。让模型直接看到关键句子，而不是被迫阅读整本书。四个工程支柱 1. Token 燃油效率团队引入了一个核心效率指标：「每次成功完成的 Token 消耗数（Tokens per Successful Outcome）」：这个指标衡量 Agent 接口的「燃油效率」：功能完整性（有效性）与 Token 用量及调用时长（效率）之间的平衡。针对 Token 消耗，团队采用了三项优化措施：工具分类（将扩展调试等冷门操作从默认上下文中隐藏）、精简模式（仅暴露三个核心工具）、命令行管道化（让 Agent 在本地完成数据转换，而非占用模型上下文窗口）。 2. 错误自愈每次执行报错都会迫使 Agent 消耗额外 Token 进行诊断重试。解决思路是构建「描述性错误消息」，在错误信息中嵌入明确的上下文。例如，将一个导航失败错误更新为追加说明「未找到要导航的历史条目」，Agent 就能立即自主修复，无需人工干预。 3. 工具可发现性与 Schema 设计将单体端点拆分为细粒度工具组合会引入发现问题。当 Agent 面对数十个微工具时，可能难以找到正确工具。团队的做法是把 API Schema 当作「LLM 的 UI」来精心设计，为每个工具标注精确的激活条件，明确说明何时调用、何时不调用。 4. 三层信任边界 Agent 面对的信任边界不同于人类用户： - 本地环境：开发者自用工具，权限可以宽松。 - CI 环境：自动化流水线，需要受控权限。 - 公网环境：未知来源调用，需要严格沙箱。对 Agent 工程的启示这篇来自 Chrome DevTools 团队的一手经验，对今天所有在构建 MCP 工具或 Agent 接口的工程师都有直接价值： - 不要把 Agent 当成「更快的人类」，它需要专为其认知模式设计的接口。 - Schema 质量直接影响 Agent 的调用成功率，文档写给 LLM 看，不是写给人看。 - 信息密度控制是 Token 经济学的核心，传得越多不等于 Agent 理解得越好。 - 安全边界在 Agent 场景下需要重新设计，传统「减少摩擦」的原则在此可能适得其反。 ## 每个 AI 智能体功能都是一个缓存失效面阅读原文 → 真正的架构问题 OpenClacky 创始人 Yafei Lee 在这篇文章开头给出了一个简洁但深刻的核心命题： > 「每个 Agent 功能都是一个缓存失效面。技能加载新的系统上下文；子智能体工作流分叉前缀；浏览器自动化添加易变的工具输出；压缩重写历史；模型切换会碎片化缓存命名空间——如果你的缓存命中率远低于预期，这很可能就是原因。」这不是一篇讲如何调用 LLM 的文章，也不是讲如何增加工具的文章。它讲的是：在一个功能不断迭代的 Agent 系统中，如何保持缓存前缀稳定。两代失败架构的完整复盘第一代（2024 年至 2025 年初）：RAG 一切第一代架构是教科书式的 RAG 系统：嵌入用户代码库、文档和对话历史到向量存储，每次查询经过混合检索、重排序和查询改写后再进入 LLM。听起来合理，实际上问题重重： - 嵌入成本持续攀升，且数据始终是过时的。每次代码库更新都需要重新嵌入，实时同步不可靠，向量存储的索引一直落后于真实代码。 - 90% 的召回率远远不够。每 10 次检索就有 1 次返回错误上下文，对于多步骤链式 Agent 来说，错误会快速复合累积。团队估计，97% 的召回率可能才是 Agent 产生净正面价值的最低门槛。最终结论：对于在本地代码库上工作的编码 Agent，彻底废弃 RAG，不用嵌入，不用向量数据库，不用检索流水线。需要上下文就直接读文件或用 grep 搜索。第二代（2025 年中期）：多智能体编排第二代架构来自 SWEBench 排行榜的灵感：规划智能体 + 编码智能体 + 审查智能体 + 测试智能体，通过消息总线协调，每个智能体有专属提示词。 SWEBench 分数还不错，产品体验却很糟糕： - 每次智能体切换都是缓存未命中。每个子智能体有自己的系统提示和缓存命名空间。在智能体之间传递上下文意味着将状态序列化为消息，而每次切换都会清空接收智能体的缓存前缀。 - 4 分钟任务变成了 14 分钟。协调开销是真实存在的：智能体相互等待，重新读取上一个智能体已处理的上下文，偶尔还会做出相互矛盾的决策。 - 成本高出 6 倍。四个独立的缓存命名空间、四套系统提示、持续的状态序列化。「让专家分工」的直觉在人类团队中有效，但不适用于 LLM——单个前沿模型本身已经是通才，拆分只是在乘以开销。七项工程决策，实现 90%+ 缓存命中率经历两代失败架构后，团队在第三代架构中总结出七项核心工程决策： 1. 双缓存标记（滚动双缓冲）：在系统提示和对话历史之间维护两个独立的缓存前缀，确保最稳定的部分始终被缓存。 2. 冻结系统提示：系统提示只包含静态内容，所有动态信息（当前文件状态、工具调用结果）都注入对话消息而非系统提示，保持系统提示前缀永远不变。 3. 单 meta-tool 收敛所有扩展能力：用一个统一的 meta-tool 封装所有扩展功能，而非暴露大量细粒度工具，避免工具列表变化导致缓存失效。 4. 固定 16 个工具稳定 schema：工具集固定在 16 个，不随功能迭代增减，保持工具 schema 的绝对稳定。 5. Insert-then-Compress 策略：先将所有历史完整插入上下文，再在后台压缩，把压缩事件的缓存命中率从 0% 拉到 95%。 6. 模型特定状态隔离：模型相关的状态绝不写入系统提示，保证切换模型时不会碎片化缓存命名空间。 7. 会话级缓存预热：在会话开始时主动预热最常用的上下文块，减少冷启动开销。与今日其他内容的关联这篇文章与精讲一的 Emergent 和精讲二的 Chrome DevTools MCP 工具设计形成了一个完整的三角：Emergent 解决的是「如何编排多个 Agent 协同工作」，Chrome DevTools 解决的是「如何设计 Agent 能高效消费的接口」，而 OpenClacky 则深入到更底层，解决的是「Agent 系统在持续演进中如何保持经济可行性」。对于今天在生产环境中运行 Agent 系统、发现成本失控或响应速度下降的工程师，这篇文章提供的不是理论框架，而是经过两代失败验证的具体工程决策。 ## 速览 1. OpenAI 推理模型如何破解 Erdős 80 年悬而未决的数学难题阅读原文 → OpenAI 推理团队成员 Alexander Wei、Hunging Wu 和 Lee J Chen 解释了 test-time compute 如何让通用模型推翻保罗·埃尔德什（Paul Erdős）于 1946 年提出的「单位距离猜想」，这是一个困扰离散几何领域近 80 年的核心开放问题。与传统大语言模型即时输出不同，推理模型会在给定的计算预算内「思考」：生成内部思维链、尝试不同求解策略、通过代码执行验证数学逻辑。菲尔兹奖得主蒂莫西·高尔斯（Timothy Gowers）评价，这项工作「具有划时代意义」，达到了顶级数学期刊《数学年刊》的录用水准。这次突破标志着 AI 在数学发现领域的质变：从辅助工具到能独立解决百年难题的研究系统。 2. 全球互联网上智能体流量已超越人类流量阅读原文 → SemiAnalysis 援引 Cloudflare Radar 数据称，全球范围内 HTML 网页的 AI 智能体流量已超过人类流量。这一数据点意义深远：互联网的主要消费者正在从人类切换为 AI Agent，这将对网站架构、内容策略乃至商业模式产生根本性影响。与精讲二中 Chrome DevTools 为 Agent 设计专属接口的讨论相互印证：专为 Agent 优化的 web 界面，将成为未来基础设施的重要组成部分。 3. AI 的下一阶段：世界模型阅读原文 → AI 架构师 Mert 分析了前沿实验室从「预测下一个 token」到「预测世界的下一个状态」的范式转移。目前存在两个竞争方向：渲染像素（pixel prediction）vs 预测抽象状态（abstract state prediction）。世界模型是让 AI 真正理解物理世界、进行因果推理的关键，也是 Agent 从「执行指令」升级为「理解后果」的技术前提。 4. Context Engineering：从概念框架到工程实现阅读原文 → 作者整合 Matt Pocock 的 Context Engineering 框架和 Michal Cichra 的 Loop 实现，提出完整的 Agent 上下文工程体系：ADR（架构决策记录）记录原因、PRD 记录功能、BDD 记录验证、Loop 强制执行。这与精讲三中 OpenClacky 的缓存工程决策形成互补：精讲三解决的是「如何让上下文保持稳定」，这里讲的是「如何组织上下文使 Agent 做出正确决策」。 5. SpaceX 与谷歌签署每月 9.2 亿美元的云服务协议阅读原文 → SpaceX 与谷歌签署了一项庞大的云服务协议，从 2026 年 10 月到 2029 年 6 月，每月支付约 9.2 亿美元，获得包括约 11 万块 NVIDIA GPU 在内的算力资源。这是近期最能说明 AI 基础设施军备竞赛烈度的单笔交易：马斯克旗下公司以近百亿年均规模押注谷歌云和 NVIDIA GPU，折射出大规模 AI 训练和推理对算力需求的量级。 6. DeepSeek V4 做数学证明，500 倍成本优势阅读原文 → 普林斯顿大学团队提出 Goedel-Architect 框架，以 DeepSeek-V4-Flash 为核心模型，在 PutnamBench（672 道普特南大学生数学竞赛题）上实现形式化定理证明，通过率 75.6%，花费 294 美元。对比：谷歌 Gemini 2.5 Pro 驱动的 Hilbert 系统解同样测试集花费约 17 万美元，通过率 70%。约 500 倍的成本差异，配合更高的通过率，是本周最具震撼性的效率数据点。与速览第 1 条 OpenAI 推理模型破解 Erdős 猜想形成呼应：AI 正在从不同方向快速逼近数学研究的核心难度。 7. 豆包不用负责阅读原文 → 这篇文章通过多起真实案例，聚焦一个没有轻松答案的问题：当拥有 3 亿月活的国民级 AI 应用制造幻觉、误导用户时，谁来负责？河北李先生因信任豆包的退票建议损失 600 元，进而被 AI 引导起诉 AI，最终当然败诉，因为「AI 不具有民事主体资格，赔偿承诺不具法律效力」。文章揭示了三层系统性矛盾：拟人化设计（让用户过度信任）、流量分发（AI 可能被 GEO 优化），以及免责声明（法律零责任）之间的结构性张力。随着 AI 渗透率持续攀升，这个问题只会更难回避。 ## 补充阅读 Legora 如何从 YC 走到 18 个月 1 亿美元 ARR 阅读原文 → 又一个 18 个月 1 亿美元 ARR 的故事，法律 AI 赛道。Legora 结合激进的企业销售、创始人主导的招聘和智能体工作流策略，甚至签下 Jude Law 拍摄品牌广告打破法律科技营销刻板印象。与精讲一 Emergent 对比阅读，看两种 B2C 和 B2B 路径的异同。超越转录：构建真正理解对话的 Voice AI 阅读原文 → Herve Bredin 解释了 pyannote 说话人分离模型如何让 Voice AI 从「识别说了什么」进化到「识别谁在何时说话」。对在构建会议记录、客服分析或多人语音 Agent 的工程师有直接参考价值。 AVGO 财报后分析：300 亿美元 AI 订单与 3 倍积压阅读原文 → Teng Yan 分析博通（Broadcom）财报：300 亿美元 AI 订单 vs 108 亿美元出货量，3 倍积压，可见度延伸至 2028 年。关注 AI 基础设施供应链的读者不可错过，可与 SpaceX-Google 云协议（速览第 5 条）一起阅读，构建算力市场的完整图景。 OpenClaw 的暗工厂：AI 编码智能体如何把发版速度推到读不完 Diff 阅读原文 → Vincent Koc 分享 OpenClaw 如何以每天 3000 次提交的速度运转，把工程师变成「工厂管理者」。与精讲一 Emergent 的多智能体编排形成对照：一个是帮非技术用户构建应用，一个是帮工程师团队极速交付代码。从树到流再回归：统一决策树与扩散模型阅读原文 → 建立层次化决策树与扩散过程之间的数学对应关系，通过共享优化原则 GTSM（全局轨迹得分匹配）将两者统一。适合对机器学习理论感兴趣、希望理解「树与流」这两类模型背后共同数学结构的读者。 ABF 基板危机：隐藏的垄断与二阶危机阅读原文 → Teng Yan 揭示 ABF 基板短缺背后的二阶瓶颈：T 玻璃和微薄铜箔领域的近乎垄断，可能卡住 CoWoS 封装产能。AI 算力扩张的瓶颈往往藏在最不起眼的供应链环节，这篇是很好的案例。 Intel 18A 良率问题深度分析阅读原文 → 对 Intel 内部人士关于 18A 制程良率问题评论的批判性分析，质疑其过去说法与当前进展之间的一致性。关注半导体代工格局的读者，可与 AVGO 分析一同阅读。 Builder 角色崛起：AI 正在将工程、产品、设计熔为一个角色阅读原文 → 作者通过 Cursor 招聘 Design Engineers、Claude Design 画 SVG、OpenAI Sites 等信号，论证 AI 正在将工程、产品、设计三个传统角色熔合成「Builder」角色。与精讲一 Emergent 的「全部软件工程自动化」愿景形成有趣的角色层面呼应。反对可纠正性阅读原文 → LessWrong 上一篇反直觉的 AI 安全思考：「可纠正的 AI」并非无条件的优点，可纠正性可能助长不良行为者，并制造心理不稳定的心智。适合对 AI 安全有深度兴趣、愿意认真考察主流假设的读者，带着批判性眼光阅读效果更佳。为什么软件自动化如此困难阅读原文 → 编码 Agent 已经很强了，但对大型软件组织的实际影响，受到上下文管理、技术债务累积、协调开销和认知衰退等根本性瓶颈的制约。与精讲一 Emergent（乐观视角）和精讲三 OpenClacky（工程视角）一起读，构成对「软件工程自动化」这一命题更立体的认知。 ## 今日阅读路径时间有限？推荐优先读这三篇： 1. 精讲三：每个 AI 智能体功能都是一个缓存失效面（链接）：如果你今天只能读一篇，读这篇。它把 Agent 工程中最隐蔽、最普遍的成本问题讲清楚了，七项工程决策可以直接用于生产环境排查。 1. 精讲二：为智能体构建界面——Chrome DevTools 设计 MCP 工具的经验（链接）：如果你在构建任何 MCP 工具或 Agent 调用的接口，这篇是目前为止最有一手价值的实践总结。Token 燃油效率、Schema 设计、信任边界三个框架，够用很久。 1. 精讲一：Emergent 破亿 ARR 的路径（链接）：作为战略视角的补充。Emergent 的故事不只是一个 ARR 数字，它是「AI 时代是否值得做颠覆式赌注」这一问题的一个真实样本。对比精讲三的工程保守主义，两种思路之间的张力本身就很值得思考。

译本期聚焦三大Agent工程议题：1）Emergent通过多智能体编排+定制容器，6个月实现1亿美元ARR，覆盖190国850万无编程背景用户；2）Chrome DevTools团队为MCP设计Agent接口，提出Token燃油效率、错误自愈、工具Schema设计和三层信任边界；3）OpenClacky创始人指出每个Agent功能都是一个缓存失效面，第一代RAG架构因90%召回率不足和嵌入成本高而失效。

Rohan Paul@rohanpaul_ai · 6月6日80

GitHub released Spec Kit, an open-source toolkit to fix vibe coding’s biggest weakness: the AI often starts coding before the product rules are clear. 109K+ stars ⭐️ It turns vibe coding from “ask the AI to build it” into “write the product spec first, then make the AI build from that spec.” Most AI coding today starts with a loose prompt, then jumps straight into code, which often produces working demos but weak requirements, missing edge cases, and messy rework. Spec Kit pushes the process the other way: first define what the product must do, then clarify gaps, then create a technical plan, then break that plan into tasks, then let the agent implement against those written artifacts. So here the spec is no longer disposable documentation; it becomes an executable development contract that guides Copilot, Claude Code, Codex, Gemini, Cursor, Qwen, and 30+ other agent integrations.

译GitHub 发布开源工具包 Spec Kit，旨在解决 "vibe coding" 的最大弱点——AI 常在规则未明确时就开始编码。它把流程从 "让 AI 直接构建" 改为 "先写产品规范，再让 AI 根据规范实现"。当前 AI 编码模式常因松散提示直接跳入代码，导致需求薄弱、边界遗漏和反复返工。Spec Kit 推动反向流程：先定义产品功能，再澄清差距、制订技术计划、分解任务，最后让 agent 执行。规范成为可执行的开发合约，支持 Copilot、Claude Code、Codex、Gemini、Cursor、Qwen 等 30+ agent 集成。项目已获 109K+ 星标。

AYi@AYi_AInotes · 6月6日53

分享一个 GitHub 5 万星的开源AI剪辑神器，本地处理、永久免费、不要水印、没有会员墙。它叫 OpenCut，想干掉剪映最让人不爽的那件事—— 你做的视频，再也不用先传到别人的服务器上了。现在就能用，但作为一个免费开源产品，想完全媲美年费700多块的剪映肯定不太可能，先说说OpenCut 现在的状态，属于 Early Beta：打开网页就能剪，导入视频、拉时间线、切一刀、修个头尾，完全免费、没水印、不要会员。但导出、特效、转场这些功能还在路上，只追求今天就能高效出片？现阶段剪映还是更强，这话我得说在前面。那么他的优势是什么？剪映是云端处理，你的素材要先上传， OpenCut 是本地优先，视频压根不离开你的机器。一个把你的内容当数据，一个把你的内容当你的，这一条差别，剪辑的时候你感觉不到，等哪天平台改规则、加水印、涨会员价的时候，你就全懂了。 OpenCut没把自己当成又一个剪映，它的路线图里写着： Rust 重写核心、Web + 桌面 + 移动统一、插件系统、Editor API，还有 MCP Server—— MCP Server 是让 AI Agent 直接调工具的协议，也就是说，以后你的 AI 能直接调 OpenCut 来替你剪，它想做的也不是一个剪辑软件，而是一个能被你自己的工作流调用的、可编程的视频底座。所以把视频编辑四个字去掉，这其实是所有工具正在发生的同一件事—— 过去的工具是一个封闭的盒子，你只能按它给你的按钮，未来的工具是一个开放的接口，你能把它焊进自己的系统，让 AI 替你按。剪映卖的是一次出片的效率， OpenCut 赌的是你愿不愿意为"这东西永远是我的、还能被我编程"多等几年。

译OpenCut 是一个 GitHub 5 万星的开源 AI 剪辑工具，主打本地优先，视频无需上传服务器，永久免费、无水印、无会员墙。目前处于 Early Beta 阶段，网页版支持基础剪辑（导入视频、时间线、切割），但导出、特效、转场等功能仍在开发。路线图包括 Rust 重写核心、Web+桌面+移动统一、插件系统、Editor API 及 MCP Server（让 AI Agent 直接调用工具），目标是成为可编程的视频底座，而非对标剪映的封闭工具。