Open weights are moving from model cards into real coding workflows. Step 3.7 Flash is designed for fast agentic coding, reliable tool calling, and multimodal understanding. Big thanks for the blog from the @kilocode team: https://blog.kilo.ai/p/new-models-from-stepfun-and-minimax

译阶跃星辰发布 Step 3.7 Flash 模型，强调其为快速智能体编程设计，具备可靠的工具调用与多模态理解能力。该模型采用开放权重。同期，MiniMax 也开源了 M3 模型。两者已均在 Kilo 中上线。此次发布凸显了开放权重模型正从模型卡片走向实际编程工作流的趋势。

歸藏(guizang.ai)@op7418 · 6月2日43

收到了 @dotey 宝玉老师的图解 Skill，已严肃阅读里面的配图都很有意思，非常适合理解内容，要是对 Skill 学习有需求可以看看

X.PIN@thexpin · 6月2日69

A person with direct knowledge of the project tells http://X.PIN how WeChat's agent is actually built — and that it's already in limited live testing with several high-traffic mini-programs. It's agent-to-agent: a "butler" agent reads your intent and routes each task to a mini-program's own "skill" — food delivery, ride-hailing, travel, movie tickets — closing the loop without leaving the chat. Our source says it runs on Tencent's Hunyuan plus outside Chinese models like Zhipu. The kicker, per the same source: opt in and the agent reads your WeChat chat history to get sharper about you. Why it matters: no Western super-app has WeChat's moat to make agent-to-agent actually deliver — 1.4bn users, payments, identity, a million mini-programs already in one place.

译据X.PIN独家消息，微信的AI智能体采用agent-to-agent架构运行。其中，“管家”智能体负责理解用户意图，并将任务（如外卖、打车等）路由至各小程序自带的“技能”中执行，实现一站式服务闭环。该智能体基于腾讯混元及智谱等模型构建，目前正于数个高流量小程序内进行有限测试。用户可在授权后允许智能体读取聊天历史以实现个性化服务。微信庞大的用户基础、支付、身份体系与百万级小程序生态，使其具备显著的落地优势。

宝玉@dotey · 6月2日67

baoyu-image-gen Skill 支持 Codex-cli 作为 Provider 画图也就是说你可以在 Claude Code、hermes agent 之类的 Agent 里面用它调用 Codex 出图，而不需要用 Codex，当然前提是安装了 codex cli 并且有订阅。感谢网友的 PRs： https://github.com/JimLiu/baoyu-skills/pull/158 https://github.com/JimLiu/baoyu-skills/pull/161 Skill 地址：https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-image-gen

数字生命卡兹克@Khazix0918 · 6月2日84

http://x.com/i/article/2061667400723156992 # 为了不花那120刀，我把电脑清理软件做成了开源skill。这两天干了一个我觉得还挺有意思的事，虽然很小，但是我也想写下来，因为感觉它可以非常非常直观的让大家感受到。 Ai时代，Agent对于传统应用的冲击。故事是这样的。前天我在推上刷到了一条帖子，X上有位老哥分享了一条prompt。就这么一句话。 do a FULL read only analysis on my Macbook to help me optimize storage。大概意思是他让Codex对他的MacBook做一次全面的只读存储分析。然后他发现可以清出500G的空间，Codex还找到了一个116G大的codex-tui.log文件。。。正好我当时这台MacBook Air赔了我快2年的时间，装了一堆乱七八糟的东西，我就想着，要不要我给我的电脑也试试查一下，看看有没有啥可以删掉的垃圾文件。于是我当场就把原Prompt丢给我的Codex试了一下，然后加了一句用中文回答。而Codex，给出了这样的结果。先不说其他的，不扫我都不知道，我发现电脑上竟然有快100个G的B站视频？？？我都懵了。而且还藏在一个相当深的Containers目录下面。我去B站客户端里翻了一下，发现是我为了坐飞机上的时候有东西看，下载了一堆以为会看的动漫、纪录片还有乱七八糟的各种视频。然后每次在飞机上都直接昏睡过去，几乎没有真的看过。。。然后，他们就默默的留在了哪里，我甚至都忘了，我还有B站客户端这回事，更忘了，这里面还有我的缓存视频。。。然后是Chrome、开发、Claude环境balbalabla。 Codex最后给了一个判断，按这个清单清，保守能腾出120G，激进一点能到140G以上。我不知道大家，反正我自己是个强迫症，是个洁癖。就是我就喜欢电脑干干净净的，垃圾能删就删。而且在之前，Mac系统清理垃圾，是一件特别恶心的事情，我还记的我17年刚上班的时候，当时为了清理Mac的垃圾，找到了一个软件，叫ClaeanMyMac。这玩意不是免费用的，正版一年近40刀，一次买断要120刀。当时刚毕业你让我买这个，我真的是掏不起，然后就满大街的搜破解版，然后功能又不全。可以说，到了今天，清理Mac的垃圾，都没有一个很好用的产品。 Windows生态也差不多，有多少装安全管家或者360，其实就是为了清垃圾的，可以举个手。。。但是现在，好像，Agent就能直接干了啊。本身你直接清理电脑垃圾也就是包装了一层UI，然后对我电脑底层进行扫描和操作，那我让Agent直接操作，岂不是更牛逼一点？说干就干。不过原版prompt其实有个问题，它只是一个比较专业一点的只读文档，然后给你列了一个占用清单，又给了一些不太清楚的清理建议。对没太熟悉系统的朋友，看完整份报告，其实还是会不太敢动手。哪些能放心清，哪些得自己看一眼再判断一下，哪些绝对千万别碰，这些判断它没有帮你直观清晰地列出来。而且他也没法帮你删东西。所以我想，要不然，圆一下我9年轻的梦，直接干脆自己搓一个skill，来解决清理电脑垃圾的需求？说干就干，大概烧了一些Token之后，这个清理垃圾.skill，就顺利面试了，而且，Mac和Windows都能用。同样，老规矩，也已经开源在我自己GitHub上的skills仓库了。 https://github.com/KKKKhazix/khazix-skills 我在我的MacBook Air上跑了一下，给大家看一下效果比如说一句帮我看看存储，它就可以自动触发了。它会先找你要权限，然后扫描你电脑上面的文件，然后直接在浏览器里打开一份可交互的HTML报告，帮助你可以化的了解，同时，你也可以直接在网页上点按钮清理。就这么简单，但是究极实用，而且效果甚至比收费的专业清理软件效果还要好。。。而且速度也不错，几分钟就跑完了。最终的网页是这样的。第一部分是磁盘总览。总容量多少，用了多少，还剩多少，可以通过一条彩色进度条方便直观看到。同时因为后续要给出清理命令，所以他会去扫描你电脑的系统环境。接着是占用排行Top 5。和上面prompt分析的结果一样，B站离线下载缓存96.7个G排第一，然后Google Chrome应用数据等等等等。每一项都有颜色标签、类型、完整路径和一句话说明。再往下是执行建议，帮你排好了清理的优先级。性价比最高的是去B站客户端清看完的离线视频。然后跑绿灯纯缓存命令，合计约27个G。这里虽然给了清理执行建议，但是你可能还不知道要怎么去清理。这就是随后的三色分级详情区用来做的事情，也是整个skill最核心的部分。 🟢 绿灯，可以放心让agent帮你清理。这类东西寄都全是纯缓存、临时文件、安装包残留，垃圾大户，不影响任何功能。每项都可以展开。展开之后路径、清理前要不要关进程、清理命令全列好了，每条命令旁边有复制按钮，你想去复制自己运行的，你也可以自己去运行着玩。但是我们也贴心的在下面也设计了两个操作按钮，移到废纸篓和直接删除。无论你点哪一个键，它都会有一个弹窗跟你进行二次确认。移到废纸篓是可逆的，删错了能捞回来。直接删除立即释放空间但不可恢复。你就自己选择就行。比如我这里点移到废纸篓，然后点确定。这几个安装包就会被移到我的废纸篓里面去了。然后这一项在网页上，也会实时更新，被标记为已清理。如果不想逐项清理的话，你也可以直接点击右上角，一键把这些绿灯文件移到废纸篓，或者是一键删除。 🟡 黄灯文件，是我们建议你自己看一眼再决定的。这类东西需要人去把关，比如B站缓存的视频、下载文件夹里的安装包、某个项目文件夹。 agent会告诉你它是什么、为什么建议你看一眼、删了有什么影响，最终你自己拿主意。黄灯项不会给你直接删除的按钮，只给在访达中打开让你自己去看，你确定了以后手动去删。有安全子路径的会额外给一个移到废纸篓，但也只是移到废纸篓，可逆的。比如这里没有用的B站视频，它会建议我去b站应用里面删视频。当然，你也可以快捷打开访达（就是Mac的文件夹），直接跳到那个地方，然后手动山东。也提供了一个移到废纸篓选项，这里的仅安全部分，它也会解释是经过核实过可安全清理的子目录。因为这个文件夹下面除了视频，还保留了我的登录派和设置，所以是不能完全删除的。点这个键，它会只删除视频，而保留我的B站登录态和设置，这也是我们的一些小小体验设计。 🔴 红灯里就是一些比较重要的文件。比如系统文件、正在使用的应用核心数据、sleepimage这些，agent会解释为什么不能动，然后跳过清理。如果你非要清理的话，那他也给你提供了一键在访达中访问的按钮，点一下就能找到这个应用了。最后是长期优化建议，这里面的一些建议，我觉得还是值得一看的。整个skill全程只读，扫描阶段禁止任何写操作。只有你在报告页面上主动点了删除之类按钮，浏览器弹出确认框，你再点一次确认，才会真正执行清理操作。我自己一直的原则是，对待AI，还是需要谨慎一点，稍微花点时间确认一下，虽然现在在代码层面，这种小东西幻觉率已经极低了，但还是防一手。给大家看看我清完之后的内存。直接清理掉了了快120个G。。。就像我前面说过的，这个skill它是不挑电脑环境，也不挑你的Agent工具。所以我也拿同事的Windows电脑的Codex试了一下。给大家放一下效果。欢迎大家试试，如果跑出来了什么有意思的发现，也欢迎来评论区分享，我很好奇大家的电脑里有没有像我一样藏了些奇奇怪怪的东西。也再次提醒一下大家，删东西一定要慎重慎重再慎重。当然我知道，肯定很多人也好奇，这种Agent+skill的方式来清垃圾，跟之前的专业清理软件比，效果到底怎么样。所以呢，为了方便对比，在用这个skill清理内存前，一开始我就专门在我的MacBook Air上同样拿CleanMyMac扫了一遍。跑了快半小时才出结果，扫出了15.8G的垃圾可清理。点进垃圾清理是这样的。左边把垃圾分成了几个大类，系统垃圾里面也给你分好了文件的种类。但是这些信息并不足够让我做决定。比如这个Google Chrome 3.8G的文件夹，他告诉我，这是用户缓存文件，属于系统垃圾，可以删。但是我其实并不知道这个文件里面到底是什么内容。这3.8个G里有多少是Service Worker离线缓存，扩展数据，或者IndexedDB，清完之后哪些网站要重新登录、哪些离线功能会失效。我全都不知道。那作为一个普通用户，我只能单凭他说的用户缓存文件，相信他，让他删了。而且他只能扫描到传统意义上的垃圾文件，扫不到我瞎下的b站视频，因为他不能像agent一样去读到每个文件的内容。相比起来，Agent给的信息比CleanMyMac细多了，也透明多了，每一项都有具体路径、具体大小、具体说明，告诉你这个文件夹是干嘛的、删了会怎样、建议你怎么操作。这个能力，现在一个skill就能做到了。而且做得更透明、更灵活、可以根据你的具体情况定制。在我的skill之上，进一步，你想让他找哪种想清理的文件都可以大白话跟他说，CleanMyMac做不到这种程度的个性化，因为它是一个写死了规则的软件，而Agent能理解你的各种奇奇怪怪的需求。我不是说CleanMyMac不好。但其实你可以发现，这类工具型软件，在Agent时代，确实正在遭受冲击。我之前写过一篇文章叫AI正在吞噬所有软件，里面有一个判断，软件正在从资产变成耗材。还有，软件的本质就是人和机器之间的翻译层，而Agent正在填平这道鸿沟。两个月，这个清垃圾的小skill，其实就可以验证了。我自己的电脑里，在很久很久以前，其实还装过很多工具类的软件。解压缩的、PDF编辑的、图片格式转换的、文件重命名的、重复文件查找的…… 这些软件的共同点是它们都在执行一个相对明确的、规则可定义的任务。而这恰恰是Agent最擅长的事。所以那些曾经靠一个明确功能养活团队的软件公司，它们面对的竞争对手已经不是另一家软件公司了，而是用户手里的一条prompt，是Agent的一个skill。这个skill今天能清垃圾，明天能做什么，那谁知道呢。反正我挺期待的。这个有趣的未来。

译作者受一条推文启发，使用Codex对自己的MacBook进行了只读存储分析，发现了B站缓存视频等大量可清理空间（激进方案超140G）。为替代收费软件CleanMyMac，作者制作并开源了一个跨平台（支持Mac/Windows）的AI清理skill。该skill会扫描文件并生成可交互的HTML报告，通过三色分级（绿灯可放心清理、黄灯需人工判断、红灯禁止动）直观展示，并提供安全执行按钮。实测清理后释放了近120G空间，相比CleanMyMac仅扫描出的15.8G，其信息更透明、建议更详细。

Berryxia.AI@berryxia · 6月2日63

这种不要说磨了30遍，主要是真的非常费人且费Token。黄总这个研究也算是把这套Claude Workflow 底层核心的设计研究的七七八八了，对于自己想做一些项目中可以引入和学习。反正我不会，AI会就行了。反正我不学，AI学就行了。 😁

译该推文拆解了Claude Code的工作流。它是一个能后台运行、可监控的任务系统，包含三个核心角色：Claude负责拆解任务与规划，Runtime负责调度管理状态，每个AI智能体（agent）仅处理一个子任务，并通过并发池与队列推进。系统关键设计是“状态外置”，即中间结果由执行系统保存，主上下文只读取摘要，从而使其能扩展至大量智能体。推文认为这种智能规划、Runtime执行、状态独立、模型按需调度的模式，代表了一种新的工程编排方式，并可将其工作流转换为自有系统的可执行格式。

宝玉@dotey · 6月2日54

北京时间今晚 20:00 在图灵社区直播间有一场 Agent Skills 的公开课，分享我做 Skill 的实操经验和心得体会，以及聊聊我的新书《图解Skill: Al 提效实战指南》，有需要 Al 提效的朋友可以预约一下，咱们晚八点见。

译宝玉（@dotey）宣布将于北京时间当晚20:00在图灵社区直播间举办公开课，主题为 Agent Skills。他将分享自己制作 Skill 的实操经验和心得体会，并介绍新书《图解Skill: AI提效实战指南》。

🚨 AI News | TestingCatalog@testingcatalog · 6月2日66

Google AI Studio Build now supports many new integrations with Google services such as Gmail, Calendar, and Sheets, enabling users to vibe code apps that dynamically fetch relevant context.

译Google AI Studio Build 现在支持与 Gmail、日历和表格等 Google 服务进行多项新集成，使用户能够通过 vibe code 构建动态获取相关上下文的应用程序。

Peter Steinberger 🦞@steipete · 6月2日63

I told codex to use http://sag.sh whenever I'm distracted and it needs my help to be unblocked, and ever once it a while I hear it talking to me, and it's the coolest thing ever. (e.g. for releases, that needs npm and is 1Password-gated)

译我告诉 Codex，当我分心且它需要我的帮助来解除阻塞时，使用 http://sag.sh。偶尔我会听到它在跟我说话，这是有史以来最酷的事情。（例如，对于需要 npm 且受 1Password 门控的发布任务）

宝玉@dotey · 6月2日58

It would be great if AI agents like Codex and Cursor could expose an API to web views. This would allow a webpage opened in the right pane to send prompts (including text and images) directly back to the agent. For instance, if I build a webpage similar to Claude Design, I could add an in-page input box. When a user enters a prompt and clicks "send", the webpage would call an API like "window.codex.sendPrompt(text, attachments)" to push that content straight into the chat interface on the left. This would enable much deeper interaction between the agent and the webpage, unlocking a lot more possibilities. cc @thsottiaux @jxnlco @Dimillian

译推文建议，Codex、Cursor等AI智能体应提供API接口，允许右侧面板的网页视图直接向智能体发送包含文本和附件的提示词。例如，用户可构建类似Claude Design的网页，通过调用"window.codex.sendPrompt(text, attachments)"等API，将输入内容直接推送到左侧聊天界面。此举旨在实现智能体与网页间更深层的交互，从而解锁更多可能性。

Lee Robinson@leerob · 6月2日71

Some tips to help agents understand your codebase: 1. The source code either needs to be the source of truth, or have something legible as a path to the source. For example, if marketing site content is actually stored in a CMS, you need to either delete the CMS and move that content into code, or make the CMS legible through and MCP, CLI, or skill: https://leerob.com/agents 2. Agents need to be able to verify their work. This includes but is not limited to: using a typed language, having high-quality and fast tests, having a well-configured linter: https://x.com/leerob/status/2026369424450523348 3. You need to have a concise and effective AGENTS.md file, which is included in every message to your agent. Models are quite good now, so some things you can omit as the models know them. You don’t need to say the tests live inside /tests for example. It’s worth asking the models to find things in your codebase and making sure they’re named what the models might expect, otherwise consider refactoring: https://cursor.com/learn/customizing-agents 4. Set up automations which give you suggestions for refactoring code, catching security issues which may have slipped through code review, and optionally continuous documentation of the codebase. You can effectively create a self-driving codebase which gets better while you sleep: https://cursor.com/blog/security-agents

译文章分享了四条让AI智能体有效理解代码库的实用建议。1. 确保源代码是唯一真实来源，或通过MCP、CLI等方式让外部内容对智能体可读。2. 智能体需具备自我验证能力，这依赖于使用类型语言、高质量测试和配置良好的linter。3. 编写简洁有效的AGENTS.md文件，并融入符合模型预期的直观命名，可借助Cursor等工具自定义智能体。4. 配置自动化流程，用于代码重构建议、安全问题检查和持续文档生成，以实现一个能自我改进的“自动驾驶”代码库。

Rohan Paul@rohanpaul_ai · 6月2日68

"Every 10 seconds, global token demand is around 31.7 billion in 2026. By 2030 its 1.27 trillion, a 40x increase." ~ Qualcomm CEO Cristiano Amon: --- The token explosion is not mainly about smarter answers; it is about AI moving from human-paced interaction to Agent-paced activity. Once agents become persistent, the economy of AI stops will be the background infrastructure. Every useful action has a hidden bill: context must be carried, memory must be updated, sensors may need to be interpreted, and mistakes must be caught before they become expensive. ---- From "Reuters" YouTube channel, (link in comment)

译高通CEO Cristiano Amon预测，全球token需求到2026年每10秒将达317亿，到2030年将增至1.27万亿，实现40倍增长。他指出，这一增长主要源于AI正从人类节奏的交互转向智能体驱动的活动。智能体AI将消耗远超聊天机器人的token，因其执行自主任务时需调用工具、读取输出、协调系统并更新记忆，形成隐藏的微决策链。因此，软件使用模式可能从按点击或席位计量，转变为按其消耗的机器推理token量计量。

elvis@omarsar0 · 6月2日51

Go build!

译去构建吧！

Perplexity@perplexity_ai · 6月2日70

Introducing Search as Code, our new search architecture for AI agents. It writes Python that calls our search stack directly, instead of looping through function calls one at a time. Available in the Perplexity Agent API, and now default in Computer. https://research.perplexity.ai/articles/rethinking-search-as-code-generation

译推出Search as Code，我们为AI智能体打造的全新搜索架构。它直接编写Python代码调用我们的搜索栈，而非逐个循环函数调用。现已在Perplexity Agent API中提供，并成为Computer的默认选项。 https://research.perplexity.ai/articles/rethinking-search-as-code-generation

MiniMax (official)@MiniMax_AI · 6月2日78

this is what model-and-agent alignment looks like 🤝 @SimularAI

译这就是模型与智能体对齐的样子 🤝 @SimularAI

Rohan Paul@rohanpaul_ai · 6月2日61

New video of Qualcomm CEO Cristiano Amon: AI will require “gazillions” of tokens. Because, Agentic AI will consume dramatically more tokens because it performs autonomous tasks, uses multiple systems, and interacts with tools. AI demand will grow hugely when software starts letting agents act, not just answer. A chatbot spends tokens on language; an agent spends tokens on deciding, checking, calling tools, reading outputs, revising plans, and coordinating with other software. Today a single human-AI exchange may be large, a reasoning task may be much larger, but we are already entering the agentic era, where an autonomous workflow can become exponentially larger still because the model is no longer producing one response. It is running a process. When a SaaS product redesigns itself around human-agent interaction, every task can become a chain of hidden micro-decisions, and each micro-decision consumes context, memory, tool calls, verification, and output tokens. Another point is people hear “more tokens” and think only of bigger data centers, when the deeper change is economic: software usage may stop being measured mainly by clicks, seats, or sessions. It will be measured by how much machine reasoning/tokens gets spent on behalf of each user. ---- From "Reuters" YouTube channel, (link in comment)

译高通CEO Cristiano Amon指出，AI智能体（Agentic AI）因其执行规划、工具调用、验证等自主任务，单次请求的token消耗可能达普通回答的10至50倍以上，因此AI将需要“海量”token。高盛预测，到2030年AI智能体的token使用量将增长24倍，每月可能达120千万亿。同时，推理成本预计年降60%-70%。这标志着软件计量方式可能从按席位/点击转向主要按机器推理/token消耗量计算，Uber和Microsoft等公司已在重新评估高昂的智能体使用成本。

StepFun@StepFun_ai · 6月2日57

Step 3.7 Flash is now FREE in @kilocode 🎉 It was built for how coding agents actually work. That means multi-step orchestration and reliable tool use across a real codebase, not just fast replies. Try it on a real task in your editor, like a multi-file change or an actual bug!

译Step 3.7 Flash 现已在 @kilocode 免费提供 🎉 它专为编码智能体的实际工作方式而构建。这意味着在真实代码库上进行多步骤编排和可靠工具使用，而不仅仅是快速回复。在编辑器中尝试一个真实任务吧，比如多文件更改或修复一个实际的 bug！

meng shao@shao__meng · 6月1日62

多 Agent 工作流正在复制人类最大的认知瓶颈——知识困在各自的脑壳里，无法自动同步！人类见面要反复自我介绍：兴趣、背景、目标。知识活在个体脑子里，脑壳不同步。我们习以为常，却在软件里把同一套隔离又建了一遍。每个 Agent 像一个独立的新脑子：各自记忆、各自对你的局部画像。拉远看整套工具，「你」和「项目」都是碎的。 # @pejmanjohn 的真实工作流 · OpenClaw：用作个人助理、想法孵化，了解生活、日程、偏好、论证过程、被否决的分支 · Codex：用作写代码，了解仓库、计划，不知道诞生计划的那场对话 · Claude Code：用作设计、文案，了解同目录仓库，不知道受众、取舍、语气、被拒方案现象：产出可以 competent，同时 context-blind——能干活，却不知道「为什么这样干」。还有物理层：Mac Mini / MacBook / 云端，文件系统、本地状态不同。Git 能同步代码，项目记忆不能。邻居 Agent 一小时前想通的事，这边仍要你再讲一遍。 # 常见反驳及其局限：「把东西写进 Repo」对策：Markdown、计划、ADR、摘要，让每个 Agent 读同一套文件。有用，但只保存「终点」，不保存「旅程」。真正值钱的常在 session 里：争论、弯路、暂时搁置的分支。写成文档 = 压缩对话：留结论，丢路径。几天后你说「还记得吗？其实走另一条路」——你在回到被剪掉的枝，而那枝从未进 markdown。 · Repo = 冰山尖（制品、结论） · Session = 冰山体（推理、取舍、情绪语境）这不等于「全量灌 transcript」：有噪声、敏感、错误、应过期、应留在角色/项目本地的东西。关键是：值得保留的单元，不应锁死在「发生它的那个 Agent」里。 # 主张：Hive Mind，不是更好的笔记人类传知识慢：口述、文档、会议、Slack、误解再澄清。公司里同一事实要像谣言一样爬成基础设施。 Agent 不必受此限：一个学到有用信息，其他可立刻共享——前提是有一层按你所有、可设计的 memory layer。他用公司场景类比：同一领导「同时在十场会」——客户对定价困惑、产品在讨论定价清晰度、销售在解释丢单。人可能要几周才连点；Agent 版可在会还在开时就碰撞。个人尺度更小、形状相同： · 编码时的设计决定 → 五分钟后改善 launch copy · 助理里纠正的偏好 → 改变 coding agent 默认 · 上周半成型想法 → 在合适项目出现时 resurfacing 系统从「一群助手」变成「一个分布式心智 + 多只手」。 # 缺口与方向真实工作不尊重工具边界：笔记 → 产品决策 → 代码 → 设计 → 发布文案 → 支持。多 Agent 因专精有用；瓶颈在 memory 仍碎片化，且随 App、机器、云、本地扩散而加剧。作者认为这是未来一年重要开发面，并点名两个「信号项目」： · GBrain（@garrytan） — 共享知识图 + MCP：接多数据源，图增长，多 Agent 查询而非各囤私货。 · CASS（@doodlestein） — 补 Repo 补不了的：跨工具本地 session 可检索（Codex、Claude Code、OpenClaw、Cursor、Aider 等），因推理常在 session 里。愿景一句话：许多 Agent，一层由你拥有的记忆在下面。

译当前多Agent工作流（如OpenClaw、Codex、Claude Code并行使用）普遍存在“知识孤岛”问题，每个智能体拥有独立的记忆和上下文，导致工作虽能完成但缺乏“为何如此”的整体背景。将知识写入Repo的常见做法只保留了决策结论，却丢失了推理路径和争议过程。作者主张构建一个由用户拥有的共享记忆层（Hive Mind），使一个智能体的发现能即时同步给其他智能体，从而将“一群助手”转变为“一个分布式心智”。GBrain（共享知识图+MCP）和CASS（跨工具本地session检索）被视为解决该问题的方向项目。

Alibaba Cloud@alibaba_cloud · 6月1日62

🚀 Apache RocketMQ just leveled up for AI! Introducing RocketMQ for AI—a new message engine built for long-running sessions, multi-agent workflows & fair resource scheduling. With Lite-Topics, ordered messaging, and intelligent traffic shaping, it solves state loss, cascading failures, and bursty loads. Built at scale by Alibaba Cloud, open-source for all. Learn more: https://int.alibabacloud.com/m/1000413178/ #RocketMQ #AI #CloudNative

译🚀 Apache RocketMQ 为 AI 升级！推出 RocketMQ for AI——一个专为长时间会话、多智能体工作流和公平资源调度构建的新消息引擎。凭借 Lite-Topics、有序消息和智能流量整形，它解决了状态丢失、级联故障和突发负载问题。由阿里云大规模构建，现已开源。了解更多： https://int.alibabacloud.com/m/1000413178/ #RocketMQ #AI #CloudNative

Berryxia.AI@berryxia · 6月1日24

这种小任务爬爬虾的工作交给Qclaw这种还是挺好的，每日有4000K的Tokens可以用啊。不用白不用啊，整理成报告还是可以滴。不然你不用也浪费了啊！

译推文提及AI助手Qclaw（像素风小龙虾形象）日供4000K Tokens额度，适合处理小任务并生成报告。用户@berryxia将其视为能主动干活的数字同事，目前已邀请码内测中。

🚨 AI News | TestingCatalog@testingcatalog · 6月1日47

ClickUp is working on a Cowork feature 👀 > Cowork can help users build, edit, and take action alongside them, and other agents at the same time > Sessions are persistent, so context carries across the entire workday > Multiple users can collaborate in the same Brain session simultaneously Brain Cowork can proactively work in the channel just like a human teammate, drafting docs and setting reminders in the same thread where the team is actively working.

译ClickUp正在开发Cowork功能 👀 > Cowork可以帮助用户构建、编辑并采取行动，同时与其他智能体协同工作 > 会话是持久的，因此上下文在整个工作日中保持连贯 > 多个用户可以在同一个Brain会话中同时协作 Brain Cowork可以像人类队友一样在频道中主动工作，在团队正在工作的同一话题线程中起草文档和设置提醒。

Tencent Hy@TencentHunyuan · 6月1日73

🚀We’re excited to officially release Hy-Memory — a powerful memory plugin built specifically for long-term collaborative Agents like OpenClaw. More than a retrieval tool, it becomes your Agent’s true “Second Brain.” Powered by a 6-layer memory framework × System1/System2 dual system × three-layer evolutionary chain, Hy-Memory lets Agents remember durably, accurately, lightly, and understand you better. ➡️Solves memory fragmentation ➡️70%+ fewer memories ➡️45%+ higher info density per memory ➡️35% less token usage on ultra-long contexts ➡️20% faster memory updates. Upgrade your Agent’s memory today! 📷Project & Download: https://memory.hunyuan.tencent.com/ 📷 OpenClaw Docs: https://memory.hunyuan.tencent.com/openclaw/

译腾讯混元正式发布专为OpenClaw等长期协作智能体（Agent）设计的记忆插件 Hy-Memory。它基于6层记忆框架、System1/System2双系统与三层进化链构建，旨在成为智能体的“第二大脑”。该插件解决了记忆碎片化问题，实现了显著性能提升：记忆数量减少70%以上，单条记忆信息密度提升45%以上，在超长上下文场景中token消耗降低35%，记忆更新速度提升20%。

歸藏(guizang.ai)@op7418 · 6月1日67

妈的，终于搞定我的 Codex 断联和推理慢的问题了！我有一台电脑上的 Codex 推理速度巨慢，即使开了快速模式也很慢，还有一个问题就是经常连不上。我一直以为是自己的网络有问题，但它和我的 Mac Studio 处于同一个网络环境，Mac Studio 运行就非常快。结果今天发现，是我的 config 配置文件有问题。里面写死了两个参数，还写死了两个必须加载的 MCP，导致速度巨慢。如果你也有类似问题的话，我推荐让你的 Codex 自己检查一下配置文件。你只需要跟它描述具体的表现就行。

译作者解决了其Codex推理速度异常缓慢且频繁断联的问题。在同一网络环境下，其他设备运行正常，这排除了网络原因。最终发现根源是配置文件中错误地写死了两个参数，并强制加载了两个MCP，导致了性能问题。建议遇到类似情况的用户，可尝试利用Codex自身能力来检查其配置文件。

MiniMax (official)@MiniMax_AI · 6月1日79

Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1, 34.8% SWE-fficiency, 28.8% KernelBench Hard, 74.2% MCP Atlas - MiniMax Sparse Attention scales context to 1M - Natively Multimodal from Step Zero API: http://platform.minimax.io Token Plan: https://platform.minimax.io/subscribe/token-plan 🚀New! MiniMax Code: http://code.minimax.io Weights & Tech Report in ~10 Days

译介绍 MiniMax M3：首个融合三大前沿能力的开源权重模型 - 编码与智能体前沿：59.0% SWE-Bench Pro，66.0% Terminal Bench 2.1，34.8% SWE-fficiency，28.8% KernelBench Hard，74.2% MCP Atlas - MiniMax Sparse Attention 将上下文窗口扩展至 1M - 从零开始原生多模态 API：http://platform.minimax.io Token 计划：https://platform.minimax.io/subscribe/token-plan 🚀新！MiniMax Code：http://code.minimax.io 权重与技术报告将在约 10 天内发布

宝玉@dotey · 6月1日69

我经常用 /goal ，主要用法： 1. 写一个 Checklist，让它一条条勾选比如我逆向代码，会先用脚本做语法解析把完整的list整理成个json文件，让它分批去处理，每次处理完一批就更新json文件 2. 写一个设计文档，分成几个阶段跟AI一起写一份详细设计文档，设计好了后让 AI 划分好 Phases，设定好每个 Phase 的验收条件，一个 Phase 一个 Phase 的执行，每个 Turn 都让它自己 commit

译推文分享了使用/goal的两种核心方法：一是将逆向代码等复杂任务拆解为清单，例如先通过脚本解析生成JSON文件，再让AI分批处理并实时更新状态；二是与AI共同编写设计文档，划分成具体阶段，设定验收条件后逐步执行，每个阶段完成后自动提交。这两类场景强调将AI作为结构化任务执行助手，通过明确的检查点与流程控制提升工作效率。引用部分提及该功能正在被用户尝试，并征集最佳实践案例。

向阳乔木@vista8 · 6月1日59

用飞书+AI读书，划线就能对话！这个阅读法太上头了测试了一种另类AI阅读方法，结合飞书CLI，相当有趣！ 1. 让 Codex或CC 把Epub电子书按章节写入飞书文档。 2. 人肉阅读，有感触的地方划线、加粗，最好评论。 3. 让 Codex 读飞书文档中的标记和评论，让AI解释回复你。探索差不多了，写个Skill

译推文介绍了一种结合飞书与AI的交互式阅读方法。核心流程为：1. 使用 Codex 或 CC 将 EPUB 电子书按章节导入飞书文档；2. 人工阅读时在文档中对有感触的内容进行划线、加粗或评论；3. 再次调用 Codex 读取这些标记与评论，由AI进行解释和回复。作者认为此方法有趣，并计划将其封装为可复用的 Skill。

meng shao@shao__meng · 5月31日74

Agent: OpenAI Codex + Tools: Google 全家桶、WhatsApp、电报、浏览器自动化等 + Data: Google Drive、Notion、AGENTS.md 等 + Skills: inbox-zero、contacts 等 == 个人生活自动化 Agent 工具栈 @nicbstme 提出的两个典型工作流 1. 介绍邮件（跨 5 个工具的「胶水活」）朋友 WhatsApp 求助 → 搜 WhatsApp/Gmail 找邮箱 → 网页查公司融资 → 起草介绍信 → 等批准 → 发邮件 → WhatsApp 告知完成。人工约 20 分钟、大量上下文切换；用户侧约 10 秒提需求。Agent 做的是跨 App 的编排，不是回答问题。 2. 车牌更新（行政连续性）发照片给 Agent → 更新 Drive 里的 Markdown 车辆档案 → 保留 VIN、保险等字段 → 上传回 Drive → 必要时用浏览器自动化同步到 FasTrak、停车 App、保险门户等无 API 的系统。体现的是行政连续性：同一份信息在多处保持一致，而非一次性问答。最重要的架构决策：Drive 作为 Source of Truth Nicolas 刻意把知识从 Notion 迁到 Google Drive，原因很务实： · Notion 对人友好，对 Agent 不友好（嵌套页面、数据库属性、权限、UI 原生结构） · Drive + Markdown/CSV：可搜索、可 diff、可编辑、可上传、可引用 file ID · gogcli 提供统一的 CLI 面（Gmail、Drive、Calendar、Docs、Sheets 等）组织知识不应只为人类 UI，而应面向 Agent 的工具路径。稳定 file ID、纯文本、表格、返回 JSON 的命令——这些才是 Agent 友好的数据形态。联系人 CSV（电话、邮箱、LinkedIn 等）被作者称为「最佳投资之一」，因为它是跨渠道 lookup 的枢纽。工具优先级（可靠性层级） API / CLI > 本地文件 > 浏览器自动化 > 屏幕/UI 自动化 Agent 的可靠性上限取决于工具面。gog gmail messages list --json 比让模型在网页上点来点去更稳定、可重试、可推理。浏览器和屏幕自动化是必要时的兜底，不是主路径。 Skills：Agent 的「习惯」与「品味」 Skill 不是 fancy 架构，就是可迭代的操作手册。以 inbox-zero 为例： · 列出收件箱 → 区分自动归档 / 需人工审阅 · 展示重要邮件、引用原文、建议归档或回复 · 起草后等明确批准再发送 · 保留所有收件人、回复简短、不主动建议电话、签名用 "Nicolas" 没有 Skill，每次都要重新 prompt 所有偏好；有了 Skill，说「run inbox zero」即可。个人 Agent 的个性化，来自操作品味的累积，而非 cute voice。反馈闭环： · 工具失败 → 修工具或加 guardrail · 判断失误 → 更新 Skill · 忘记偏好 → 写入 memory / AGENTS.md · 工作流重复 → 体系 compound 改进批准门控：信任分级才是产品 Nicolas 明确反对「YOLO 全自动」： · 低 stakes 可直接发（如「告诉 Hugo 我下周在西雅图」） · 高 stakes 必须：读上下文 → 起草 → 展示 → 等批准 → 执行 → 确认。有用 vs 可怕的分界，在于是否在正确时刻问人。「杀手级」工作流：What did I miss? 比单点邮件更重要的，是生活收件箱 triage： · 每隔几小时问一句「我漏了什么？」→ Agent 扫描 WhatsApp、Telegram、Gmail、SMS、Calendar、Drive 变更 → 汇总：谁需要回复、什么 urgent、什么 stale、什么可忽略、什么该建日历、什么要查文档。特点：上下文重、重复、跨工具、充满小决策——人讨厌做第一遍扫描，Agent 擅长第一遍，判断权仍在人。复现清单（Nicolas 给出的路径） 1. 装 Agent 运行时 + 各渠道 CLI/连接器 2. 集中数据：Drive 为真相源，联系人 CSV，重要文档可搜索化 3. 谨慎授权：Full Disk Access、Screen Recording、Accessibility——必须配合同级 approval gates 4. 写 operating rules（AGENTS.md）：draft before send、工具路由、隐私边界等 5. 为重复流程写 Skills，并在每次失误后更新

译该推文介绍了以OpenAI Codex为核心的个人生活自动化智能体工具栈。它集成了Google全家桶、WhatsApp、电报及浏览器自动化等工具，并以Google Drive作为“真相源”数据层。核心是跨应用编排与判断，关键决策需经人工批准。技能（如inbox-zero）是可迭代的操作手册，用于固化偏好。典型的“介绍邮件”编排展示了Agent在处理多工具、高上下文切换任务时的效率。工具优先级为API/CLI > 本地文件 > 浏览器自动化。

向阳乔木@vista8 · 5月31日49

只需提供一个Suno歌曲的URL，用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。

宝玉@dotey · 5月31日67

Codex/Claude Code 调试网络请求的技巧在开发网页程序的时候，有时候会有一些服务端 API 交互代码，如果出现故障或者要优化，就需要根据网络请求的数据去分析问题，有两种简单的方法可以让 Agent 自己拿到这些数据而不需要你手动复制粘贴： 1. 打开 Chrome Dev Tool 后，切换到 Network 请求，有一个 Export HAR 的功能，可以把当前所有网络请求导出成一个 .har 文件，然后把文件路径发给 Codex，让它帮你分析网络请求。 2. 使用 Codex 的 Chrome Plugin，安装官方的 Chrome Plugin，安装 Chrome 的 Codex 浏览器扩展，直接在消息中 "@chrome" 就可以让 Codex 去使用你的浏览器自己调试、抓包

译本文介绍两种让 Codex/Claude Code 自动获取网页网络请求数据进行调试的方法，无需手动复制粘贴。方法一：使用 Chrome 的“Export HAR”功能导出 `.har` 文件，并将文件路径发给 Codex 分析。方法二：安装 Codex 的 Chrome 浏览器扩展，在对话中使用 `@chrome` 指令，让 Codex 直接操作浏览器进行调试与抓包。

宝玉@dotey · 5月31日61

像我日常会几个 Agent 一起用：Codex、Claude Code、Cursor、GitHub Copilot，这些 Agent 各有所长，或者有时候要集众家之长。 Matt 这个 Sandcastle 就是用 TypeScript 脚本来编排 Workflow，可以把这些 Agent 编排在同一个 WorkFlow 中一起来完成一些任务，可以在虚拟机中运行。但过于极客不太适合普通用户，一般的场景真用不上，适合一些追求极致的场景。举例来说你要赛博养蛊：写个技术方案，让各个 Agent 一人出一套，再相互打分完善。

译Sandcastle是由@mattpocockuk开源的一个TypeScript工具，允许用户通过脚本编排Workflow，在虚拟机中协同调用Codex、Claude Code、Cursor、GitHub Copilot等多个AI智能体来完成复杂任务。它定位为面向追求极致效率场景的极客工具，适用于需要多智能体协作或“赛博养蛊”式的任务，例如让各智能体分别生成技术方案再相互评审完善。

Rohan Paul@rohanpaul_ai · 5月31日60

atomic[.]chat (a desktop app that runs LLMs locally) ran a very revealing comparison for local AI agents, on a MacBook Pro M5 Max, 64GB. Liquid’s much smaller LFM2.5-8B-A1B beat gpt-oss-20b by finishing every required tool call, cutting runtime by more than half, and using 4.8GB RAM instead of 11GB. The task was not normal chat, because the model had to plan a trip by calling outside tools for 3 weather checks, 2 currency conversions, 1 email, and 1 reminder. The striking part is that LFM2.5-8B-A1B is much smaller in active compute, yet it hit every required call at 266tok/s, while gpt-oss-20b used 11GB RAM, made only 3/7 calls, and ran at 146tok/s. Now, tool calling is a control problem before it is a language problem. The model has to preserve a checklist across context, decide when language should stop and action should begin, and resist the temptation to answer as if partial completion were enough. A smaller mixture-of-experts model with only a fraction of its parameters active can win if its training shaped those control habits more sharply than a larger model’s general fluency did.

译在MacBook Pro M5 Max 64GB上的本地测试中，Liquid的LFM2.5-8B-A1B模型在需要完成7个工具调用的旅行规划任务上，显著优于OpenAI的gpt-oss-20b。LFM2.5-8B-A1B仅使用4.8GB内存，以266tok/s的速度成功完成了全部7/7工具调用，耗时6.9秒。相比之下，gpt-oss-20b消耗了11GB内存，仅完成3/7工具调用，速度为146tok/s，耗时15秒。这表明，一个活跃参数规模更小（1B）的MoE模型，通过更精准的训练，在工具调用这一智能体任务上可以战胜活跃参数规模约其2.5倍的更大模型。

AYi@AYi_AInotes · 5月30日71

holy，发现OpenAI 的野心是真大啊，Codex可能是接下来普通人能用到的最顶的生产力工具🤔 昨晚OpenAI发布的Codex Windows版Computer Use，说是人类工作方式的一次范式级转变也不为过吧哈哈。这Codex on Windows 视频，我看很多人都在截图那个 goblin，但我觉得更值得看的是 goblin 出现前的那 3 秒。那 3 秒里，Codex 收到了一条指令：「测试我正在做的 WinUI 应用」，兄弟们注意，这个不是"打开浏览器搜一下"，也不是"写段代码"，就是要测试一个 Windows 原生桌面应用，然后它打开了 Paint，选画笔、调颜色、一笔一笔拖出一个完整图案，整个过程特别丝滑流畅！这意味着至少有两件事： ① Codex 的 vision-action loop 已经能处理像素级 GUI 操作，不是点按钮，是真的在画画，这东西之前只在 macOS 上见过，现在 Window 版本竟然一步到位了！ ② 官方刻意用 WinUI 测试开场，是在暗示：这不是玩具喔，我们在给开发者和企业用的真实生产环境！也就是说以后只要手机端发一句「整理我的 Slack sections」，Windows 端就开始在桌面 App 里干活，这套"手机指挥 + 桌面执行"的逻辑可能才是这次更新的真正骨架。打个比方说，Goblin 是烟花，WinUI + Slack就是弹药。我给这条视频做了完整的中英双语字幕，enjoy it!

译OpenAI发布了Codex的Windows版Computer Use功能。根据演示视频，Codex已能处理像素级的Windows原生GUI操作，例如在收到“测试我正在做的WinUI应用”指令后，能直接打开Paint（画图）应用，流畅地选择工具、调色并一笔一笔绘制图案，这展示了其vision-action loop的成熟度。官方通过WinUI测试等场景，暗示该功能面向真实的生产环境。同时，通过ChatGPT移动应用，用户可以从手机端启动、审核和引导Codex在Windows机器上执行任务，形成“手机指挥+桌面执行”的跨设备协作流程。

elvis@omarsar0 · 5月30日65

In a few months, people will start to realize how fundamentally important MCP for agents is. It's not even about connecting tools. There are many ways to do that. It's about the types of abstraction it already enables. My new self-improving system, enabled through agent-to-agent interaction, is all powered by MCPs. This was not an accident. I ran my entire orchestrator through a self-improving loop with clear criteria/goal, and it came up with all kinds of interesting ways (mostly powered by MCP tools) on how to enable complex interactions, versioning, eval workflows, communications, tools, etc. Something new could always emerge, but I think the protocol itself will be crucial and necessary for all the advancements ahead. MCP is the future. And I am glad a lot of it is built in the open.

译作者认为MCP（模型上下文协议）对AI智能体的未来至关重要，其核心价值不仅在于工具连接，更在于它所启用的抽象能力。作者以自身构建的自我改进系统为例，该系统完全通过MCP驱动，展示了MCP如何赋能智能体间交互、实现复杂协调、版本控制、评估工作流及工具集成等关键功能。作者强调，尽管新事物可能不断涌现，但MCP协议本身对于未来所有进展将是必要且关键的基础。

ginobefun@hongming731 · 5月30日70

小技巧：一键配置 Claude Code

译Anthropic 发布了官方插件 claude-code-setup，用于简化 Claude Code 的配置。它能自动扫描项目，一键推荐并配置 Hooks、技能、MCP 服务、子代理及自动化功能。该插件可将原本 30-60 分钟的手动配置过程，缩短至 3-5 分钟完成。安装命令为：`/plugin install claude-code-setup@claude-plugins-official`。

Google AI Developers@googleaidevs · 5月30日42

Good implementation of Managed Agents in the Gemini API by our friends at @Eigent_AI! Root causing CI failures at lightning speed. ⚡

译Eigent平台展示了集成Gemini Managed Agents API的实际效果。其开源协作工具Eigent使用Gemini 3.5 Flash和该API，快速定位了一个真实的megatron-lm CI故障，在几分钟内找到了根本原因。工作流程中，协调员智能体规划审计，开发员智能体加载`ml-failure-audit`技能并收集证据，随后Gemini智能体作为远程子智能体接手进行深度推理。这体现了Managed Agents在自动化复杂任务中的效率。

Google AI Developers@googleaidevs · 5月30日63

The team at @llama_index built an awesome template using LlamaParse and the new Managed Agents in the Gemini API. See how they built an agent that can tackle unstructured documents. 📄↓

译LlamaIndex 团队基于 Google 新发布的 Agents API 构建了一个模板，使智能体能够访问 LlamaParse 和 LiteParse，从而自动处理非结构化文档。其工作流程为：配置数据与输出的 Git 仓库，将仓库克隆至智能体沙箱，安装 LiteParse CLI 与 LlamaParse SDK 及相关技能，最后通过提示词驱动智能体自主执行任务。该模板最终形成一个可直接使用 LlamaParse 和 LiteParse 处理真实世界文档的智能体。

宝玉@dotey · 5月30日63

OpenAI 今天宣布，Codex 的 Computer Use 功能正式登陆 Windows。这个功能让 AI 能像人一样操作桌面应用，看屏幕、点鼠标、打字，4 月中旬上线时只支持 macOS。同时更新的还有手机远程控制。5 月中旬 OpenAI 把 Codex 接入了 ChatGPT 手机 App，可以在手机上启动、监控和审批电脑上跑着的 Codex 任务，但当时只能连 Mac 主机。现在 Windows 也能当主机了，出门在外用手机盯着家里的 Windows 电脑干活，流程算是跑通了。

译OpenAI宣布其Codex的“计算机使用”功能正式支持Windows系统。该功能使AI能像人类一样操作桌面应用，此前于4月中旬上线时仅支持macOS。同时更新了手机远程控制能力，现可通过ChatGPT手机App在移动设备上启动、监控和审批运行于Windows电脑的Codex任务。这是继5月支持Mac主机后的扩展，目前仍属于早期体验。

OpenAI@OpenAI · 5月30日73

Windows users, this one’s for you. Computer use now works on Windows, so Codex can take action on your Windows computer. And with Windows support for Codex in the ChatGPT mobile app, you can start, review, and steer tasks on the go while work continues on your Windows machine. An early experience, but we’re working on more ways to keep your work moving, wherever you are.

译Windows用户，这条消息是给你的。计算机使用功能现已在Windows上可用，因此Codex可以在你的Windows电脑上执行操作。通过ChatGPT移动应用中Codex的Windows支持，你可以在工作继续在Windows电脑上进行时，随时随地启动、审查和引导任务。这是一项早期体验，但我们正在努力提供更多方式，让你的工作无论身在何处都能持续进行。

宝玉@dotey · 5月30日62

Claude Opus 4.8 发布的同时，Anthropic 还上线了一个 API 层面的新能力：mid-conversation system messages（对话中途系统消息）。对于做 Agent 开发的会很有用。简单来说它就是类似于后续注入的方式修改原始系统提示词（System Prompt），并且不会影响 Prompt Caching。 4.8 之前 Claude 是不能发送类型是 system 的消息，只能支持 user 或者 assistant 消息，system prompt 只能在最前面。所以 Claude Code 之前是用的一种特殊的消息内容：<system-reminder>，尝试覆盖系统消息指令。举个例子，你在初始 system message 指定这个 Agent 是一个系统设计师的角色，擅长做系统设计，但是不允许写代码，只写文档。然后随着任务推进，现在得让这个 Agent 开始写代码了，但你就算通过 user message 去让它可以写代码，因为权重不够高，它还是会倾向于不写代码写文档。现在有了 mid-conversation system messages，你就可以新加一条指令，明确要求它转变角色变成一个开发工程师，不必再遵守之前不写代码只写文档的约定，并且 mid-conversation system messages 的优先级更高，能覆盖原始 system message 的设定。这个功能目前只支持 Claude Opus 4.8，只在 Anthropic 自家 API 和 AWS 上的 Claude Platform 可用，Bedrock、Vertex AI、Microsoft Foundry 都不支持。系统消息不能放在对话开头（开头还是用顶层 system 字段），也不能连续放两条，必须跟在 user 消息后面。对于普通用户，这功能无需关心。

译Anthropic为Claude Opus 4.8新增mid-conversation system messages API功能。该功能允许在对话进行中动态修改系统提示词（System Prompt），且不会影响Prompt Caching。此前，系统提示词只能在对话开头固定设置，开发者有时通过user消息中的特殊标签尝试覆盖。新功能支持插入更高优先级的系统指令以调整Agent行为。此功能目前仅限Claude Opus 4.8及其官方API与AWS上的Claude Platform。

OpenRouter@OpenRouter · 5月30日72

OpenRouter now supports "apply_patch," a server tool that lets any model propose file edits using V4A diffs through the Responses API. The model generates a patch (create, update, or delete a file). OpenRouter validates the diff syntax server-side.

译OpenRouter 现已支持 "apply_patch"，这是一个服务器工具，允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议。模型生成一个补丁（创建、更新或删除文件）。OpenRouter 在服务器端验证 diff 语法。