AI agents fail not at calling tools, but at coordinating many tools reliably over time. This paper is a comprehensive review of recent progress in multi-tool LLM agents. The main proposal is to treat multi tool orchestration as its own problem, meaning the agent must choose, order, monitor, and sometimes redo many tool actions. The authors review the field across 6 linked areas: planning at run time, training data and tuning, safety, efficiency, missing tool handling, and benchmarks that test harder interactive tasks. Their main finding is that progress now depends less on single call accuracy and more on graph style planning, memory, verification, rollback, and better ways to evaluate long running tool use. That matters because an agent can look smart on a small demo yet still fail badly in software work, enterprise systems, phones, or web tasks if it cannot keep state straight and recover safely. And also current benchmarks and research are shifting away from simple single-call tests toward harder real-world tests where agents must stay reliable over long tool chains. ---- Paper Link – arxiv. org/abs/2603.22862v2 Paper Title: "The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration"

译本文综述多工具LLM智能体的进展，指出其核心失败原因在于长时间协调多个工具的可靠性不足，而非单次工具调用。论文将多工具编排视为独立问题，要求智能体处理工具的选择、排序、监控与重试。作者从运行时规划、训练数据与调优、安全性、效率、缺失工具处理及更复杂的交互任务基准六个领域回顾现状。关键发现是，进展更依赖于图式规划、记忆、验证、回滚以及更好的长周期工具使用评估方法，而非单次调用准确性。当前研究与基准正从简单的单次调用测试转向更贴近现实、要求智能体在长工具链中保持可靠性的硬任务测试。

向阳乔木@vista8 · 4月28日44

听了曲凯的42章经，打开Slock 试了下，感觉还不错！有点类Slack的样子和交互，安装配置简单教程： 1. 打开网站注册登录，添加本地电脑，终端输入给的npx指令，自动扫描本地的大模型CLI。 2. 用你本地的Claude Code、Codex、Gemini CLI创建Agent。 3. 创建不同Thread，邀请Agent加入，就能随时对话，也能调用本地的Skill。网址见评论区

译用户尝试了Slock平台，认为其界面和交互类似Slack，安装配置过程简单。主要流程包括：在网站注册登录并添加本地电脑，通过终端执行指令自动扫描本地的大模型命令行工具；随后可利用本地的Claude Code、Codex或Gemini CLI创建AI Agent。用户可以在不同对话线程中邀请这些Agent加入，实现随时对话并调用本地的Skill功能。该平台旨在便捷地集成和管理本地AI工具进行协作。

Ethan Mollick@emollick · 4月28日49

I have been playing with the new Outlook agent, and it is fine, but really awkward to use, since you have to ask for things in a chatbot window, then go to your drafts, etc. And Claude Cowork does the same thing (works with Gmail, too) and has better visibility across your life.

译我一直在试用新的Outlook助手，它还行，但用起来真的很别扭，因为你得在聊天机器人窗口里提出需求，然后还得去草稿箱找结果等等。而Claude Cowork做的是同样的事（也能在Gmail上用），并且在你生活的方方面面都有更好的可见性。

阿绎 AYi@AYi_AInotes · 4月28日69

Damn，OpenAI刚刚扔出的这个开源仓库，直接把语音交互的未来砸到了所有人脸上🤯🤯🤯 他们发布了gpt-realtime-1.5的官方语音控制组件，现在你真的可以用自然语音，直接控制应用的UI状态，而不是转成文本再下命令。视频里的演示蛮震撼的，说一句切换深色模式，整个界面瞬间变黑。对着表单念你的姓名生日，字段自动填充，进度条实时更新。最绝的是下棋，说骑士走到F3，棋子直接移动，说重置棋盘，一秒清空，就好像模型永远知道当前屏幕上是什么状态，语音操作和鼠标键盘完全等价。讲真这么玩的话，这就不是简单的语音转文字的小升级了，我理解属于交互范式的真正转折。以前语音是输入层，现在语音变成了应用的顶层控制层。就是科幻电影里那种，对着屏幕说一句话，东西就自己变了的感觉🤩 更狠的是他们直接把整个实现开源了🤯🤯🤯 这个realtime-voice-component不是一个半成品demo，是一个完整的React参考实现。一行代码加个浮动按钮，用Zod定义几个工具，十分钟就能给你现有的Web应用加上语音控制。最聪明的设计是工具完全由应用拥有，模型只能调用你预定义的窄动作，不能乱动浏览器，安全又可控。这比之前的Computer Use靠谱一万倍。 Computer Use是让AI瞎点屏幕，而这个是让AI直接调用你写好的接口。一个是黑箱，一个是完全可控的白箱，这才是能真正落地到生产环境的方案。现在已经有人用它接了蛋白结构可视化工具，接了设计软件，接了企业内部仪表盘。未来你能想到的所有需要双手操作的场景，开车，做饭，做设计，做手术，未来都可以用语音控制。这意味着语音正在成为操作系统级别的接口。而OpenAI已经把所有的轮子都给你造好了。想玩的直接去fork仓库，配个API Key，跑demo就能感受到那种说一句世界就变了的魔力。老规矩GitHub地址评论区自取👇

译OpenAI开源了gpt-realtime-1.5的官方语音控制组件，允许用户直接用自然语音控制应用UI状态，而非仅进行语音转文本。该组件是一个完整的React参考实现，开发者可快速集成。其核心在于工具由应用预定义，模型只能调用这些受限动作，确保了安全可控。这标志着语音正从输入层升级为顶层控制层，为设计、驾驶等双手操作场景提供了新的交互可能，是交互范式的重要转折。

ginobefun@hongming731 · 4月28日42

把 BestBlogs 业务和接口基础监控能力接入 PostHog，详细日志在阿里云 SLS，接入两边的 MCP，定期分析和检查业务和系统问题，然后让 Codex 优化和改进，妥妥闭环，真是太省心了 😄

译作者将BestBlogs的业务与接口监控能力接入PostHog，并将详细日志存储在阿里云SLS。通过对接两边的监控控制平面，定期分析检查业务与系统问题，随后利用Codex进行自动化优化与改进，从而形成一个完整的监控、分析与优化闭环。这一流程显著提升了运维效率，实现了省心管理。

Berryxia.AI@berryxia · 4月28日65

🚀 Claude Code 终于可以和浏览器并排实时控制了！ YC 大佬推出 GStack Browser + /open-gstack-browser skill，调试体验直接起飞！ 1. 在 Claude Code 中输入 Install GStack 快速安装 2. 输入 /open-gstack-browser 即可打开浏览器窗口 3. 实现 Claude Code 和浏览器完全 side-by-side 操作 4. 完美解决 Agent 调试时“看不见浏览器在干什么”的痛点 Claude Code 重度用户和 AI Agent 开发者必装神器！项目地址： https://github.com/garrytan/gstack

宝玉@dotey · 4月27日75

GPT Image 2 Prompt（Credit to @xiaoxiaodong01）： ---- Create ONE finished premium conceptual typography poster for the exact title: “[INPUT_TEXT]” Single poster only. No moodboard, grid, presentation board, mockup, captions, prompt text, process sheet, or sample labels. The title “[INPUT_TEXT]” must be the dominant visual structure of the poster: huge, readable, powerful, and spelled exactly. Do not translate, shorten, replace, or misspell it. Do not add other large readable text. Optional micro catalog text is allowed only if it stays subtle and secondary. Silently interpret the title’s meaning, mood, cultural aura, symbolic associations, psychological tension, and visual rhythm. Turn that interpretation into one strong visual metaphor. Typography is the hero. Design custom-looking letterforms whose weight, width, contrast, spacing, rhythm, distortion, negative space, edge quality, and ink texture express the temperament of the title. The type should feel intentionally designed, not like a default font. If “[INPUT_TEXT]” refers to a widely known person, make a large editorial portrait or full / half-body figure a major visual presence, occupying roughly 40–70% of the composition. The figure should feel recognizable through aura, posture, styling, era, expression, lighting, and symbolic atmosphere, but should not copy a specific existing photograph, official poster, campaign image, logo, slogan, or copyrighted composition. The portrait must interact with the typography: overlapping the letters, emerging from them, being framed by them, casting shadows on them, breaking through them, or being partially hidden behind them. For all other titles, use a human figure, landscape, object, or atmospheric setting only when it strengthens the meaning. It must interact with the typography and deepen the concept, not decorate it. Use a rich but restrained 4–6 color system matched to the theme: dominant background color, primary typography color, figure / landscape tone, emotional accent color, muted support color, and subtle paper / ink texture tone. Avoid flat black-white-red defaults unless conceptually necessary. Composition style: high-end editorial poster, museum-quality graphic design, dramatic scale, strong hierarchy, few elements, intelligent whitespace, bold flat color areas, sharp cropping, silkscreen / lithograph / risograph grain, paper fibers, subtle ink imperfections, refined visual tension. The final image should feel like a complete visual sentence: the title, the figure or setting, the color, and the typography explain each other. Avoid generic word art, glossy 3D lettering, random icons, stock-photo realism, cluttered collage, excessive grunge, tourist clichés, official logos, copied slogans, copied campaign aesthetics, unrelated text, and misspelled typography. ----- INPUT_TEXT：Elon Musk

译GPT Image 2 Prompt工具发布了一项针对生成“Elon Musk”主题高级概念排版海报的详细设计规范。核心要求是海报必须以“Elon Musk”标题为绝对主导视觉结构，文字需巨大、可读、有力且拼写精确。设计需基于对标题含义、文化氛围及象征意义的解读，转化为一个强有力的视觉隐喻。若标题指代广为人知的人物，则需将具有可识别性的编辑肖像作为主要视觉元素，占据40-70%版面，并与标题文字产生互动。整体风格需为高端编辑海报，采用4-6色系，强调定制化字形、戏剧性尺度和精炼的视觉张力，避免通用化设计元素。

小互@xiaohu · 4月27日55

简单测试了 PixVerse 出的AI视频生成 CLI 工具一行命令生成视频，不用开浏览器，直接可以在Claude Code和小龙虾里面利用Agent生成视频不只是 PixVerse 自己的模型，Sora 2、Veo 3.1、Grok Imagine 模型都支持，都能通过同一个 CLI 调用... 安装就两秒：npm install -g pixverse 就可以输入要求或者提示词让其生成视频，如果绑定了telgram或者飞书可以手机遥控... 也支持图片生视频、AI 配音、唇形同步、音效、超分辨率，基本上网页版能做的，CLI 全能做。

译PixVerse发布AI视频生成CLI工具，用户可通过一行命令快速生成视频，无需打开浏览器。该工具集成于Claude Code等平台，支持调用Sora 2、Veo 3.1、Grok Imagine等多种模型，并具备图片生视频、AI配音、唇形同步等网页版全部功能。安装简便，支持通过Telegram或飞书进行手机遥控操作。

小互@xiaohu · 4月27日57

Telegram 上线了一个挺有意思的能力,叫 Managed Bots 让机器人创建和管理机器人而且机器人之间能互相聊天了以前你想要一个专属 AI 助手 Bot，得打开 BotFather、输命令、复制一长串 token、回到开发者网页粘贴、配 webhook，普通人 90% 卡在第三步就放弃了。现在变成两步：点链接、确认名字。几秒后你的聊天列表里多了一个挂着你起的名字的 Bot 体验上跟以前最大的差别其实是心理感受，公共 Bot 像在用客服，专属 Bot 像有个私人助手。说话方式都不一样了。能干啥(脑洞别太小) • 个人 AI 助手:每个用户挂自己名字一个 bot,记忆 / 配置 / 连的账号全隔离 • 客服 SaaS:平台让每个商家一键开一个挂自家品牌的客服 bot • AI Agent 平台:用户点链接就开通,省掉注册下载订阅整套流程 • 内容订阅:每个订阅者一个专属推送 bot,频率内容按偏好定制

译Telegram上线Managed Bots功能，极大简化了专属AI助手机器人的创建和管理流程。用户只需点击链接并确认名称，几秒内即可获得一个以自己名字命名的专属Bot，体验从使用公共客服转变为拥有私人助手。该功能支持机器人创建和管理其他机器人，并能互相通信。其核心潜力在于支持大规模个性化部署，应用场景包括：为每个用户创建隔离记忆与配置的个人AI助手；让商家一键开通品牌客服Bot的客服SaaS平台；用户点链接即开通的AI Agent平台；以及为每位订阅者提供定制化内容推送的专属Bot。

Berryxia.AI@berryxia · 4月26日36

花生的女娲skills的确不错！我自己参加腾讯的比赛也是受花生女娲的启发做了悟空skills，之前有人问是不是和女娲一样？或者抄袭？其实，我一开始就说了。我自己的迭代和完善的内容是不同的，根据我的需求进行了迭代。过几天开源后大家自己可以看看。有什么区别哈～

译作者回应外界对其开发的“悟空skills”是否抄袭“女娲skills”的质疑，澄清其项目是在“女娲skills”启发下，根据自身需求进行独立迭代和完善的产物，并预告即将开源以供公众自行比较差异。背景信息显示，“女娲.skill”已取得显著关注，并被多家主流公司的Agent产品采用。

阿绎 AYi@AYi_AInotes · 4月26日55

说实话，这才是我想要的AI该有的样子。前_buildspace创始人Farza刚刚发布了Clicky，一个住在你Mac光标旁边的AI伙伴，你不用打开任何App，不用打字，只要对着屏幕说一句话，它就会分裂出一个小代理，直接帮你把活干了。你说，帮我把桌面这些乱七八糟的截图清理一下，它就自动给你分类归档。你说，帮我明天晚上九点设个提醒和Sharif去吃饭，它就直接打开提醒事项帮你建好。你说，帮我找25个粉丝不到五万的同领域微网红，列成CSV再写几条DM模板，它就自己上网搜，自己整理，几分钟给你一个现成的表格。最离谱的是这个，你说，帮我建一个Mac App，控制本地的Spotify，做成复古唱片机风格，有播放暂停显示歌名，五分钟之后，它真的给你编译出了一个完整的原生App，还自动打开给你运行。以前所有的AI，都是你去找它，你打开聊天框，你打字，你复制粘贴，而Clicky是它一直在你身边，它看得到你屏幕上的一切，你需要的时候喊一声，它就出来帮你搞定。 Siri会告诉你，我帮你打开提醒事项，然后让你自己填，而Clicky会直接帮你填好保存，这才是真正的AI助手，不是聊天机器人，是你的数字员工。现在已经可以免费下载了，Mac用户直接冲，这绝对是2026年到目前为止，最让我兴奋的AI产品。

译前_buildspace创始人Farza发布了Mac端AI助手Clicky。它常驻光标旁，用户无需打开应用或打字，直接对屏幕说话即可触发。AI能理解指令并自动执行任务，例如整理桌面截图、创建提醒事项、搜索整理网红列表生成CSV文件，甚至能在几分钟内根据描述编译并运行一个功能完整的原生Mac App。其核心突破在于从“用户主动寻找并操作AI”转变为“AI常驻感知屏幕，听令即执行”，直接完成而非仅提供操作路径，类似于数字员工而非聊天机器人。目前该产品已可免费下载。

Peter Steinberger 🦞@steipete · 4月26日46

CodexBar 🎚️ 0.23 is out: Mistral support, Claude Designs/Daily Routines usage, Cursor Extra usage, GPT-5.5 pricing, cleaner widgets/menus, and a bunch of reliability fixes. https://github.com/steipete/CodexBar/releases/tag/v0.23

译CodexBar 🎚️ 0.23 已发布：新增 Mistral 支持、Claude Designs/Daily Routines 使用情况、Cursor Extra 使用情况、GPT-5.5 定价、更简洁的小部件/菜单，以及一系列可靠性修复。https://github.com/steipete/CodexBar/releases/tag/v0.23

阿绎 AYi@AYi_AInotes · 4月26日53

翻墙出来一定要多看优质的信息源，不要只是出来看片！多逛英推区宝藏，看不懂听不懂阿绎给你翻译拆解系列06：说个反直觉的事实，你每天花两小时刷X，其实是X在免费雇佣你当它的内容劳工🤣👀 我刚看完Alex Finn大神的这个教程，后背一阵发凉，原来真正会玩的人，早就不自己刷X了，他们让X反过来给自己打工，你不用写一行代码，只要把X的API密钥丢给OpenClaw，它就会24小时不间断帮你扫描整个平台，把你关心的领域里正在冒头的爆款，第一时间推到你的Telegram里，连为什么会爆都给你总结好。以前刷X，是算法喂你什么你看什么，你花了大量时间，最后只记住了几个梗和一堆没用的情绪，现在你告诉AI，我只关心AI创业和独立开发的内容，每两个小时给我发Top5最有价值的帖子，剩下的垃圾信息，你帮我全部过滤掉。最狠的是那个Reply Guy策略，很多人不知道，X上90%的大流量，都来自于在爆款帖下面的第一条高质量评论，以前你要蹲在手机前刷新才能抢到沙发，现在AI帮你盯，帖子刚发出来十分钟，还没爆的时候，它就推给你，你加一句自己的思考发出去，曝光量是你自己发原创的十倍都不止。视频那个3D地球仪表盘看起来很炫酷，但它真正的价值让你第一次拥有了上帝视角，你能同时看到美国澳大利亚英国日本正在发生的事，而这些不同国家之间的信息差，就是普通人最大的机会。我自己跑了三天，每天才花几块钱人民币，比一杯奶茶还便宜，以前我每天早上要刷一个小时X才能进入工作状态，现在我打开Telegram看一眼，五分钟就知道今天该聊什么，该写什么。很多人说AI会让人变懒，但我觉得恰恰相反，它把你从无意义的信息劳动里解放出来，让你有更多的时间去思考，去创造，而不是当算法的免费劳工。我相信未来的竞争，不会再是谁看的信息更多，而在于谁能更快更准地过滤掉垃圾信息，只抓住真正重要的那百分之一。大家都知道我这个系列只分享最干最顶最实用的干货，光翻译做视频都要花好久，希望能对铁汁们有帮助，一起进发！

译作者指出，每天刷X平台实质是在为其免费提供内容劳动。通过利用OpenClaw等工具连接X的API，可以逆转这一关系：让AI 24小时自动扫描平台，将指定领域（如AI创业）的潜在爆款内容及分析推送到Telegram，并过滤垃圾信息。其中，“Reply Guy”策略能捕捉爆款帖子发布初期的机会，通过抢先发布高质量评论获取巨大曝光。此外，工具提供的全局仪表盘有助于洞察各国信息差，发现机会。作者亲测该方法成本极低，能将每日信息获取时间从一小时压缩至五分钟，认为AI能将人从无意义的信息劳动中解放，专注于思考与创造。未来的竞争力在于精准过滤垃圾信息并抓住核心的1%。

宝玉@dotey · 4月26日69

http://x.com/i/article/2048134795494875136 # 为 Agent 设计产品原文：Designing for Agents 作者：Teddy Riker 如果你和我一样，经常混在 X 上同一个信息圈里刷动态，那么你大概也见过这种说法：用户界面已经死了。你会一边刷到“我如何用 Obsidian 搭建第二大脑”，一边刷到“Anthropic 彻底杀死了某某行业”这类帖子。然后很快，你就会看到有人说：一个产品如果不能被 AI 智能体（AI Agent）通过 MCP、API、CLI，或者介于它们之间的方式使用，那它就活不下去。这个趋势在 Ramp 已经很明显。过去三个月里，随着越来越多客户开始通过 Claude、ChatGPT 和其他 AI 智能体进入我们的产品，我们 MCP 上的每周活跃用户增长了 10 倍。（MCP，Model Context Protocol，模型上下文协议，可以理解为一种让 AI 智能体调用外部工具和数据的标准方式。）上周，Salesforce 成了最早主动拥抱这个判断的传统软件巨头之一。来自 https://venturebeat.com/ai/salesforce-launches-headless-360-to-turn-its-entire-platform-into-infrastructure-for-ai-agents: > https://www.salesforce.com/ 周三宣布了这家公司 27 年历史上最激进的一次架构转型，推出了“https://www.salesforce.com/news/stories/salesforce-headless-360-announcement/”——这是一项覆盖整个平台的大计划：把平台里的每一项能力都暴露成 API、MCP 工具或 CLI 命令，让 AI 智能体可以在完全不打开浏览器的情况下操作整个系统。 > 这项发布是在 Salesforce 于旧金山举办的年度 https://www.salesforce.com/tdx/ 大会上宣布的，并且立刻向开发者开放了 100 多个新工具和技能。它也正面回应了一个悬在企业软件头顶的生死问题：当 AI 智能体已经能够推理、规划和执行时，一家公司还需要一个带图形界面的 CRM 吗？ > Salesforce 的回答是：不需要——而这正是重点。 Salesforce 这一步很聪明，而且我很难想象这会是一个容易做出的决定。你问大多数销售，他们大概率会告诉你，他们并不喜欢用 Salesforce。但 Salesforce 之所以无处不在，很大一部分原因正是它的用户体验（UX）足够熟悉。销售负责人通常并不想让整个团队重新适应一套新技术；在很多时候，一致性比功能强大更重要。 Benioff 和他的团队正在承认：这条护城河正在被侵蚀。他们也开始主动拥抱一个现实——未来大量使用行为会通过 Claude、ChatGPT 以及其他用户根本看不见的后台流程来完成。我并不认为用户界面（UI）正在死亡。人类仍然想要点击按钮、查看配置、确认任务已经完成。但二八法则已经反过来了：未来人与软件之间 80% 的交互，都会通过 AI 智能体完成。这不仅会改变你需要构建什么，也会改变你构建它的方式。 ## 新的交互模式过去二十年里，人们和软件交互的主要方式是：用户 → 界面 → 数据库你打开一个产品，点来点去，把事情做完。界面就是你体验软件的方式。对大多数人来说，界面本身就是产品。但随着 AI 智能体接手越来越多工作，一个新的中间层出现了：用户 → 用户的 AI 智能体（比如 Claude）→ 数据库 AI 智能体代表用户行动。它读取、写入、浏览产品，这样用户就不用亲自操作。突然之间，界面消失了。智能体开始直接和底层系统对话。不过，这个模式也在迅速变化。软件公司正在——而且也应该——设计自己的 AI 智能体和能力。所以新的模式更像这样：用户 → 用户的 AI 智能体 → 软件自己的 AI 智能体 → 数据库在这个模型里，软件自己的 AI 智能体会替用户的智能体处理复杂性：执行业务逻辑、落实规则、补充后者没有的上下文。两个大语言模型（LLM）一起协作，朝着同一个结果推进。 ## 教会 AI 智能体如何成功我现在大部分头脑风暴、写作和构思，都是和大语言模型一起完成的。当一篇草稿准备好分享时，我会通过 Notion 的 MCP 服务器把它推到 Notion 里。我曾经是 Google Docs 的忠实用户很多年，但 Notion 的 MCP 改变了我的习惯。作为 Notion MCP 的用户，我很欣赏的一点是：每次我让 AI 智能体写点什么，它几乎都能一次到位。表格、项目符号、斜体、列表，你能想到的格式，它都不会出错。这不是偶然，而是设计出来的。 Notion 的 notion-create-pages 工具描述一开始就写着：“如需完整 Markdown 规范，必须先获取 MCP 资源 notion://docs/enhanced-markdown-spec。不要猜测或幻觉 Markdown 语法。”当我让智能体写入一个页面时，它做的第一件事就是获取这份规范。先读规范，再动笔。所有 Notion 特有的假设，都会被明确指出，而不是依赖通用模型的默认理解。在旧世界里，这类规范会放在 API 文档里。接入 Notion 的开发者会读文档、理解规则，然后写一个转换层。现在，Notion 会在 AI 智能体真正需要的时候，直接把规范交到它手里。如果你用过 Slack MCP，可能就体验过相反的情况。你的 AI 智能体会默认使用标准 Markdown，却没有遵守 Slack 自己那套特定格式。结果是，你花在修改格式上的时间，可能比自己手写消息还多：当然，Slack 的格式指南在网上能找到，你也可以把它保存下来，再教你的智能体怎么用。但这很烦，而且本来就不该是用户需要操心的事。你应该思考：调用你家智能体的人，需要知道什么才能成功？然后主动把这些信息交给它。不要让它自己摸索。 ## 建立反馈循环当我们刚在 Ramp 发布 MCP 时，最大的问题是可观测性（observability）。我们能看到工具调用量，但看不到触发这些调用的聊天上下文。仅仅知道调用量，并不能告诉我们什么有效、什么坏了、用户到底想完成什么。后来我们用几种方式解决了这个问题： 1. 每次工具调用都要求填写“理由”。每一次 MCP 或 CLI 工具调用，都要求 AI 智能体带上一个 rationale 参数，解释它为什么要发起这个请求。我们看不到聊天内容，但这个理由可以重建意图。理由里的模式，会告诉我们用户到底想做什么。 1. 提供一个反馈工具。我们发布了一个独立工具。当 AI 智能体遇到阻碍，或者发现某种模式行不通时，它可以调用这个工具。它会提交自己原本想做什么、尝试了什么、卡在了哪里。 1. 给特定工具加入上下文种子。我们会给单个工具加入专门设计的参数，用来捕捉之后会有用的上下文：这些信息智能体能拿到，但如果不主动收集，我们之后只能靠猜。想象一下，你正在做一个客户支持平台，并提供工具让客户抓取工单。过了一段时间，你开始在理由日志里反复看到类似表达：“正在生成事故报告”“正在起草事故摘要”“正在收集停机复盘相关工单”。这就是一个新产品功能的信号！你可以做一个 build-incident-report 工具，用来识别相关工单、评估严重程度、拉取受影响的客户群体，并用一种强约束的格式起草摘要。这个工具上线后，你可能又会开始收到反馈：“报告拉进了三天前的工单，但那些不属于这次事故”，或者“它总是把免费套餐用户的工单也放进复盘里，但这些用户不应该出现在事故复盘中”。突然之间，你的 AI 智能体开始告诉你的 AI 智能体：接下来到底该构建什么。 AI 智能体当然会幻觉。但在反馈这件事上，它们往往比你真正发给产品的多数人类用户更具体，也更一致。如果报告拉进了无关工单，你就增加一个日期范围参数。如果不该包含免费套餐客户，你就增加一个客户分组筛选器。每一个反馈循环，都会变成产品改进的新入口。 ## 留意上下文缺口在任何 AI 智能体交互中，你的系统掌握一些调用方智能体不知道的上下文；而调用方智能体也掌握一些你的系统不知道的上下文。设计这些交互时，你应该清楚地判断：哪一方在哪些信息上更有优势。比如 Diego 去出了一趟差。他的 AI 首席幕僚收到一条来自费用管理系统智能体的 Slack 提醒：他最近这趟出差还有未完成的报销。现在，两个 AI 智能体都指向同一个目标：正确提交这些报销。这两个智能体各自带着不同的上下文。 Diego 的 AI 首席幕僚知道： - Diego 的日历：知道哪些会议发生了、在什么时候、和谁一起 - Diego 的邮箱：有酒店和航班确认邮件附件 - Diego 的 Slack：能把 Kokkari 那顿晚餐关联到一个他邀请 Acme 团队的对话线程 - Diego 的收据：来自邮件附件和照片图库费用管理系统知道： - 原始交易数据，比如商户、交易时间 - 公司关于报销提交的政策 - 公司的总账科目（GL accounts）（GL 通常指 General Ledger，也就是财务记账里的总账分类） - 公司过往的费用归类习惯传统 API 会把问题丢回给用户：“这里有一笔交易需要填写 GL code。请调用这个接口获取 150 个 GL code 选项，然后自己选一个。” 设计得好的 AI 智能体交互会反过来处理这件事——它不会直接索要 GL code，而是索要上下文：这是一顿客户餐、团队餐，还是个人旅行支出？AI 首席幕僚可以从日历条目或 Slack 对话里找到答案。然后费用管理系统根据自己原本缺失的那部分上下文，自动套用正确的科目。 Diego 和他的智能体都不需要知道 GL code 到底是什么。财务团队也能得到准确的分类。双方各自贡献自己知道的信息，最终交付一个对 Diego——也对他的会计——都更好的结果。当你设计这种智能体到智能体的交互时，一定要留意上下文缺口。承认你的智能体在哪些地方不擅长，是完全可以的——因为你们其实是在服务同一个用户。过去，界面夹在 Diego 和他的费用系统之间。现在，界面夹在他的智能体和你的智能体之间。这个变化重新定义了产品团队的工作。过去，你是在为一个想快速完成任务、避免犯错、看得见自己工作的真人设计产品。现在，你仍然是在服务同一个人，只不过中间多了一个代理者。它的直觉、上下文和局限，都和人类不同。教会 AI 智能体如何成功、建立反馈循环、留意上下文缺口，这三件事背后其实都在问同一个问题：调用你家智能体的一方，到底需要什么才能把工作做好？你有没有把这些东西交给它？大多数公司会发布一个 MCP，勾上“我们也支持 AI 智能体了”这个框，然后继续往前走。它们的使用量可能会增长几个季度，然后停滞。随着时间推移，客户会流向那些真正打磨细节的产品，也会绕开那些只是敷衍了事的产品。像当初为人类用户设计产品一样，认真为 AI 智能体设计产品。因为你很快就会发现，最后签支票的，可能正是它。

译文章指出，AI Agent正成为用户与软件交互的主要中间层，未来80%的人机交互将通过Agent完成。这要求产品设计范式从面向人类用户界面转向优先为AI Agent服务。核心转变包括：软件需通过API、MCP、CLI等方式向Agent开放能力，Salesforce的“Headless 360”计划是典型案例；产品需主动向Agent提供成功所需的关键规范与上下文，如Notion MCP的做法；需建立有效的反馈循环机制，利用Agent的调用理由和反馈工具来驱动产品迭代。设计者需明确系统与调用方Agent各自的上下文优势，并填补信息缺口。传统图形界面不会消失，但产品必须为Agent优先使用而构建。

阿绎 AYi@AYi_AInotes · 4月25日37

金瓶梅的艺术成分很高我们都知道，GPT-image-2+seedance 2能复刻一切，比如潘金莲约会西门庆，请兄弟们品鉴。顺便给大家分享我亲测有效的Seedance 2.0 喂提示词技巧，和提示词一起放评论区了，大家自取，视频由Rita制作，特别顶，强烈推荐！

译用户通过Seedance 2.0和Rita平台制作AI视频，复刻了潘金莲与西门庆等经典场景，并分享提示词技巧。Rita平台直接接入原版Seedance 2.0，模型无降智，支持高并发分钟级出片，月费11.99美元可跑30条4秒视频。工具门槛降低后，创作瓶颈从工具操作转向创意打磨，更多时间用于优化prompt和画面分镜。推荐提示词已放在评论区供取用。

meng shao@shao__meng · 4月25日60

Claude Managed Agents 中的 Memory 设计方案 @RLanceMartin 表达了一个核心观点：让 AI 自主使用通用工具（文件系统）管理记忆，比设计专用记忆架构更有效，且这种能力会随模型智能提升而自然涌现！从失败到涌现：Pokémon 案例的启示 · Sonnet 3.5：将记忆工具当作"流水账"。运行 14000 步后产生 31 个零散文件，内容多为 NPC 对话的机械记录（如"绿毛虫和独角虫的区别"），缺乏战略价值，最终卡在第二个城镇。 · Opus 4.6：在相同步数下仅维护 10 个文件，但形成了目录化结构和知识蒸馏能力。它能从失败中提炼出可复用的战术规则（如"先使用咬住技能打断睡眠粉+捆绑连招"）、发现游戏机制（如"背包上限 20 格"），甚至记录空间坐标验证（"B1F y=16 墙体在 x=9-28 区间确认为实体"）。模型没有变"工具"，而是变"聪明"了——它学会了判断什么信息值得保存、如何组织才能高效检索。这说明通用工具+ scaling intelligence 的组合，比专用记忆模块更具扩展性。技术架构：文件系统作为记忆层 Claude Managed Agents 将记忆实现为工作区级的持久化文件存储，而非隐藏的状态向量或数据库存储： · 挂载机制：记忆库以目录形式挂载到 /mnt/memory/<store-name>/，并在系统提示中自动声明其存在。 · 多智能体同步：同一记忆库可被多个Agent并发访问，平台实时同步文件变更并处理并发冲突。 · 可解释性：记忆是明文文件，人类可直接阅读、下载、分享，也可通过API批量导出（client.beta.memory_stores.memories.list）。这种设计的优势在于不对记忆的内容和结构做预设——模型可以自行决定是写日志、建索引、还是维护待办清单。上下文管理的双轨模型 · Session Log：单次会话内，模型可主动获取和转换 · Memory Store：跨会话持久化，显式读写相当于给 Agent 配备了一个"外脑"：工作记忆（上下文窗口）负责当下，长期记忆（文件系统）负责跨越时间的学习。设计和工程理念的转变 · 从"给 AI 装记忆"到"给 AI 一支笔和一个本子"：不强制规定记忆格式，而是提供通用文件操作能力，让模型自己演化出最佳实践。 · 从封闭状态到开放文件：记忆不再是黑盒参数，而是可审计、可迁移、可协作的文档资产。 · Scaling Law 不仅适用于推理，也适用于工具使用：更聪明的模型会自发地发展出更好的信息组织策略，这意味着工具设计的通用性比专用性更重要。

译该方案主张让AI自主使用文件系统等通用工具管理记忆，比专用架构更有效，且此能力随模型智能提升而自然涌现。技术上将记忆实现为工作区内持久化、可多智能体同步的明文文件存储，挂载于`/mnt/memory/`。上下文管理采用双轨模型：Session Log处理会话工作记忆，Memory Store负责跨会话长期记忆。设计理念从“为AI安装记忆”转变为“提供通用工具”，使记忆成为可审计、可迁移的开放文件资产，体现了智能扩展在工具使用中的重要性。

阿绎 AYi@AYi_AInotes · 4月25日42

兄弟们，挖到一个好东西，必须分享出来，直接说结论：目前能跑原版Seedance 2.0、不排队、不降智、还能传真人照片生成真人视频的平台, 性价比最高的就是Rita, 总之强烈推荐，冲就完了！有好多兄弟私信问我,怎么好久没发AIGC内容了，说实话,字节Seedance 2.0一直在涨价、降智、吃相难看,我就懒得玩了。直到这两天被朋友安利了Rita, GamsGo旗下的AI工作流产品, 和字节官方合作直接接入原版Seedance 2.0, 白名单首批,参数无降配。趁着周末休息写提示词，跑了一条潘金莲和西门庆在汴京那个夜晚重逢的视频——水浒传和金瓶梅里最经典的两个人物,一盏烛火,男人托住女人的脸,女人闭眼前倾,所有未说出口的话都在那一帧里🌚 关于平台值不值得用, 我一直以来的的判断标准就三件事： 🎯 第一:模型有没有被偷偷降智 AI视频圈很多套壳平台跑出来的效果和官方差一截， Rita这版跑下来,男主侧脸的颌骨阴影、女主腮红的过渡层次、烛光在面部的反射,和我之前在字节官方测试时一模一样,没割韭菜 ⚡ 第二:要不要排队灵感来了等十分钟基本就凉了， Rita高并发,分钟级出片,我连续改了七版prompt一气呵成，用着真的很爽啊！ 💰 第三:贵不贵 Mega套餐月费11.99美元跑30条4秒视频，对我这种一晚上要试十几版的玩法,这点钱就是早餐钱，新用户注册送100积分,够你免费跑一条Seedance 2.0先验证下手感。跑完这个视频我最大的体感: 工具门槛降下来之后,真正的瓶颈,从工具回到了创意。以前做AI视频,三分之二的时间折腾工具、等渲染、算成本，现在反过来了——大把时间花在打磨prompt、调画面分镜、找文化重量点上。这才是创作本来的样子嘛！潘金莲西门庆这条只是开胃菜, 我还跑了一条李清照赵明诚归途那一刻的视频, 情绪密度更狠，完整prompt我下条单独发,想自己跑同款的兄弟蹲一下🌚 这个西门庆和潘金莲约会的提示词需要的兄弟评论区留言，链接放评论去了，大家赶紧冲！ #AIVideo #Seedance #Rita

译博主推荐Rita作为目前性价比最高的AI视频生成平台。该平台是GamsGo旗下产品，与字节官方合作，直接接入未经降配的原版Seedance 2.0模型，无需排队且生成速度快。其Mega套餐月费为11.99美元，可生成30条4秒视频，新用户注册赠送积分。博主通过生成“潘金莲与西门庆重逢”等视频测试，确认其画面细节与官方效果一致，认为该平台降低了工具门槛，使创作者能将更多精力集中于创意与提示词打磨。

阿绎 AYi@AYi_AInotes · 4月25日65

卧槽，这个25秒视频把一个网站的整个设计系统扒得一干二净，兄弟们看这个演示，把Anthropic的官网扔进去，点一下生成， 16秒就出了完整的颜色字体间距排版，最后9秒直接导出结构化的DESIGN.md，不是那种只能抓几个色值的垃圾工具，它会自动分析设计语言，告诉你Anthropic的风格是克制的、学术的、借鉴印刷传统的，连每个字号对应的行高字重都给你列得明明白白，更狠的是，这只是Hyperbrowser的一个开源示例，代码已经全放GitHub了，任何人都能拉下来自己跑，我之前也觉得这就是个偷懒工具，看完才反应过来，这根本就不是取色器的升级，更像是在把设计从手艺变成数据，以前大公司花几百万养团队做的设计系统，现在任何人花25秒就能抄走，这意味着以后拼的再也不是谁会量像素，而是看谁能更快地把别人的设计DNA变成自己的产品

译开源工具Hyperbrowser能在约25秒内深度解析并克隆网站（如Anthropic官网）的完整设计系统，自动提取颜色、字体、间距等样式，并总结设计语言，生成结构化文档。这标志着设计正从依赖手艺的“像素级模仿”转变为可快速解析、复制的结构化数据，大幅降低了借鉴成熟设计系统的门槛，未来竞争焦点可能转向对设计DNA的快速吸收与再创造。

歸藏(guizang.ai)@op7418 · 4月25日53

修复了一些问题，增加了 Skill .sh 的安装方式

Claude@claudeai · 4月24日51

Claude can now connect to more of the apps you use outside of work, including @Tripadvisor, @bookingcom, @resy, @Instacart, @Spotify, @audible_com, @AllTrails, @thumbtack, Intuit @turbotax, and more.

译Claude 现在可以连接更多您在工作之外使用的应用程序，包括 @Tripadvisor、@bookingcom、@resy、@Instacart、@Spotify、@audible_com、@AllTrails、@thumbtack、Intuit @turbotax 等。

TestingCatalog News 🗞@testingcatalog · 4月21日

ANTHROPIC 🚨: CONWAY WILL EVOLVE ALWAYS-ON AGENTS TO THE NEXT LEVEL! Imagine an always-on Agent with custom UI tabs that users can share and reuse as packages. Mission control, any custom workflow that requires a UI, etc. And all these to be powered by top models from Antropic. This is what "Claude Conway" will likely be about. > Anthropic continues working on its always-on agent, Conway, with a new setting UI being added to the iOS app (currently hidden). > On the web, a new UI component for Built-in and Installed has been introduced. > Since we know new extensions will allow users to build custom UI tabs, we might be talking about a huge new feature here. It is cooking 👀

译Anthropic正升级其always-on Agent项目Conway。新系统将支持用户创建、分享和重用自定义UI标签页（如任务控制、工作流管理等），并由Anthropic顶级模型驱动。目前iOS应用已隐藏新增设置界面，网页端也引入Built-in与Installed分类组件。这一扩展功能标志着Agent交互向模块化、可共享方向演进，允许用户构建个性化工作流界面。

Peter Steinberger 🦞@steipete · 4月20日

MCPorter 🧳 0.9.0 is out. Call MCPs from TypeScript or as CLI - per-server tool filtering - sturdier stdio shutdowns - Windows OAuth URL quoting fix - OAuth config docs - schema-declared string coercion for tool calls https://github.com/steipete/mcporter/releases/tag/v0.9.0

译MCPorter 🧳 0.9.0 发布了。通过 TypeScript 或 CLI 调用 MCP。 - 按服务器工具过滤 - 更稳定的 stdio 关闭 - Windows OAuth URL 引号修复 - OAuth 配置文档 - 工具调用的 schema 声明字符串强制转换 https://github.com/steipete/mcporter/releases/tag/v0.9.0

宝玉@dotey · 4月19日57

小技巧，如何在 GitHub Copilot 的 Agent 中避免老是确认权限，类似于 claude --dangerously-skip-permissions 在 Settings -> Claude Agent: Allow Dangerously Skip Permissions 中勾选 Allow bypass permissions mode. Recommended only for sandboxes with no internet access. 然后在对话框下面的 Permission 中选择 Bypass Approvals https://code.visualstudio.com/docs/copilot/agents/agent-tools#_permission-levels

宝玉@dotey · 4月19日51

在 Hermes 里面用 baoyu-infographic skill 生成的信息图👍 > /baoyu-infographic + <URL> 直接生成一张高质量信息图

Claude@claudeai · 4月18日49

Claude for Word is now available on Pro and Max plans to use alongside Opus 4.7: https://claude.com/claude-for-word

译Claude for Word 现已面向 Pro 和 Max 计划推出，可与 Opus 4.7 一同使用：https://claude.com/claude-for-word

TestingCatalog News 🗞@testingcatalog · 4月17日

xAI is preparing Skills rollout on Grok for iOS as well. > Earlier, Skills features has been discovered on the web build (hidden) > It is yet unclear if Grok Skills would be powered by the Skills standard or if this will be a custom implementation (like on Gemini for Chrome) > Skills support on iOS app would be quite unique as neither ChatGPT, neither Claude mobile apps support them > Would be cool to test some skills that would help Grok working with X data h/t @M1Astra

译xAI 也在为 Grok iOS 版准备 Skills 的推出。 > 此前，Skills 功能已在网页版（隐藏）中被发现 > 目前尚不清楚 Grok Skills 将由 Skills 标准提供支持，还是采用定制实现（如 Chrome 上的 Gemini） > iOS 应用支持 Skills 将非常独特，因为 ChatGPT 和 Claude 的移动应用均不支持该功能 > 测试一些能帮助 Grok 处理 X 数据的 Skills 会很酷 h/t @M1Astra

OpenAI Developers@OpenAIDevs · 4月17日

We’re adding more plugins to Codex to give it more ways to gather context and take action across your stack. New plugins include @coderabbitai, @Remotion, @CircleCI, and more.

译我们正在为 Codex 添加更多插件，让它有更多方式收集上下文并在你的技术栈中执行操作。新插件包括 @coderabbitai、@Remotion、@CircleCI 等。

OpenAI Developers@OpenAIDevs · 4月17日

“People aren’t just building for humans anymore. They’re building for agents.” @Cloudflare shares how Cloudflare Sandbox SDK works with the OpenAI Agents SDK to help agents run code in secure environments while keeping sensitive data separate from execution.

译“人们不再只是为人类构建产品了。他们在为智能体构建。” @Cloudflare 分享了 Cloudflare Sandbox SDK 如何与 OpenAI Agents SDK 协同工作，帮助智能体在安全环境中运行代码，同时将敏感数据与执行过程分离。

宝玉@dotey · 4月16日74

http://x.com/i/article/2044562880721248256 # 使用 Claude Code：会话管理与 100 万上下文【译】今天，我们为 /usage 命令推出了一项全新更新，旨在帮助你更清晰地了解自己在 Claude Code 中的使用情况。这个决定的背后，是我们近期与用户进行的多次深入交流。在这些交流中，我们反复听到了一个现象：大家在管理会话时的习惯可谓是五花八门。尤其是最近 Claude Code 将上下文窗口（Context Window）升级到了 100 万大关，这种差异就更明显了。你是习惯在终端里只保持一两个开着的会话？还是每次输入提示词都重新开个新会话？你通常在什么时候会用到压缩（Compact）、回溯（Rewind）或者子智能体（Subagents）？又是什么原因导致了一次糟糕的压缩呢？这里头其实大有学问。这些看似不起眼的细节，极大地影响着你使用 Claude Code 的体验。而这一切的核心，都归结于一件事：如何管理你的上下文窗口。 ## 快速科普：上下文、上下文压缩与上下文衰减所谓“上下文窗口（Context Window）”，就好比模型在生成下一次回答时，眼前能同时“看到”的所有信息。它包括了你的系统提示词（System Prompt）、到目前为止的聊天记录、每一次的工具调用（Tool Call）及其输出结果，甚至还有它读过的每一个文件。现在，Claude Code 拥有高达 100 万个词元（Token）（注释：Token 是大模型处理文本的基本单位，通常一个英文单词约为 1 个 Token，一个汉字可能占 1-2 个 Token）的超大上下文窗口。但遗憾的是，使用上下文是需要付出一点代价的，我们通常称之为上下文衰减（Context Rot）（注释：指随着对话历史越来越长，模型需要处理的信息量过大，导致其注意力分散，遗忘早期重要信息或被无关内容干扰的现象）。随着上下文越来越长，模型的表现往往会变差，这是因为它的注意力被分散到了更多的 Token 上。那些早期遗留的、已经无关紧要的内容，会开始干扰模型当前正在执行的任务。上下文窗口是有硬性容量上限的。所以，当你快要把窗口撑满时，你必须把你正在做的任务总结成一段简短的描述，然后带着这段描述在一个新的上下文窗口里继续工作。我们把这个过程称为上下文压缩（Compaction）（注释：为了腾出内存空间，将超长历史记录提炼成精简摘要的过程）。当然，你也可以随时手动触发这个压缩过程。想象一下，你刚刚让 Claude 帮你做了一件事，并且它已经完成了。现在，你的上下文里已经塞进了一些信息（比如工具调用、工具的输出结果、你给的指令）。接下来该怎么做？你可能会惊讶地发现，自己竟然有这么多种选择： - 继续（Continue） — 在同一个会话里，直接发送下一条消息 - 回溯（/rewind 或连按两次 Esc 键） — 时光倒流，退回到之前的一条消息，从那里重新开始尝试 - 清空（/clear） — 开启一个全新的会话，通常带上你从刚才对话中提炼出的简短总结 - 压缩（Compact） — 把目前的对话做个总结，然后在这个总结的基础上继续干活 - 子智能体（Subagents） — 把下一阶段的工作委派给另一个拥有自己干净上下文的 AI 智能体（AI Agent），并且只把它最终的工作结果拉取回来虽然直接“继续”是最顺理成章的反应，但其他四个选项的设定，正是为了帮你更好地管理你的上下文。 ## 什么时候该开个新会话？到底什么时候该维持一个漫长的老会话，什么时候又该另起炉灶呢？我们的经验法则是：当你开始一项新任务时，你也应该开启一个新会话。 100 万的上下文窗口，意味着你现在可以非常靠谱地完成更长、更复杂的任务。比如，让 Claude 从零开始为你搭建一个全栈应用。但有时候，你可能在做一些前后关联的任务。这时候，你需要保留一部分之前的上下文，但不是全部。举个例子，你刚写完一个新功能，现在要为它写一份使用文档。你当然可以开个新会话，但这意味着 Claude 必须把你刚才写过的所有代码文件重新读一遍——这不仅速度更慢，而且花费也更高。 ## 用“回溯”代替“纠正” 如果非要我挑出一个能代表“优秀上下文管理能力”的好习惯，那一定是用好“回溯（Rewind）”。在 Claude Code 里，双击 Esc 键（或者运行 /rewind 命令）能让你穿越回之前的任意一条消息，然后从那里重新下发提示词。至于那个节点之后发生的所有对话，都会被从上下文中彻底抛弃。在纠正 AI 的错误时，“回溯”往往是更高明的做法。举个例子：Claude 读了五个文件，尝试了一种方法，结果失败了。你的本能反应可能是在对话框里敲下：“这招不管用，换 X 方法试试。”但更聪明的做法是，回溯到它刚读完那五个文件的时刻，然后带着你刚学到的教训重新对它说：“别用 A 方法了，foo 模块根本不支持那个——直接去试 B 方法。” 你甚至可以使用“从这里开始总结（summarize from here）”的功能，让 Claude 自己把它学到的教训总结成一段“交接信息”。这感觉就像是那个刚刚踩了坑的“未来版 Claude”，给过去那个还没开始行动的自己留下了一张字条。 ## 上下文压缩 vs 全新会话当一个会话变得越来越长时，你有两种方法可以给它“减负”：使用 /compact （压缩）或者 /clear （清空并从头开始）。这两个操作听起来挺像，但实际表现大相径庭。压缩（Compact）是让模型把到目前为止的对话总结一下，然后用这份摘要替换掉冗长的历史记录。这个过程是“有损”的，意味着你把决定“什么内容重要”的权力交给了 Claude。好处是你什么都不用写，而且 Claude 在保留重要的经验教训或文件记录时，可能比你想得更周到。你也可以通过给它下达指令来掌控压缩的方向（比如：/compact 将重点放在身份验证模块的重构上，丢掉那些关于测试调试的内容）。而使用 /clear，则需要你自己写下核心要点（例如：“我们正在重构身份验证的中间件，目前的限制条件是 X，相关的重要文件是 A 和 B，而且我们已经排除了方法 Y”），然后以一个无比干净的状态重新开始。虽然这要费点劲，但由此产生的新上下文，百分百都是你认为真正相关的精华。 ## 什么样的“压缩”会翻车？如果你经常挂着超长的会话，你大概率遇到过“压缩”效果极其糟糕的情况。我们发现，这种“翻车”通常发生在一个特定的时刻：那就是大语言模型（LLM）无法预测你下一步工作方向的时候。举个例子，在一段漫长的代码调试之后，系统触发了自动压缩，把之前的排查过程总结了一番。结果你紧接着发了一句：“现在，把我们之前在 bar.ts 里看到的另一个警告也修了吧。” 可是，由于刚才的会话重点全在调试前一个 Bug 上，那个没来得及修的警告很可能早就被当成无关紧要的信息，在总结时被直接丢弃了。这是一个相当棘手的问题。因为受限于上下文衰减，模型在进行压缩的那一刻，往往是它“智商”最不在线的时候。好在有了 100 万的上下文容量，你现在有了更充裕的空间，可以主动带上“我接下来想做什么”的描述，去提前执行 /compact。 ## 子智能体与全新的上下文窗口子智能体也是一种管理上下文的绝佳手段。当你提前预知某一项工作会产生大量“阅后即焚”（以后再也用不上）的中间结果时，这招特别管用。当 Claude 通过智能体工具（Agent tool）衍生出一个子智能体时，这个小家伙会获得一个完全崭新的上下文窗口。它可以在里面肆意折腾，做多少工作都行。等到大功告成，它会把结果提炼出来，只把最终的报告交还给“父级”Claude。我们判断是否该用子智能体的“灵魂拷问”是：以后我还需要看这些工具运行的详细输出吗，还是我只想要一个最终结论？虽然 Claude Code 会在背后自动调用子智能体，但有时候你也可以非常明确地指挥它。比如，你可以对它说： - “派个子智能体去，根据下面这份规范文件，验证一下我们刚才做的工作对不对” - “派个子智能体去通读一下另一个代码库，总结出它是怎么实现身份验证流程的，然后你自己照猫画虎，在这边也实现一遍” - “派个子智能体去，根据我的 Git 修改记录，给这个新功能写份说明文档” 总而言之，当 Claude 完成了一轮回答，而你正准备发送一条新消息时，你就站在了一个决策的路口。我们期望在未来，Claude 能足够聪明，自己帮你打理好这一切。但就目前而言，熟练掌握这些决策，正是你引导 Claude 产出高质量结果的必经之路。

译Anthropic 为 Claude Code 推出 /usage 更新，核心在于管理 100 万词元上下文窗口以避免性能衰减。文章介绍了关键策略：开启新会话适用于新任务；使用“回溯”功能从历史节点重启以高效纠错；“压缩”功能自动总结历史，“清空”则需手动提炼要点；当工作产生大量中间结果时，使用“子智能体”在独立上下文中执行并仅返回结论更佳。目前，掌握这些决策是引导 Claude 产出高质量结果的关键。

OpenAI Developers@OpenAIDevs · 4月16日

With the Agents SDK and @Vercel Sandbox, agents can execute work in isolated environments while keeping credentials separate from the harness.

译借助 Agents SDK 和 @Vercel Sandbox，agents 可以在隔离环境中执行工作，同时将凭证与 harness 分离。

TestingCatalog News 🗞@testingcatalog · 4月16日

Humwork (backed by Y Combinator) launched today as the first A2P marketplace! AI agents can now route to a verified human expert the moment they get stuck, and be matched in under 30 seconds across engineering, legal, design, marketing, and more. Not humans hiring agents 👀 Agents hiring humans 🤖

译Humwork（由 Y Combinator 支持）今天作为首个 A2P 市场推出！ AI agents 现在可以在卡壳时立即转接给经过验证的人类专家，并在 30 秒内完成匹配，涵盖工程、法律、设计、营销等领域。不是人类雇佣 agents 👀 Agents 雇佣人类 🤖 [引用 @ycombinator]：AI agents 会付钱让你和它们聊天。当 AI agents 遇到瓶颈时，Humwork（@humworkai）的 MCP 服务器会在 30 秒内将它们连接到经过验证的领域专家。他们的专家包括资深工程师、营销人员、设计师等。恭喜发布，@theyashgoenka 和 @OneRohanDatta！ https://www.ycombinator.com/launches/PxH-humwork-connect-ai-agents-with-human-experts-in-30-seconds

Chubby♨️@kimmonismus · 4月16日

I collaborated with Emergent several times, but this is a really awesome new update: A surprising amount of work stress comes from the small operational tasks you have to stay on top of - so I set up a team of agents with @emergentlabs's Wingman to manage them. The biggest friction point in my daily workflow is a full inbox. I created dedicated Wingmans for that: in this case, one found the right email, read the attached doc, and updated it directly. A thread🧵:

译我与 Emergent 合作过几次，但这是一个非常棒的更新：令人惊讶的是，大量工作压力来自于你必须跟进的日常运营琐事——所以我用 @emergentlabs 的 Wingman 搭建了一个智能体团队来管理它们。我日常工作流程中最大的摩擦点是收件箱爆满。我为此创建了专门的 Wingman：在这个例子中，其中一个找到了正确的邮件，阅读了附件文档，并直接进行了更新。线程🧵：

Chubby♨️@kimmonismus · 4月16日

We’re crossing an important threshold: AI agents are no longer just tools, they’re becoming economic actors. They execute work end-to-end and only involve humans when something breaks. That flips the marketplace model. Humans shift from default workers to an on-demand fallback layer. This move from P2P to A2P isn’t obvious yet, but it fundamentally changes how labor gets allocated. @humworkai is one of the first systems where this actually works.

译我们正在跨越一个重要门槛：AI agents 不再只是工具，它们正在成为经济行为体。它们端到端执行工作，只在出问题时才需要人类介入。这颠覆了市场模式。人类从默认工作者转变为按需调用的后备层。这种从 P2P 到 A2P 的转变尚不明显，但它从根本上改变了劳动力的分配方式。@humworkai 是首批真正实现这一点的系统之一。 [引用 @ycombinator]：AI agents 会付钱让你和它们聊天。当 AI agents 遇到瓶颈时，Humwork 的 (@humworkai) MCP 服务器能在 30 秒内将它们与经过验证的领域专家连接起来。他们的专家包括高级工程师、营销人员、设计师等。恭喜发布，@theyashgoenka 和 @OneRohanDatta！ https://www.ycombinator.com/launches/PxH-humwork-connect-ai-agents-with-human-experts-in-30-seconds

TestingCatalog News 🗞@testingcatalog · 4月15日

Google is working on agentic shopping support for Gemini with a native checkout feature. > Similarely to other apps, users will be able to make purchases directly in Gemini. > The UI layout is also being changed as part of preparations for something bigger. Shopping Cart 👀

译Google 正在为 Gemini 开发代理式购物支持功能，并配备原生结账功能。 > 与其他应用类似，用户将能直接在 Gemini 内完成购买。 > 用户界面布局也在调整，作为更大计划的一部分。购物车 👀

Rohan Paul@rohanpaul_ai · 4月15日

MyClaw is turning AI skills from something you configure into something you can start using immediately. OpenClaw 3.24 shipped 13,700+ skills marketplace, per-agent model picks, and side conversations. MyClaw made all of it one-click. New "Essential Skills" — pick a skill, fill your preferences at install, zero tokens burned, and it works immediately. No server. No terminal. No config. No "now what?" One click install. Zero tokens burned.

译MyClaw 正将 AI 技能从需要配置的东西变为可立即使用的东西。 OpenClaw 3.24 发布了 13,700+ 技能市场、per-agent 模型选择和 side conversations。 MyClaw 让这一切只需一键。全新"Essential Skills"——选择一项技能，安装时填写偏好，零 token 消耗，立即生效。无需服务器。无需终端。无需配置。没有"然后呢？"。一键安装。零 token 消耗。

Greg Brockman@gdb · 4月15日

try the TurboTax app in ChatGPT:

译试试 ChatGPT 里的 TurboTax 应用： [引用 @Intuit]：⏰ 赶在 4/15 报税截止日期前。@ChatGPTapp 中的 TurboTax 赶在报税日进行了升级——获取个性化报税清单并上传文件，帮助你在使用 @TurboTax 报税时最大化退税金额。💸🤖 https://bit.ly/3OBPWzA

TestingCatalog News 🗞@testingcatalog · 4月15日54

Notion is building a Notion AI app focused on conversations with Notion AI and custom AI agents. Ultimate AI org operator UI 👀

译Notion 正在构建一个 Notion AI 应用，专注于与 Notion AI 和自定义 AI 代理的对话。终极 AI 组织操作员 UI 👀

TestingCatalog News 🗞@testingcatalog · 4月15日

TinyFish expanded from one web agent to a complete infrastructure platform for AI agents operating on the live web, with access to Search, Fetch, Browser, and Agent tools! > All working in parallel, with a CLI and a Skill file that hands every capability to coding agents like Claude Code and OpenClaw straight from the terminal. > They mention 87% fewer tokens per operation vs MCP, 2x higher task completion on complex multi-step tasks, & output writes to the filesystem, not your context window.

译TinyFish从单一web agent扩展为完整基础设施平台，提供Search、Fetch、Browser、Agent四大工具实时操作网页。支持Claude Code与OpenClaw等coding agents通过CLI和Skill文件直接调用，相比MCP减少87% token消耗，复杂多步任务完成率提升2倍，且输出直接写入文件系统而非上下文窗口。全栈自建，单一API key即可访问。

Peter Steinberger 🦞@steipete · 4月14日

This release makes me unreasonably happy since I wasn't involved at all - @vincent_koc and the maintainer team did a great job. I'm back soon to work on OpenClaw, today/tomorrow I'm prepping for @TEDTalks in Vancouver. 🇨🇦

译这次发布让我异常开心，因为我完全没有参与 —— @vincent_koc 和维护团队做得很好。我很快回来继续开发 OpenClaw，今天/明天我在为温哥华的 @TEDTalks 做准备。🇨🇦 [引用 @openclaw]：OpenClaw 2026.4.14 🦞 更多可靠性更新： ✨ 更智能的 GPT-5.4 路由和恢复 🌐 Chrome/CDP 改进 🧵 子代理不再卡住 💬 Slack/Telegram/Discord 修复 ⚡️ 各项性能改进当时在睡觉，但我们还是发布了。https://github.com/openclaw/openclaw/releases/tag/v2026.4.14

TestingCatalog News 🗞@testingcatalog · 4月14日

Google I/O leaks 👀 Google is likely already testing its own "Cowork" competitor, simply named "Agent" for Gemini and Gemini Enterprise. A new "Tasks" UI highlights - Goal - Agent - Connected apps - Files - Require a human review toggle - And more The "Require a human review" component specifically means that Gemini's capabilities will likely expand, potentially allowing users to automate their desktop tasks as well. Skills and Projects are also cooking 👀

译Google I/O 泄密 👀 Google 可能已经在测试自己的 "Cowork" 竞品，简单命名为 "Agent"，面向 Gemini 和 Gemini Enterprise。新的 "Tasks" UI 亮点包括 - 目标 - Agent - 已连接应用 - 文件 - 需要人工审核开关 - 等等 "需要人工审核"组件特别意味着 Gemini 的能力可能会扩展，可能允许用户自动化他们的桌面任务。 Skills 和 Projects 也在酝酿中 👀