Raycast 居然更新了一个 Beta 版本，也就是 V2 版本。这一下让它从单纯的启动器，变成了一个“启动器 + AI Agent”的工具了整体的 UI 和界面全部重做了，更符合现在的 Mac 系统设计。基础架构重构 (a) 启动器底层全部重做 (b) 搜索、调度、扩展功能重新设计 (c) 设置界面被重构搜索功能升级 (a) 文件搜索被直接整合进主搜索 (b) 提供了更快的文件搜索体验 AI 能力增强 (a) 拥有单独的 AI Chat 输入框和聊天窗口 (b) AI 能力现在支持 Skills、Agent 和 Memory (c) 内置了语音输入

译Raycast发布V2 Beta版本，核心转变是从一个单纯的启动器升级为“启动器+AI Agent”的集成工具。新版对整体UI和基础架构进行了全面重构，包括重做启动器底层、重新设计搜索与扩展功能。搜索功能得到升级，文件搜索被整合进主搜索框以提升速度。AI能力显著增强，新增了独立的AI Chat输入框和聊天窗口，并支持Skills、Agent和Memory功能，同时内置了语音输入。

MiniMax (official)@MiniMax_AI · 5月14日19

Great conversations with the dAI team & excited for what’s next! Welcome to Shanghai!

译与dAI团队进行了精彩的对话，并对未来的发展充满期待！欢迎来到上海！

swyx 🇸🇬 AIE Singapore!@swyx · 5月14日62

after 15 years of waiting, the developers of singapore gave up on waiting for the government to get the tech sector going and finally brought SF to SG. great showings from @daytonaio @usetusk @arizeai and @zocomputer tonight (this is the SECONDARY venue for those not at ClawCon SG) ahead of @aidotengineer SG

译等待15年后，新加坡的开发者们终于放弃等待政府推动科技领域发展，将硅谷生态引入新加坡。今晚@daytonaio @usetusk @arizeai 和@zocomputer 在ClawCon SG分会场展现了出色成果，@aidotengineer SG活动即将开启

AYi@AYi_AInotes · 5月14日64

Notion 今天凌晨发了一个开发者平台, 大家都以为它在追 AI Agent 风口, 但实际方向是有些反过来的, 它要让所有 Agent 来追它, 我盯着它官方文档里那个新的 CLI 工具看了一会儿,才慢慢回过味儿来, 这个 CLI 设计得很奇怪, 它自带 --help,自带 --docs,自带 --spec, 每个命令的元信息都精简到极致,token 占用低到反常, 说实话人类开发者用 CLI 哪需要这些, 熟了就肌肉记忆,谁会反复读自动生成的 spec 呢, 但 Agent 会啊,它进入一个陌生 CLI,要先扫一遍能干嘛,扫的就是这些自描述信息, 也就是说,Notion 这个 CLI, 从设计的第一天起就不是给人用的, 是给 Agent 用的, 他们官方话术更直接：说和你的 coding agents 一起构建, 这一句话翻译过来就是,未来用 Notion 的主力用户, 可能不是你,而是是你的 Agent, 更狠的是这套基础设施的完整度,数据同步,Notion 托管, 工具调用,Notion 托管,Agent 沙盒,Notion 托管, 全跑在 Vercel Sandbox 加 Firecracker microVM 上, 连第三方 Agent 接入都开了, Claude 直接进来,当原生工具用, 数据,工具,编排,上下文,全部在同一个 workspace 里,零损耗, 以前 Agent 最大的痛点,是上下文碎片化,工具调用不稳定,自己还要搭一套 infra, 现在 Notion 把这套东西全包了, 你的 Agent 只需要醒过来,在一个已经布置好的房间里干活, 很多人还在评估 Notion 涨没涨价,还在讨论 Obsidian 迁移和本地优先, 但真正的故事是,Notion 已经在 Agent 时代的操作系统这条赛道上,把第一块地基浇好了数据是血,Agent 是肌肉,Workers 是骨骼,CLI 是神经, 那些现在就把核心 workflow 搬进去的人, 和还在纠结要不要试用 ntn 的人, 未来 12 个月,差距可能比想象中要大得多。

译Notion发布开发者平台，其战略并非简单追逐AI Agent风口，而是让Agent成为平台的核心用户。其CLI工具设计精简、自描述且token占用低，专为Agent优化。平台提供包括数据同步、工具调用和托管沙盒在内的完整基础设施，并允许第三方Agent（如Claude）通过API无缝接入，统一工作空间以解决上下文碎片化和工具调用不稳定等痛点。Notion整合了CLI、Workers、数据库同步等组件，旨在成为Agent时代的操作系统，未来可能由Agent替代人类进行构建。早期采用者与观望者之间的差距或将迅速拉大。

Alibaba Cloud@alibaba_cloud · 5月14日55

How can agent-based speech interaction become more stable and faster? 🚀 When concurrency rises, the message link can become the hidden bottleneck. See how RocketMQ LiteTopic enables stable, low-latency interaction at scale: https://int.alibabacloud.com/m/1000412958/

译如何让基于智能体的语音交互变得更稳定、更快速？🚀 当并发量上升时，消息链路可能成为隐藏瓶颈。了解 RocketMQ LiteTopic 如何实现大规模稳定低延迟交互： https://int.alibabacloud.com/m/1000412958/

🚨 AI News | TestingCatalog@testingcatalog · 5月14日70

OpenSquilla released a new open-source AI agent designed for executing cost-efficient, long-running tasks. It offers 60-80% token savings and is available under the Apache-2.0 license! > ML classifier sends simple tasks to cheap models, complex ones to stronger models > 60-80% token savings vs a single flat-model setup, per OpenSquilla benchmarks > Four-tier persistent memory with local embeddings > Syscall-level sandbox isolation without Docker dependency

译OpenSquilla近日推出了一款开源Python AI代理，专为执行成本效益高的长时任务而设计。其核心创新是内容感知模型路由技术，能自动将简单任务分配给廉价模型，复杂任务分配给高性能模型，基准测试显示相比单一模型方案可节省60%-80%的token成本。该代理还集成四层持久化记忆系统，支持本地嵌入以提升效率，并提供不依赖Docker的系统调用级沙箱隔离，确保运行安全。项目采用Apache-2.0许可证开源，强调本地优先和Python基础。为验证成本节省效果，OpenSquilla启动了“1000万Token账单挑战”，邀请用户对比账单，设立奖项包括忠实复现、最佳节省案例和质量错误报告三类，共30名获奖者各获得1000万OpenRouter积分，旨在推动高效AI代理的实践应用。

Chubby♨️@kimmonismus · 5月14日58

Big leak ahead of Google i/o - Gemini Spark: an always-on agent that can use Gmail, Calendar, web sessions, location, tasks, and personal context to act on your behalf. T its Google's bet that the winning AI assistant will not be the smartest (empty) chatbot, but the agent with the deepest access to your real life.

译谷歌I/O大会前重大泄露——Gemini Spark：一个常驻智能体，可通过Gmail、日历、网页会话、位置、任务和个人情境数据代为执行操作。谷歌的赌注是：胜出的AI助手将不是最聪明（空洞）的聊天机器人，而是能深度接入你真实生活的智能代理。

Peter Steinberger 🦞@steipete · 5月14日70

Wrote a skill that runs codex /review in a loop until there's no booboos anymore. Caveat: It won't fix system architecture for ya, so you still need BRAIN as master model. https://github.com/steipete/agent-scripts/blob/main/skills/codex-review/SKILL.md

译编写了一个技能，可以循环运行codex /review直到没有错误为止。注意事项：它不会为你修复系统架构，所以你仍然需要将BRAIN作为主模型。https://github.com/steipete/agent-scripts/blob/main/skills/codex-review/SKILL.md

🚨 AI News | TestingCatalog@testingcatalog · 5月14日47

GOOGLE 🔥: A new Gemini Spark Agent is about to be revealed during Google I/O. Gemini Spark will work as a 24/7 assistant that can learn from user behavior and work with connected apps and skills. > Let Gemini do more as your everyday AI agent, ready 24/7 to help with your inbox, online tasks, and more. > The more you use Gemini Spark, the better it understands you and what you want to accomplish. To work on your tasks, it uses your info from sources like Connected Apps, skills, chats, tasks, websites you’re logged into, Personal intelligence, location, and more. > To help you get things done efficiently, Gemini saves remote browser data, like login details and remote code execution data. You can clear this data and turn off Connected Apps and other Personal intelligence features in Settings.

译谷歌将在I/O大会上发布新的Gemini Spark智能体。它将作为全天候AI助手，通过连接应用、技能、聊天记录、位置等个人信息来学习用户行为，从而协助处理收件箱和在线任务等日常事务。用户使用越多，其理解能力越强。为提升效率，Gemini会保存远程浏览器数据（如登录信息），但用户可在设置中清除数据或关闭相关智能功能。

Baidu Inc.@Baidu_Inc · 5月14日73

Baidu Advances Agent Portfolio to Embrace the Agent Era, Champions Daily Active Agents as Key Metric https://www.prnewswire.com/news-releases/baidu-advances-agent-portfolio-to-embrace-the-agent-era-champions-daily-active-agents-as-key-metric-302771383.html

译百度推进智能体组合以拥抱智能体时代，主张将日活跃智能体作为关键指标 https://www.prnewswire.com/news-releases/baidu-advances-agent-portfolio-to-embrace-the-agent-era-champions-daily-active-agents-as-key-metric-302771383.html

Kimi.ai@Kimi_Moonshot · 5月14日63

Kimi K2.6 is now open-weight #1 on Finance Agent Benchmark V2.

译Kimi K2.6 现已成为 Finance Agent Benchmark V2 开源权重排名第一。 [引用 @ValsAI]：AI 能胜任金融分析师的工作吗？

meng shao@shao__meng · 5月14日50

OpenAI 给 Codex 在 Windows 造了一个沙箱，过程比想象中曲折 ... 来自 Codex 团队 David Wiesen 非常有深度的技术博客，推荐阅读！ https://openai.com/index/building-codex-windows-sandbox/ 问题的起点：Windows 上的 Codex 没有沙箱 Codex 运行在开发者本地（CLI / IDE 扩展 / App），默认以当前用户身份执行命令——既能读写文件、跑测试、操作 Git，也意味着潜在风险。 macOS 有 Seatbelt，Linux 有 seccomp/bubblewrap，Windows 原生缺乏这种"按进程做强约束"的能力。结果 Windows 用户只能在两个糟糕方案中二选一： · 每条命令都审批（甚至读操作），打断流畅性； · 开启 Full Access，放弃所有约束。团队的目标，是把 Codex 在 macOS/Linux 已有的"默认安全"体验搬到 Windows：只能在工作区内写、默认无网络访问，且全程不需要用户介入。现成 Windows 方案为什么都不够用？ · AppContainer：是为"功能边界清晰的应用"设计的；Codex 要驱动 shell、Git、Python、构建工具等任意二进制，形状不对 · Windows Sandbox：它是隔离的"另一个桌面"，无法直接作用于用户的真实仓库；且 Windows Home 版根本没有 · Mandatory Integrity Control：把工作区标成 Low，等于让所有 Low 进程都能写入，宿主信任模型被破坏，副作用太大第一版原型：「免提权沙箱」（Unelevated Sandbox）设计原则：不弹 UAC、不要求管理员。需要解决两件事：限制文件写入 + 限制网络。 1. 文件写入：靠 SID + Write-Restricted Token 真正落地 · 合成 SID：Windows 允许创建一个不绑定真实用户、却能出现在 ACL 中的身份。Codex 为此造了一个专属的 sandbox-write SID。 · Write-Restricted Token：一种特殊进程令牌，写操作要双重放行——token 的真实用户身份有权限； token 的"受限 SID 列表"中至少一个 SID 也被授权。把 sandbox-write SID 通过 ACL 授予： · 当前工作目录 · config.toml 里配置的 writable_roots 并显式拒绝其写入 .git / .codex / .agents。 → 这是真正的 OS 级写边界。 2. 网络访问：只能"劝退"，无法强制 Windows Firewall 必须管理员权限，于是只能做环境层面的软封锁： HTTPS_PROXY / ALL_PROXY / GIT_HTTPS_PROXY = http://127.0.0.1:9 GIT_SSH_COMMAND = cmd /c exit 1 外加在 PATH 前塞 denybin，让假的 ssh/scp 先被解析到。效果：拦得住行为良好的工具；但凡自己实现网络栈、绕过 PATH、或直接开 socket 的程序——一律失效。仅是 advisory，挡不住对抗性代码。改版关键：为什么必须接受"需要提权" 要让 Windows Firewall 真正生效，必须按"身份"匹配规则。但： · 防火墙规则不能匹配 restricted token 中的合成 SID； · 按 codex.exe 路径匹配，覆盖不到它派生的 Git/Python 等子进程； · 按用户匹配又会误伤真实用户本人； · 按端口/地址匹配是错的策略——目标不是封 443，而是封这一棵受限进程树的所有出站流量。唯一的出路：让沙箱命令以"另一个 Windows 用户"的身份运行。这就必须放弃"免提权"约束。最终方案：「提权沙箱」（Elevated Sandbox） 1. 引入两个本地用户 Codex 在安装时创建： · CodexSandboxOffline —— 防火墙规则全封； · CodexSandboxOnline —— 不被防火墙规则覆盖。子进程依旧跑在带 [Everyone, Logon, Synthetic] 受限 SID 列表的 write-restricted token 下，但 token 的主体（principal）换成了沙箱用户，而不是真实用户。 5.2 一次性 setup 步骤（需要管理员） · 创建合成 SID； · 创建在线 / 离线沙箱用户； · 凭据用 DPAPI 加密存储，沙箱用户自己读不到； · 为 CodexSandboxOffline 创建"封禁所有出站"的防火墙规则； · 给沙箱用户补读 ACL——因为新用户默认读不到其他用户的 profile、C:\Users、C:\Program Files 等常用目录。这一步耗时，异步执行，不阻塞用户。 5.3 为什么需要 codex-command-runner.exe 直觉的流程是： codex.exe → LogonUserW → CreateRestrictedToken → CreateProcessAsUserW(child) 但在 CreateProcessAsUserW 这一步存在特权墙：以"真实用户"身份是无法可靠地把进程以另一个用户的受限 token 拉起来的。解法是把流程切成两段： Part 1（在真实用户侧） · codex.exe 用 CreateProcessWithLogonW 把 codex-command-runner.exe 以沙箱用户身份拉起（此时还不是受限 token）。 Part 2（已经在沙箱用户侧） · runner 用 OpenProcessToken 拿到自己的 token； · GetTokenInformation 取出 logon SID； · CreateRestrictedToken 构造最终受限 token； · CreateProcessAsUserW 拉起真正的子进程。 5.4 最终四层架构 · codex.exe —— 普通非提权的 harness； · codex-windows-sandbox-setup.exe —— 一次性的提权安装； · codex-command-runner.exe —— 在沙箱用户内造受限 token 并起子进程； · child process —— 真正受约束的命令。拆成独立二进制的好处：codex.exe 在其他平台不被 Windows 专属逻辑污染；UAC 边界只在必要时跨越；setup 的长耗时与主进程生命周期解耦。

译OpenAI 为在 Windows 上实现 Codex 的“默认安全”体验，从免提权沙箱演进到提权沙箱。Windows 缺乏原生进程级约束，初期方案通过合成 SID 和 Write-Restricted Token 限制文件写入，但网络封锁只能依赖环境变量软拦截，无法强制生效。团队最终放弃免提权约束，转向创建独立本地用户（在线与离线沙箱用户），需一次性管理员权限安装并配置防火墙规则。通过引入 codex-command-runner.exe 作为中介，解决跨用户创建受限令牌进程的权限难题，形成四层架构，在保障安全的同时最小化对主流程的侵入。

宝玉@dotey · 5月14日61

问：上下文（Context）和上下文窗口（Context Window）什么差别？这两个概念经常被混用，但其实指的是不同层面的东西：上下文是指 AI Agent 在执行任务时实际拥有的所有信息，包括系统提示词、用户的对话历史、检索到的文档、工具调用的结果、记忆模块注入的内容等等。你可以把它理解为“Agent 此刻脑子里装的所有东西”。上下文是一个动态的、可以被工程化管理的概念——哪些信息该放进来、什么时候放、怎么组织，这就是现在越来越多人说的 Context Engineering。上下文窗口则是模型层面的一个硬性限制，指的是模型单次推理能处理的最大 token 数量。比如 128K、200K、1M 这些数字，说的就是上下文窗口的大小。它本质上是一个“容器的容量”。打个比方：上下文窗口是你厨房操作台的面积，上下文是你实际摆在台面上的食材、调料、菜谱和工具。台面就那么大（上下文窗口有上限），但你放什么上去、怎么摆放（上下文的管理）决定了你能不能高效做菜。在 Agent 开发中，一个核心挑战就是：Agent 需要的上下文往往远超上下文窗口的容量。对话越来越长、工具调用结果越来越多、检索的文档越来越大——这些都在消耗上下文窗口的空间。所以才需要各种策略来管理：摘要压缩历史对话、选择性检索而不是全量灌入、及时清理不再需要的中间结果等等。简单总结就是：上下文（Context）是“内容”，上下文窗口（Context Window）是“装内容的容器”。做 Agent 工程的核心功夫之一，就是在有限的“上下文窗口”里塞进最有价值的“上下文”。

译上下文是AI Agent执行任务时动态拥有的全部信息总和，包括系统提示、对话历史、检索文档等，其管理属于“Context Engineering”。上下文窗口则是模型单次推理能处理的最大token数量的硬性技术限制。两者关系如同厨房操作台面积与台上实际摆放的食材工具。开发中的核心挑战在于所需上下文常远超窗口容量，因此需通过摘要、选择性检索等策略，在有限窗口内高效管理最有价值的内容。

向阳乔木@vista8 · 5月14日72

前段时间小龙虾、Hermes爆火，一个特别大的痛点就是太烧Token了。关于怎么省Token，很多人研究了很多方法，比如用qmd等本地语义搜索，换便宜模型等。最近刷到一个开源项目@OpenSquilla，把省Token这件事儿做得很不错。核心逻辑：智能模型路由 + 本地向量检索简单问题，用便宜模型，复杂任务，用更厉害的模型。智能路由本地完成，不消耗Token，换模型也是自动判断，不需要手动切。后台还有模型调用成本统计，随时查看用了哪些模型，花了多少钱。连续对话，让它写个抓取 Paulgraham 最新文章脚本，只消耗了5500 Token。完成后会显示 COMBO ×2 ，像游戏的连击反馈，有意思，哈哈哈相比完整重发，每轮只增量发送，缓存命中机制也实际传输 token 减少了 90%+ 记忆系统做得也不错，快到上下文上限时，子 Agent 筛除关键内容再压缩，支持BM25 + 向量混合检索。自动整理白天对话，第二天也能记得上下文，让 Cron job 定时抓新闻、跑任务，很省心。安全上也有考量，高风险工具跑在沙箱里，按来源直接不明工具、Skill调用。支持 Openclaw 一键迁移，记忆、配置、技能全能移过来，切换零成本。安装很简单，跟Claude Code或Codex说：带我安装配置：https://github.com/opensquilla/opensquilla

译开源项目OpenSquilla针对大语言模型应用Token消耗过高的问题，提出了智能模型路由与本地向量检索相结合的解决方案。系统能自动判断任务复杂度，将简单问题路由至廉价模型，复杂任务则分配给更强模型，且路由决策在本地完成，不消耗Token。通过增量发送与缓存命中机制，实际传输Token减少了90%以上。其记忆系统能在上下文将满时自动筛选并压缩关键信息，支持混合检索。项目还具备成本统计、安全沙箱、支持OpenClaw一键迁移及定时任务等功能，显著提升了使用效率与经济性。

Berryxia.AI@berryxia · 5月14日71

Moonshot AI创始人杨植麟最近放出了一个40分钟视频。这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者，前Google Brain和Meta研究员，坐在镜头前平静拆解了Kimi K2的整个训练过程。他们只花了460万美元。上周一场8模型实时编程大战，Kimi K2直接拿下第一，GPT-5.5排第三，Claude Opus 4.7第五。我看完后最大的感受是，AI竞赛的规则已经在悄然改变。所有人还在拼谁敢烧更多钱、堆更多算力，他却用极致优化、线性注意力、子代理这些硬核架构，把资源差距直接抹平甚至反超。 40分钟全是干货，零废话，把关键打法讲得清清楚楚。如果你正在做AI代理，或者准备2026年入场大模型赛道，这段视频强烈建议存下来周末慢慢看。小团队靠聪明架构，正在把大厂的传统玩法一点点颠覆。你还觉得只有堆钱才能赢吗？

译杨植麟在视频中拆解Kimi K2模型的训练，仅花费460万美元便在编程大战中击败GPT-5.5等对手。其通过极致优化、线性注意力等架构创新，抹平资源差距，标志AI竞赛规则改变，小团队以聪明设计颠覆大厂传统玩法。

ginobefun@hongming731 · 5月14日72

使用 Claude 进行计算机和浏览器操作的最佳实践 Anthropic 针对 Claude 4.6 系列和 Opus 4.7 发布了 Computer Use 的官方最佳实践指南。如果你正在构建任何需要控制浏览器或桌面的 AI Agent，这篇是目前最权威的第一手资料。核心问题是一个几乎所有人都踩过却不知道原因的坑。把截图发给 Computer Use API 的时候，API 有内部尺寸上限：Claude 4.6 系列是最长边不超过 1568 像素、总像素不超过 1.15 兆；Opus 4.7 是最长边不超过 2576 像素、总像素不超过 3.75 兆。超过上限之后，API 会在把图片交给模型之前静默压缩，但返回的坐标仍然是按原始分辨率计算的，结果就是点击位置系统性偏移。这个失败是静默的，没有任何报错提示，单纯表现为点击总是差那么一点。解法直接：在发送截图之前，先在客户端把截图缩放到 1280x720（使用 Opus 4.7 可以从 1080p 起步）。这个分辨率既在两个限制之内，也是模型在训练中大量见过的标准分辨率，实测对现代 Web 界面和传统桌面应用都能良好支持。还有一个容易忽略的细节：macOS 上的截图默认是 2x 分辨率（Retina 屏幕），看起来正常但实际像素数是双倍，同样会触发压缩陷阱。 API 调用格式也有讲究：把文字指令放在截图之前（而不是之后）发送，模型先接收指令再处理图片，点击精度会有明显提升。在模型选择上，Claude Sonnet 4.6 的机械点击精度更高，在需要大量降分辨率的场景下表现更稳；Opus 4.7 支持更高分辨率预算，点击精度差距大幅收窄，适合需要更多视觉信息量的复杂任务。多 Agent 组合方案可以让推理模型负责规划、让 Sonnet 或 Haiku 负责具体点击操作。安全架构这部分原则非常清晰：任何 Computer Use 集成都必须运行在专用虚拟机或容器里，绝不能把有价值的主机数据暴露给 Agent 可以访问的范围。高风险操作（表单提交、文件删除、付款确认）应该设置人工确认门控，在 Agent 循环中暂停等待用户确认后再继续。场景选型上，Browser Use（通过 Playwright 等 API 控制浏览器）适合结构化的 Web 任务，精度高、可靠性强；Computer Use（截图加点击控制整个屏幕）则适合没有结构化 API 可用的桌面应用、遗留系统或跨应用工作流。两种方式并不互斥，复杂任务可以组合使用。

译Anthropic发布了Claude计算机操作官方指南，核心解决了截图发送至API时因静默压缩导致的点击坐标偏移问题。关键在于客户端预先将截图缩放至1280x720等标准分辨率，并将指令置于截图前发送以提高精度。模型方面，Sonnet 4.6机械点击精度更高，Opus 4.7则支持更高分辨率。安全上必须在隔离环境中运行并设置高风险操作人工确认。Browser Use适合结构化Web任务，Computer Use则适用于桌面应用等非结构化场景。

ginobefun@hongming731 · 5月14日59

在 Windows 上为 Codex 构建安全有效的沙箱 https://openai.com/index/building-codex-windows-sandbox 这篇来自 OpenAI 工程博客，记录了 Codex 团队为在 Windows 上实现真正的沙箱隔离所走的完整路径。写法很好：逐一说清楚每个被否掉的方案以及被否的原因，最后再解释自研方案的设计逻辑。整个记录的过程本身就值得学习。起点是 2025 年 9 月加入 Codex 团队时面对的实际问题：Windows 用户要么批准几乎每一条命令（低效到让 Agent 失去意义），要么开启完全访问模式（安全风险无法接受）。Linux 有 seccomp，macOS 有 Seatbelt，这两个系统有成熟的内核级沙箱工具，Windows 没有对应能力。团队评估了三个现成方案。AppContainer 是 Windows 内置的应用沙箱，有真实的操作系统级边界，但它是为权限需求明确且固定的应用设计的，Codex 需要驱动开放式的开发工作流（Shell、版本管理、包管理器……），AppContainer 根本没法灵活控制这类需求的写入权限。Windows Sandbox 是一个一次性轻量虚拟机，沙箱边界更强，但 Codex 需要直接访问用户的真实文件和环境，一个需要单独设置和主客通信的虚拟机桌面解决不了问题，而且 Windows Home 版本根本没有这个功能。MIC（强制完整性控制）用标签机制看起来优雅：把 Codex 设置为低完整性级别、把工作区标记为低完整性，让操作系统强制拒绝向外写入。问题是把工作区标记为低完整性会改变整台机器上所有低完整性进程的信任模型，影响范围太广，对用户真实的开发环境语义改变过大。最终的自研方案核心是两层机制的组合。第一层是为 Codex 创建一个专属的 Windows SID（安全标识符），这个 SID 只属于 Codex 沙箱，外部没有任何普通进程拥有它。第二层是写受限令牌：任何写操作要通过，必须同时满足两个条件，普通用户身份有权限，且受限 SID 列表中也有相应授权。这个双重检查机制让操作系统在内核层面直接执行文件系统隔离，不需要管理员权限，也不依赖进程树里的任何软件层配合。网络隔离是另一层：要做到真正的强制执行而不是依赖约定，需要防火墙规则，而 Windows 上的防火墙规则必须绑定到特定用户账户。最终方案是创建两个本地用户：一个在线账户、一个离线账户，沙箱内的 Codex 命令以离线账户身份运行，防火墙规则针对这个账户生效。最终架构是四个独立二进制文件处理不同的信任边界，并不简单，工程博客也坦诚说了这一点。每一层复杂度的增加都是因为更简单的方案留下了真实的安全缺口。这套设计范式的参考价值超出 Codex 本身：所有需要在 Windows 上隔离文件系统的 Agent 系统（AI 编码工具、自动化测试框架、RPA 产品），都可以借鉴这个通过专属 SID 加写受限令牌实现隔离的思路。

译OpenAI团队为Codex在Windows上构建沙箱时，因系统缺乏原生内核级工具，评估并否决了AppContainer、Windows Sandbox和强制完整性控制（MIC）三个现成方案。最终自研方案结合专属Windows SID与写受限令牌，在内核层实现无需管理员权限的文件系统隔离；网络隔离则通过创建特定本地用户账户绑定防火墙规则来强制执行。该架构虽复杂，但为所有需在Windows上实现文件系统隔离的AI Agent系统提供了关键设计范式。

ginobefun@hongming731 · 5月14日65

从头构建多智能体系统学到的经验 https://www.infoq.com/presentations/multi-agent-system-lessons/ 这是 Shopify 高级工程师 Paulo Arruda 在 QCon 上的演讲，讲的是他从 2024 年底到 2025 年上半年在 Shopify 实际构建多 Agent系统的经历。他说这更像是一个故事，技术细节有，但核心想传递的是那些网上看不到的亲身经验。故事起点是测试生成。Shopify 是一个巨大的 Rails 单体应用，AI 工具开始帮工程师写代码之后，PR 质量开始变得难以保证，他想研究 AI 能不能帮助补充测试覆盖率来兜底。他尝试过构建文件依赖图、为每个源文件生成 GPT 摘要、用语义关系建图的方案，但成本极高、难以维持更新，最终放弃。转折点是 2025 年 2 月 Claude Code 的研究预览版上线。他发现 Claude Code 用 Grep 和文件读取来搜索代码，效果和向量索引方案差不多甚至更好，但完全不需要维护索引。更重要的是，这意味着 Agent 可以在任意代码库里操作，不需要预处理。从这个观察开始，他真正开始探索多 Agent 架构。他踩过的坑里最有普适价值的有两条。第一条是专才 Agent 的效果远远好于通才 Agent。给一个 Agent 一个宽泛的任务，它会尝试做太多事、每件事都做不精；把同样的工作拆分给多个各自专注于特定范围的 Agent，结果更好，出问题的时候也更容易定位到哪个 Agent 在哪个步骤出了问题。第二条是为领域专家提供更好的工具，比组建一个 AI 全能小队更有效。他发现强迫领域专家去适应 AI 工作流的效果，远不如把 AI 工具塞进领域专家已经熟悉的工作方式里。AI 特种部队在概念上很吸引人，但在实践中，让现有的专家用上更好的工具，往往更快出结果，系统也更容易被信任。

译Shopify工程师Paulo Arruda分享构建多Agent系统的实战经验。最初为应对AI生成代码导致的PR质量问题，尝试用AI补充测试，但依赖图等方案成本过高。Claude Code预览版的推出带来转机，其基于Grep的代码搜索无需维护索引，使Agent能直接操作任意代码库。核心教训是：专才Agent（任务拆分）效果远优于通才Agent；为领域专家适配现有工作流的AI工具，比组建全能AI小队更高效、更易获得信任。

ginobefun@hongming731 · 5月14日69

Anthropic 宣布从 2026 年 6 月 15 日起，所有付费版 Claude 计划（Pro、Max、Team、Enterprise）将在现有对话额度之外，增加一个月度专用额度，专门用于程序化调用场景。这个专用额度覆盖的调用来源包括：通过 Agent SDK 构建和运行的程序、claude -p 命令行工具发出的调用、Claude Code 在 GitHub Actions 中执行的任务、以及基于 Agent SDK 构建的第三方应用。这个变化实际上是把程序化访问能力正式捆绑进了订阅模式。之前的逻辑是：如果你用 Claude 做对话，交订阅费；如果你想用 API 做自动化，需要单独申请 API Key 并按用量另外付费。从 6 月 15 日起，订阅用户可以在订阅费之内开始运行自动化工作流，不需要独立建立 API 计费账户。对个人开发者和小团队来说，这个变化降低了开始构建 Agent 工作流的门槛：不需要单独配置 API 计费，不需要担心不小心跑出一大笔 API 账单，可以在订阅额度内先实验。具体的每月额度量、超额之后的计费方式，Anthropic 届时会在官方文档中更新。同时发布的还有另一项变化：Claude Code 的每周使用限额从 6 月开始临时提升 50%，持续到 2026 年 7 月 13 日，覆盖 Pro、Max、Team 和 Enterprise 用户。两项变化叠加，对于日常工作中经常用到 Claude Code 或计划开始构建 Agent 工作流的用户，近期是一个比较好的时间窗口来加大使用密度。

译Anthropic宣布，自2026年6月15日起，所有付费版Claude计划将在现有对话额度外，新增月度专用额度用于程序化调用。该额度覆盖通过Agent SDK、claude-p命令行工具、Claude Code在GitHub Actions中的任务及基于SDK的第三方应用的调用。此举将程序化访问能力正式纳入订阅，用户无需单独申请API Key和建立计费账户即可在订阅费内运行自动化工作流，降低了个人开发者和小团队构建Agent工作流的门槛。同时，Claude Code的每周使用限额将从6月起临时提升50%，持续至2026年7月13日。

歸藏(guizang.ai)@op7418 · 5月14日54

Claude Code 的每周限额将增加 50%，持续到 7 月 13 号。但是他们这次终于把类似 OpenClaw 和 Codepilot 这种使用 Agent SDK 构建的应用额度砍了。 6月 15 号开始是双轨制：只有在 Claude Code 本身及其内部，你的 Max 和 Pro 账户才能享受正常额度。如果你是用于 Agent SDK 构建的产品（也就是一些支持 Claude 账号登录的三方产品），你的额度会被折算成对应金额的 API 额度。所以基本上，我们的额度减了十几倍吧。比如说 Max 账户 20 倍的 200 美元 API 额度，如果你用 Claude 4.6 随便跑点大项目，估计半天就消耗光了。这下估计去 Codex 的人更多了。主要是他们还玩文字游戏，削减配额就削减配额吧，非要说完全没变化，太不要脸了。

译Anthropic 宣布 Claude Code 每周限额临时增加 50%，持续至 7 月 13 日。但从 6 月 15 日起，配额系统改为双轨制：在 Claude Code 官方界面内，Max 和 Pro 账户可享受原有订阅额度；若通过 Agent SDK 构建的第三方应用（如 OpenClaw、Codepilot）使用服务，额度将按 API 费率折算成等值金额，导致实际可用额度骤降。例如，Max 账户的 200 美元 API 额度在密集使用时可能半天耗尽。官方澄清月费不变，但额度分为“交互使用”和“程序化使用”两个独立池，后者按 API 速率计费。

ginobefun@hongming731 · 5月14日77

http://x.com/i/article/2054698692955996160 # BestBlogs 05.14 早报 · Claude Computer Use 最佳实践、Codex 沙箱安全与生产级 Agent 评估框架在线阅读和收听早报：https://www.bestblogs.dev/explore/brief/2026-05-14 BestBlogs Pro 早鸟内测开放：你可以自定义订阅源、配置兴趣标签，每天获得一份属于自己的头条早报。欢迎抢先体验，并把反馈发回给我们：https://bestblogs.dev ## 导语 AI 智能体的工程化落地，今天这期带来三篇拿来就能用的深度实战。 Anthropic 和 OpenAI 分别给出了 Claude Computer Use 与 Codex 沙箱的第一手架构经验，直接回答生产环境最棘手的安全与性能问题。评估体系那篇则揭示了一个让人警醒的现实：基准测试 95% 准确率的 RAG Agent，上线后幻觉率可能高达 30%——测试集永远无法覆盖生产流量的真实分布。速览部分有李想与罗永浩的 AI 转型深度对话、Shopify 从零构建多 Agent 系统的工程教训、Databricks 用精度换延迟的速率限制重构，以及快手电商搜索的生成式新框架。今天是 2026 年 5 月 14 日，星期四，欢迎收听 BestBlogs EP56 早报。 ## 精讲一：使用 Claude 进行计算机和浏览器操作的最佳实践来源：Claude Blog 如果你正在构建任何形式的桌面或浏览器自动化 Agent，这篇来自 Anthropic 的官方最佳实践指南是目前最权威的参考文档。它针对 Claude 4.6 系列（Opus 4.6、Sonnet 4.6、Haiku 4.5）和 Claude Opus 4.7 发布，覆盖了从分辨率配置、安全架构到场景取舍的完整生产经验。点击不准的根本原因：坐标系偏移许多开发者在构建 Computer Use 集成时遭遇点击落点系统性偏移，往往以为是模型能力问题，反复尝试提示工程优化却收效甚微。实际上，根本原因更底层、更隐蔽：截图超过 API 内部尺寸上限后会被静默下采样，但坐标系仍然按你指定的原始分辨率空间返回，导致模型点的地方和你的界面坐标对不上。 Claude 4.6 系列的 API 内部处理限制是：最长边不超过 1568 像素，总像素不超过 1.15 兆像素。Opus 4.7 支持更高分辨率：最长边不超过 2576 像素，总像素不超过 3.75 兆像素。超出任意一个限制都会触发内部下采样，进而引发坐标偏移。官方明确指出，这个单一修复的收益超过几乎所有其他优化手段。推荐分辨率策略对大多数场景，推荐从 1280×720 起步。这个分辨率使用约 80% 的像素预算，始终在两个限制之内，是模型训练期间见过的标准分辨率，对现代 Web UI 和传统桌面应用都能良好支持。如果使用 Opus 4.7，建议从 1080p 起步，相比 720p 有明显的画质提升，同时保持 token 使用量和性能的合理平衡。对于想最大化视觉信息量的开发者，文章还提供了「最大 API 适配」方案：按每张截图的原始宽高比动态计算最优分辨率，充分利用可用像素预算而不引入宽高比失真。这种方式在准确率上比固定 1280×720 略有提升，但实现稍复杂。文章也给出了明确的「应当避免的分辨率」指导，帮助开发者排除高分辨率下的常见误区。模型思考能力与任务复杂度文章在内部测试了不同思考努力等级在端到端 UI 自动化任务上的表现，覆盖桌面应用、浏览器和跨应用工作流。测试结果印证了两个关键模式：Opus 4.7 在 OSWorld Verified 基准上表现优于整个 4.6 系列，高思考等级在复杂多步骤任务中的收益最为显著，而简单重复性任务则不一定需要开启高思考。这为开发者在成本和性能之间的取舍提供了实验依据。安全架构：不容妥协的底线文章在安全架构上的态度非常明确，提出了几条硬性原则：任何 Computer Use 集成都必须在专用虚拟机或完全隔离的容器环境中运行，绝不能将包含敏感凭证、个人数据或业务数据的主机文件系统暴露在 Agent 可访问的范围内。Agent 循环中必须设置人工确认门控，对高风险操作——包括表单提交、文件删除、账号操作、支付相关流程——必须暂停等待人工确认，而不是让 Agent 自主完成。这些原则背后的逻辑是：Computer Use Agent 本质上是在执行任意操作序列，攻击面远大于普通的 API 调用型 Agent。任何一次误操作都可能造成不可逆后果。 Browser Use 与 Computer Use 的场景取舍文章对这两种模式提供了清晰的场景划分：Browser Use（通过 Playwright 等浏览器自动化 API 控制浏览器）适合结构化 Web 任务，API 层面的操作精度高、可靠性强、可重复；Computer Use（通过截图 + 点击控制整个屏幕）适合无 API 可用的桌面应用、遗留系统或需要跨多个应用的工作流。两者并不互斥，复杂任务可以组合使用——先用 Browser Use 完成可 API 化的部分，遇到需要截图感知的场景再切换到 Computer Use。与今日其他内容的关联这篇文章和精讲三的 Agent 评估框架有直接呼应。Computer Use 集成的准确率指标——点击精度、任务完成率、工具选择准确率——正是精讲三 12 项指标体系中「Agent 行为层」的典型评测对象。如果你在构建桌面自动化 Agent，建议两篇配合阅读：前者告诉你如何让 Agent 执行正确，后者告诉你如何度量 Agent 是否在正确执行。 ## 精讲二：在 Windows 上为 Codex 构建安全有效的沙箱来源：OpenAI Blog 这篇文章来自一位 2025 年 9 月加入 Codex 工程团队的工程师，记录了他们如何在 Windows 平台上从零构建沙箱隔离方案的完整历程。文章的价值不只在于结论，更在于对失败方案的诚实记录——这些踩坑经验对所有需要在 Windows 上运行不完全受信代码的 Agent 系统都有直接参考价值。背景：Windows 没有开箱即用的沙箱原语在 Linux 上，seccomp 和 bubblewrap 提供了细粒度的系统调用过滤和命名空间隔离；在 macOS 上，Seatbelt（又名 sandbox-exec）可以通过 profile 文件精确控制进程的文件访问权限。这些工具让构建可靠的隔离环境变得相对直接。 Windows 没有类似的内置能力。Codex 在 Windows 上的默认模式是以真实用户权限运行，也就是说，如果用户能做某件事，Codex 就能做某件事——包括删除任意文件、修改系统配置、访问所有用户数据。在没有沙箱的情况下，用户只有两个糟糕的选择：批准几乎每一条命令（高频中断，失去自动化价值），或者开启完全访问模式（放弃监督）。逐一评估现有方案及其不足工程师先系统评估了 Windows 提供的现有工具： AppContainer 是 Windows 内置的应用沙箱机制，但其权限模型是为 Store 应用设计的，粒度过于粗放——要么完全隔离，要么保留所有用户权限，无法实现「允许读取任意位置、但只允许向指定目录写入」这种精细控制。 Windows Sandbox 本质上是一个轻量虚拟机，Home 版 Windows 不可用，并且每次启动都需要独立的虚拟机实例，资源消耗和启动时间都不适合作为每条命令的执行环境。 MIC（Mandatory Integrity Control）完整性标签可以降低进程的信任级别，但调整整个工作区的完整性标签会改变所有访问该目录的进程的行为，对用户的正常工作流产生不可预期的副作用，风险难以控制。最终方案：专属 SID + 写受限令牌 Codex 团队最终选择了自研方案，核心机制是两个 Windows 安全原语的组合：第一步，为 Codex 创建一个专属的 Windows 用户账户，配套一个专属的安全标识符（SID）。这个 SID 不是系统中的任何现有用户，仅属于 Codex 沙箱进程。第二步，使用写受限令牌（write-restricted token）。Windows 的受限令牌机制在检查写操作权限时会执行双重校验：普通用户身份（令牌的所有者）必须有权限，且受限 SID 列表中至少有一个 SID 也被明确授权，写操作才会被允许。通过对指定工作区目录设置 ACL（访问控制列表），授予 Codex 专属 SID 写入权限，对其他目录不授予，就实现了精确的文件系统隔离：Codex 可以读取几乎任意位置（维持工具的有效性），但只能向你的工作区目录写入。这整套机制在操作系统层面强制执行，无需进程树中的任何软件层面配合，也无需管理员权限。迭代路径：从 advisory 到 enforce 文章诚实地记录了中间的失败尝试。早期版本曾尝试通过设置环境变量（NO_PROXY、GIT_SSH_COMMAND）来阻止网络访问，但进程可以直接忽略环境变量、绕过 PATH、或者直接打开套接字，advisory 约束无法真正阻止恶意行为。加入防火墙规则之后仍然是 advisory 级别。最终决定使用操作系统层面的强制隔离，这才提供了真正可靠的保证。工程范式的通用性这个「专属 SID + 写受限令牌 + ACL 白名单」的设计模式，对所有需要在 Windows 上运行不完全受信代码的系统都有参考价值：AI 编程工具、自动化测试框架、RPA 产品，乃至任何需要给用户提供「让 AI 帮你跑命令」能力的服务。文章清晰呈现了从需求分析、方案评估到工程实现的完整思路，是难得的 Windows 系统安全工程案例。 ## 精讲三：为生产级 AI 智能体构建评估框架：来自 100+ 次部署的 12 项指标体系来源：Towards Data Science 这篇文章来自真实的生产教训，而不是理论框架。作者团队在为医疗行业客户部署 AI Agent 系统三个月后，被合规官问了一个无法回答的问题：「你如何知道你的 Agent 没有在幻觉患者症状？」当时他们有单元测试、集成测试、在 demo 数据集上表现漂亮的模型，但没有任何能够在生产环境度量幻觉率、上下文忠实度或工具选择准确率的框架。这个缺口差点让整个项目夭折。六周后，他们补上了覆盖每条 Agent 响应、每次工具调用、每次检索操作的 12 项指标框架，合规团队签字通过，Agent 正式上线。此后经历 100+ 次企业级 Agent 部署，这套框架演变成了他们的标准交付物。最值得警惕的数据点在基准测试集上准确率达到 95% 的 RAG Agent，在真实生产流量上幻觉率可能高达 30%。这个数字让很多人难以置信，但背后的逻辑简单而扎实：测试集是你精心构建的，覆盖了你认为重要的场景；而生产流量是用户真实发来的，措辞更多样、边界案例更密集、上下文更复杂。你的测试集永远无法覆盖生产流量的真实分布。没有生产级的评估框架，你只是在用基准分数给自己一个安全感幻觉。 12 项指标的四层结构这 12 个指标按四个层次组织，每层各有侧重：检索层（Retrieval）：上下文相关性，目标阈值 >0.85，衡量检索到的块是否与查询真正相关；召回率，>0.90，衡量是否把所有相关信息都检索到；精确率，>0.80，衡量排名靠前的块是否是最相关的；检索延迟，P95 <200ms，衡量检索速度是否影响整体体验。生成层（Generation）：回答忠实度，>0.95，衡量模型的回答是否与检索到的上下文一致，这是防幻觉的核心指标；回答相关性，>0.90，衡量回答是否真正回应了用户的问题；幻觉率，<2%，衡量模型杜撰事实的频率。 Agent 行为层（Agent Behavior）：工具选择准确率，>0.92，衡量 Agent 是否在正确的场景调用了正确的工具；工具执行成功率，>0.98，衡量工具调用本身是否成功（区别于逻辑正确性）；多步骤连贯性，>0.85，衡量 Agent 在长任务中是否保持了逻辑一致性。生产层（Production）：单次查询成本，典型值 <$0.05，用于成本控制和单位经济核算；P99 延迟，<3s，衡量最差情况下的响应速度是否在用户可接受范围内。跳过任何一层都意味着盲区。跳过检索层指标，你不知道是不是因为召回率低导致回答质量差；跳过生成层指标，你不知道模型在什么场景下开始编造事实；跳过 Agent 行为层，你不知道 Agent 选错工具是不是系统性问题；跳过生产层，你不知道成本和延迟是否在可接受范围内。三种典型的错误模式模式一：「MVP 之后再补评估」。这是最常见也是代价最高的模式。等 MVP 上线之后，工程团队已经有了 UI、API、集成和用户，这时候再补评估基础设施通常需要 4-6 周。更麻烦的是，数据收集本身有延迟——你必须先有一定量的生产流量，才能开始建立基线、检测回归。这段空窗期里，用户已经在发送不可预期的查询，任何模型更新引发的回归可能要数天后才能被发现，信任损失往往已经无法挽回。模式二：「准确率就够了」。测试集准确率是必要条件，但绝不是充分条件。一个 RAG Agent 可以在你的评估集上拿到 95% 的准确率，同时在生产流量上有 30% 的幻觉率——因为评估集是你选的、生产流量是用户给的，两者分布不同。没有忠实度、幻觉率和工具选择指标，你只是在盲飞。模式三：「人工抽检就行」。每天 100 条查询时人工检查可行，这个方法在 10000 条时就会彻底崩溃。达到那个规模后，要么工程师因为重复审查而过劳，要么实际上已经在接受一个名存实亡的审查体系。自动化评估在超过每日几千条查询时就应该是标配，而不是可选项。实践建议：从第一天就构建文章最核心的行动建议是：在 MVP 上线之前就把评估框架搭好。这意味着在架构阶段就为每层指标的数据采集做好预留，而不是在系统上线后再反向插入。这和「测试先于代码」的 TDD 理念类似——先定义什么叫「正确」，再去实现。如果已经在生产但没有评估框架，文章建议优先从幻觉率和工具选择准确率开始，这两个指标覆盖了最高频的故障模式，也最容易用自动化方式度量。与今日主题的关联这套框架和今天两篇精讲之间的关联非常紧密。精讲一 Computer Use 的点击准确率对应工具执行成功率，多步骤 UI 自动化对应多步骤连贯性；精讲二 Codex 沙箱的隔离机制直接影响工具执行成功率（沙箱失效 = 工具崩溃）。任何生产级 Agent 系统都需要同时具备「执行能力」和「评估能力」，两者缺一不可。 ## 速览李想×罗永浩：通过 AI 技术，让普通人也过上富豪的生活 | 罗永浩的十字路口理想汽车创始人李想在这期长达两小时的播客中，深入阐述了公司从传统车企向 AI 与具身智能公司转型的战略逻辑。新旗舰 SUV L9 Livis 搭载了自研马赫 M100 芯片，算力达到 2560 TOPS，以及全球首个完全体全线控底盘和 800V 主动式悬架系统。李想的核心判断是：自动驾驶不会显著影响购车需求，人形机器人是继汽车之后规模最大的硬件赛道，而 AI 技术的终极价值在于让普通人享受到此前只有富豪才能获得的服务质量——从专属管家到全天候健康顾问。播客还涉及 AI 时代顶级人才的标准、激进的组织调整、以及新能源车企出海的路径。对汽车行业 AI 转型方向感兴趣的读者，这是近期最有深度的一手资料。从头构建多智能体系统学到的经验 | InfoQ Shopify 高级工程师 Paulo Arruda 分享了从零构建多 Agent 系统的完整历程。核心结论是：专注于特定领域的 Agent 远比通才型 Agent 更有效，为领域专家提供更好的工具比组建 AI 特种部队更实用。这个洞察和当下很多团队盲目追求「万能 Agent」的做法形成直接对比。文章以 Shopify 的 Hacker Culture 为背景，记录了从最初 LibreChat 内部工具到真正可用的多 Agent 系统的演进路径，是一份有现实温度的工程经验总结。 Databricks 的高性能速率限制：以精度换延迟 | ByteByteGo Newsletter 2023 年初，Databricks 的速率限制器基于 Envoy + Ratelimit Service + 单 Redis 实例架构，在 real-time model serving 上线后开始出现尾部延迟飙升、扩容失效、单点故障三个问题。重设计后，团队将计数器从 Redis 迁移到分片内存存储，并引入异步批量上报模式，将尾部延迟降低了十倍。代价是容忍约 5% 的精度超限——部分请求可能在配额刚好耗尽的瞬间被错误放行。这个取舍本身很有代表性：在高并发场景下，严格精度和低延迟往往不可兼得，选择哪个取决于业务场景的容忍度。文章配有架构演进图，适合分布式系统工程师收藏参考。快手 OneSearch-V2：生成式搜索进入「懂你」时代 | 快手技术快手电商搜索团队发布 OneSearch-V2，针对 V1 的三个核心瓶颈——复杂查询理解不足、用户潜在意图推理不足、奖励系统易过拟合——提出了系统性解决方案。关键创新是推理内化的自蒸馏：不引入额外参数，通过信息不对称的自蒸馏机制，将显式推理能力直接编码进模型权重，转化为「直觉」。系统已全量上线，在不增加任何推理成本的前提下，商品点击率提升 3.98%、买家数提升 2.07%、订单量提升 2.11%。搜索和推荐工程师值得深读论文部分，代码已开源。让 AI Agent 感知浏览器渲染：为 Agent 构建前端验收 Harness | 百度 Geek 说百度工程团队开发了基于 Chrome DevTools Protocol 的开源工具，让 Agent 能从路径、内容、视觉、交互、控制台、网络六个维度验证真实浏览器渲染结果，补上 AI 编程流水线「写完代码看不到效果」的盲点。核心洞察是：代码正确不等于界面正确——CSS cascade、运行时数据、异步状态共同决定了最终渲染，这些问题只有在浏览器里才能暴露。工具已开源，可通过 npx skills add hixuanxuan/browser-automation --skill visual-verify 安装，前端 AI 自动化团队可以直接参考。 Claude 付费计划将包含程序化调用月度专用额度 | ClaudeDevs 从 6 月 15 日起，付费版 Claude 计划将包含一个月度专用额度，覆盖通过 Agent SDK、claude -p 命令行工具、Claude Code GitHub Actions 以及基于 Agent SDK 构建的第三方应用的程序化调用。这实际上将程序化访问权限捆绑到了订阅模式中，开发者无需单独为 API 付费即可构建和部署自动化工作流。对于之前依赖订阅账号进行轻量级自动化的用户，需要关注额度上限细节。五种多智能体架构类型：注意力才是真正的瓶颈 | 跨国串门儿计划 Factory 核心 Agent 框架负责人 Luke Alvoeiro 在 AI Engineer 的分享中，拆解了五种多 Agent 通信模式：委派、创作者 - 验证者、直接通信、协商和广播。他的核心判断是：今天的模型已经足够聪明，真正的工程瓶颈是人类的注意力带宽。Factory 的 Missions 系统通过三角色架构（编排者 - 工作者 - 验证者）和「验证合约」机制，实现了最长 16 天的自主任务执行——在编写任何代码之前先定义好与实现无关的正确性断言，从根本上阻断 Agent 系统跑偏的可能。克隆 Slack 的生产案例中，代码内测试占比 50%，覆盖率超过 90%。 ## 扩展阅读积压队列的数学原理：面向队列恢复的容量规划 | InfoQ 用三阶段数学框架推导队列积压的形成、持续和恢复过程，将「需要多少超额容量才能在 N 分钟内消化积压」从经验估算变成可计算的工程问题。还分析了重试放大和级联积压两个高危模式。适合基础设施和平台工程师，特别是要做 SLA 容量规划的团队。 [AINews] 微调时代的终结 | Latent Space 围绕 OpenAI 弃用微调 API 展开的行业分析。核心论点是：对大多数 AI 工程师来说，提示工程、RAG 和专用推理栈已经能覆盖绝大多数需求，微调正在成为少数真正需要定制模型行为的顶尖应用的专属手段。想厘清「我的场景到底需不需要微调」的读者值得一读，文章给出了判断框架。 Browser Run：现已运行于 Cloudflare Containers，速度更快、扩展性更强 | The Cloudflare Blog Cloudflare 将 Browser Run 服务迁移到 Containers 平台，并发限制提升 4 倍（每分钟可启动 60 个浏览器、最多 120 个并发），Quick Action 响应速度提升超 50%。关键架构改动是将状态管理从 KV 迁移至 D1 和 Queues，文章有详细的性能数据对比。需要在云端运行无头浏览器的团队可以直接参考，改进已经上线，无需更改现有代码。 ## 今日阅读路径时间有限的话，建议按以下顺序阅读：第一优先：精讲三（Agent 评估框架）这是今天最有普适价值的一篇。无论你在构建哪种 AI Agent，无论规模大小，在上线之前都需要有回答「你怎么知道它没有幻觉」这个问题的能力。12 项指标、四层结构，结合阈值参考值，是可以直接带回去用的框架。那个「基准 95% 准确率、生产 30% 幻觉率」的案例本身就值得每个 Agent 工程师认真对待。第二优先：精讲一（Claude Computer Use 最佳实践）如果你的 Agent 需要控制桌面或浏览器，这篇的分辨率配置和安全架构部分可以帮你避开 90% 的坑。特别是截图下采样导致坐标偏移这个问题，不读原文很难自己发现，修复也非常简单——在发送截图前主动下采样到 1280×720，这一个改动的收益超过绝大多数其他优化手段。第三优先：速览中的 Shopify 多智能体经验篇幅不长，但提供了一个反直觉的工程结论：专才 Agent 优于通才 Agent，为领域专家提供更好的工具比组建 AI 特种部队更有效。如果你正在做 Agent 系统的架构选型，这篇来自 Shopify 生产环境的结论值得认真对待。精讲二（Codex Windows 沙箱）主要面向平台工程师和需要在 Windows 上部署 Agent 的团队，专业性强。如果你的部署目标平台是 Linux 或 macOS，可以跳过，但如果面向 Windows 用户，这篇是目前最完整的参考案例。

译BestBlogs早报聚焦AI智能体的工程化落地。Anthropic官方指南详解Claude Computer Use最佳实践，包括解决点击偏移的根本原因、推荐分辨率策略及必须采用虚拟机隔离与人工确认门控的安全原则。OpenAI工程师分享了为Codex构建Windows安全沙箱的历程，其最终方案通过专属安全标识符和写受限令牌，实现了操作系统层面的强制文件系统隔离。早报同时指出，基准测试优异的RAG Agent在生产环境中可能出现高达30%的幻觉率。

ginobefun@hongming731 · 5月14日43

#BestBlogs 早报 2026-05-14 今日 BestBlogs 早报三大精讲：Anthropic 告诉你 Computer Use 点击不准的真实原因（截图被静默压缩，坐标偏了）、OpenAI 分享如何在 Windows 上给 Codex 造沙箱、来自 100 次以上生产部署的 Agent 评估 12 指标框架，包含一个警醒数据：基准测试 95% 准确率，生产幻觉率可达 30%。速览还有李想谈 AI 转型、Shopify 多 Agent 踩坑经验，欢迎阅读。

译Anthropic揭示其AI模型Computer Use点击不准是因界面截图被静默压缩导致坐标偏移。OpenAI分享了在Windows系统上为Codex构建安全沙箱的方法。一份基于超百次生产部署的Agent评估框架提出12项指标，并给出关键警示：基准测试准确率可达95%，但生产环境中幻觉率可能高达30%。此外，推文还提及李想对AI转型的看法及Shopify在多Agent应用中的实践经验。

Orange AI@oran_ge · 5月14日69

http://x.com/i/article/2054702609756508160 # 首届 Agent 坦克大战，你要不要来玩？前几天我的朋友王登科，突然发给我一个链接，说要不要来玩玩。我一看这个域名，Agent Tank... 让 Agent 玩坦克大战？我立刻打开网站，看这个加载页面，就感觉事情没那么简单。没想到啊没想到，大家都在用 Agent 卷联网办公（Moxt），卷联网群聊（Bloome），登科直接快进到 Agent 游戏联网对战了。不愧是登科，没上过班的人一点班味儿都没有。那这个 Agent 坦克大战怎么玩呢？首先要创建一个你的坦克然后把你的坦克信息，发给你的 Agent 然后就好了，坦克启动！这个画面，这个音乐.... 让我想起了六岁第一次玩坦克大战的那个午后。。。但这个可比小时候的红白机好玩多了，这个坦克是可以无限升级的！你的 Agent 会优化坦克代码，升级走位、武器、策略。当然很多时候，也会发现逻辑未必是越多越好，你的 Agent 也会根据战况回滚代码（像极了软件工程师的日常...）在这种反复游戏，反复升级的过程中，你的坦克也变得越来越强，这何尝不是某种意义的强化学习。但在玩了几局之后，我发现一个严重的问题：虽然坦克对战是不花钱的，但每次让 Agent 改代码、跑模拟，都是真金白银在烧 Token 啊。那怎么办呢？得拉个赞助让大家免费用。于是我找到了小米，他们赞助了目前国内最佳的 Agent 模型（之一） MiMo 2.5 Pro 模型。现在用这个模型升级坦克，限时免费，无限次数。然后我们决定，邀请大家一起来玩。 🎮 Cola × AgenTank 挑战赛规则很简单：用 Cola 接入 AgenTank，让你的 Agent 写坦克代码，打排位赛。排名最高的坦克获得 100 美金的顶级模型 Token。怎么参加： 1. 下载 Cola（比 Hermes、小龙虾更稳定更易用的 Agent，目前仅限 Mac）：https://colaos.ai 2. 填写邀请码：AgenTank-HEZC6XAV 3. 去 AgenTank 注册并领取坦克，报名大赛 https://agentank.ai/super-competitions/cup_5ggbNn8zCj9C35sfm 4. 把坦克 ID 发给你的 Cola，开始训练并升级你的坦克。 5. 比赛开始时间是今天下午1点（2026/5/14 13:00:00），请在开赛之前把你的坦克训练好！ 6. 最终胜利的坦克可以获得 100 美金的 Cola 能量。来吧，让你的 Agent 上战场，仅限 100 名坦克参加，名额有限，先到先得！等等，仅限 100 名？我问登科为什么只限定 100 个坦克呢，他说 100 已经是很大的赛事了！按照原来的规则，整个比赛打完要 7.3 天，真是旷日持久的大赛事！为了加速比赛，我们正在优化战斗算法。如果来玩的人实在很多，我和登科也会考虑开放到1000人，并且使用一个全新的随机1v1算法。战局已开，不要天天用 AI 卷效率了，来放松一下玩会儿游戏吧！

译Cola与AgenTank联合举办首届AI Agent坦克对战挑战赛。参赛者需通过Cola接入游戏，训练自己的Agent坦克进行代码优化与策略升级，并参与排位赛。比赛获得了小米MiMo 2.5 Pro模型的赞助，提供免费Token用于坦克升级。赛事限100人参与，排名最高者可获得100美金奖励，于2026年5月14日13:00开始。开发者表示，若参与踊跃，可能将名额扩展至1000人并采用新算法，旨在推动AI Agent从效率工具向娱乐对战场景拓展。

Orange AI@oran_ge · 5月14日58

我和登科一起搞了个Agent坦克大战不要天天用 AI 卷效率了来放松一下玩会儿游戏吧！

译作者与登科共同开发了一款名为“Agent坦克大战”的游戏，旨在呼吁人们不要仅将AI用于提升效率的“内卷”，而应将其应用于娱乐放松领域。该游戏的核心是让玩家体验AI驱动的坦克对战，通过具体的游戏项目展示了AI技术在休闲娱乐场景下的创新应用潜力。

elvis@omarsar0 · 5月14日58

The comment section tells you everything. I mostly use Claude Agent SDK (~80%) and sometimes Claude Code interactively (~20%). I prefer my own harness/UI over Claude Code CLI/Cowork. Most of my use cases with agents involve programmatic use (e.g., long-running loops and automations). Enabling devs to build and work with their own harnesses should be encouraged. That's not the message I am getting here. I appreciate the credits, but only time (when this comes into effect) will tell how bad it is and how it affects my use cases and overall usage. I hate that uncertainty in these times. I do understand that this decision helps clarify usage, but it's obviously going to affect how much I can leverage the subscription itself. Glad I decided to move a lot of my work to Codex over the past couple of weeks, where I get to freely decide how I use my subscription. We need more of this in the space.

译一位开发者对Claude即将实施的程序化使用月度积分制度表示担忧。他主要依赖Claude Agent SDK进行程序化应用和自动化，并偏好自定义开发环境，认为新规虽旨在明确使用方式，但可能限制订阅服务的充分利用，并带来不确定性。为此，他已将部分工作迁移至Codex平台，以寻求更高自由度。新规覆盖Agent SDK、claude -p命令行工具、GitHub Actions及第三方应用的使用，自6月15日起生效。

宝玉@dotey · 5月14日66

还记得上次 Claude 停掉了 Claude Code 订阅在 OpenClaw 的调用吗？甚至连 claude -p 这种调用都限制了，不能再共享 Claude 订阅。但当还留了个口子，就是基于 Claude Agent SDK 和 claude -p 还是能跑能共享订阅额度的。现在他们有一个新的方案，把这个口子也堵上了。美名其曰给你额外额度用于程序化调用，也就是 Agent SDK、claude -p 命令行、Claude Code GitHub Actions、以及 Conductor 和 OpenClaw 这类基于 Agent SDK 的第三方工具。但实际上额度小的可怜，Pro 20 美元，Max 5x 100 美元，Max 20x 200 美元，Team 标准席位 20 美元一人，Team 高级席位 100 美元一人。按 Anthropic 自己的 API 价格算，Pro 的 20 美元用 Sonnet 只够大约六七百万 token 输入或一百多万 token 输出，几轮密集的 agent 循环就见底。Max 20x 用户每月付 200 美元订阅费，拿到的 SDK credit 正好也是 200 美元。关键在于变化方向。之前 SDK 和交互式聊天共用订阅套餐的 rate limit（速率限制），Claude Code 重度用户能在订阅价格下跑出远超 200 美元等价的 API 用量，这是订阅模式的吸引力所在。现在 SDK 端被按美元封顶，相当于把这块超额价值收回去了。Anthropic 在帮助文档里也挑明：团队跑生产级共享自动化的，应该转去 Claude Developer Platform 用 API key 按量付费，订阅套餐"不是为这个场景设计的"。受冲击最大的是第三方工具用户。之前用 OpenClaw、Conductor 这类基于 Agent SDK 的 agent 工具的人，本质上是"用订阅价跑高频自动化"。新政之下，这条路只剩 credit 那一点点额度可走，烧完要么转 extra usage（额外用量，按 API 价付钱）继续跑，要么停到下个月 credit 重置。不受影响的部分：API key 用户照旧按量付费；交互式 Claude Code（终端和 IDE 里手敲那种）、Claude Cowork，以及网页/桌面/手机端的 Claude 聊天，都继续走原本的订阅限额。 6 月 8 日 Anthropic 会给符合条件的用户发邮件领取，6 月 15 日生效。

译Anthropic宣布自6月15日起，对Claude付费订阅计划的程序化调用实施新的专用月度信用额度，覆盖Agent SDK、claude-p命令行、GitHub Actions及基于SDK的第三方工具。但额度普遍被认为严重不足，如Pro计划仅20美元。此举旨在将高频自动化使用引导至按量付费的API，实质上收回了用户此前以订阅价获取超额API用量的价值。依赖第三方工具进行高频自动化的用户受影响最大，而交互式聊天和Claude Code等使用方式则不受影响。

Chubby♨️@kimmonismus · 5月14日60

How the mighty have fallen

译昔日辉煌今不再 [引用 @ClaudeDevs]：从6月15日起，付费Claude计划可申领专用的月度编程使用额度。该额度涵盖以下用途： - Claude Agent SDK - claude -p - Claude Code GitHub Actions - 基于Agent SDK构建的第三方应用

Tibo@thsottiaux · 5月14日51

We are continuing to invest in making agents work better on Windows. Highly recommend reading David's engineering post on our unique approach to windows sandboxing for Codex: https://openai.com/index/building-codex-windows-sandbox/

译我们正持续投入以提升智能体在Windows上的表现。强烈推荐阅读David关于Codex独特Windows沙盒方案的工程文章：https://openai.com/index/building-codex-windows-sandbox/

Alibaba Cloud@alibaba_cloud · 5月14日63

What if AI characters could remember, empathize & proactively engage? ✨ The future of interactive AI is here. Whether you're building for games, virtual AI companions, or adaptive learning, Qwen-Character powers immersive role-play experiences that drive 50%+ deeper engagement and boost user LTV 👉 See how it works in the full video: https://int.alibabacloud.com/m/1000412854/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

译如果AI角色能够记忆、共情并主动交互呢？✨ 交互式AI的未来已来。无论您是为游戏、虚拟AI伴侣还是自适应学习进行开发，Qwen-Character都能打造沉浸式角色扮演体验，推动参与度加深50%以上并提升用户终身价值 👉 观看完整视频了解运作原理：https://int.alibabacloud.com/m/1000412854/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

AYi@AYi_AInotes · 5月14日65

说实话，看到 Claude 这条"福利"全网都在转，但绝大多数人没注意到官方话术下面藏的真正信号。打开他们的详细说明，会发现一件挺有意思的事。这笔每月的"专用信用额度"，是按 API 价格计费的。 Pro $20，Max 5x $100，Max 20x $200。听起来还行对吧？但你要是问那些一直在用 claude -p 和 Agent SDK 重度跑自动化的人，他们的反应可能跟你不太一样。以前的订阅，是被严重补贴的。 $200 一个月跑 agent，实际能消耗的 token 价值，大概是 API 标价的 5-10 倍。也就是说，你用 Max 20x 跑重度 agent，相当于薅了 $1000-2000 的羊毛。现在这个补贴被切走了。很多重度用户实测，$200 的 API 信用，半天就烧完。这才是真相—— 轻度用户：白送，还保护了聊天额度，爽。重度用户：账单悄悄涨了 5-6 倍，连骂街都找不到把柄。而且这事不是第一次了。 2026 年 4 月，Anthropic 已经先把 OpenClaw 这类第三方 agent 框架从订阅额度里踢出去了，当时一片骂声。这次直接把自家的 claude -p 和 Agent SDK 一起切走。连续第三次"去补贴化"。时间轴拉出来看就很清楚—— 以前消费订阅和 API 是混在一条线上的，现在他们要把这条线劈成两半。消费订阅，是给人用的。 API，是给机器用的。中间那段灰色地带—— "用订阅价格跑生产级 agent"—— 正在被悄悄抹掉。我觉得这事真的不是什么发福利。是 Anthropic 给 agent 时代画的第一条红线。刚跟 SpaceX 签完 compute deal 把限额提高了一圈，他们也清楚 agent 爆炸式增长会立刻把新增 capacity 吃光。所以必须把"低价无限跑"这条路堵死。那个所有人都默认的"AI 基础设施无限补贴"狂欢期，正在被悄悄画上句号啊。想继续薅便宜的，窗口在快速关闭。想认真做 agent 的，今天就该把账算清楚—— 你的预算思路，得从"订阅"切换到"API"了。

译Anthropic宣布为付费Claude计划提供月度API信用额度，表面是福利，实则是取消对程序化使用的大幅补贴。此前，重度用户通过订阅能以极低成本（如$200消耗价值$1000-$2000的token）运行Claude Agent SDK和claude -p等自动化任务。新政策下，同等预算的信用额度可能半天耗尽，导致重度用户实际成本飙升5-6倍。这是Anthropic继将第三方Agent框架移出订阅后，第三次“去补贴化”行动，旨在明确区分消费订阅（供人使用）与API（供机器使用），终结“用订阅价格跑生产级Agent”的灰色地带。此举标志着AI基础设施无限补贴时代临近尾声，开发者需将预算思路从“订阅”转向“API”计价。

Luma@LumaLabsAI · 5月14日55

The packaging tells the story. Now let the product show it. Upload your design, apply it to the product, and let Luma Agents build every promo image from there. From concept to campaign ready in minutes. Take it further → http://lumalabs.ai/app

译包装讲述故事，现在让产品展示它。上传您的设计，应用到产品上，然后让Luma Agents构建所有宣传图片。从概念到活动就绪，只需几分钟。进一步了解 → http://lumalabs.ai/app

MiniMax (official)@MiniMax_AI · 5月14日48

We're heading to AI Engineer Singapore this weekend (May 15–17)! 🇸🇬 Two things to know: 1️⃣ Vincent Wu, our Solutions Engineer, will be speaking on Building Agentic, Multimodal Systems with MiniMax. 2️⃣ We're co-hosting a side event with @zocomputer on May 15 evening. Come build with us → https://luma.com/qatufzkn Thanks @aiDotEngineer @swyx @SherryYanJiang for making this happen!

译本周末我们将前往新加坡AI工程师大会（5月15-17日）！🇸🇬 两个重要信息： 1️⃣ 我们的解决方案工程师Vincent Wu将发表演讲，主题为《使用MiniMax构建智能体多模态系统》。 2️⃣ 5月15日晚我们将与@zocomputer联合举办周边活动，欢迎来共同创作 → https://luma.com/qatufzkn 感谢@aiDotEngineer @swyx @SherryYanJiang促成此次活动！

ClaudeDevs@ClaudeDevs · 5月14日73

Starting June 15, paid Claude plans can claim a dedicated monthly credit for programmatic usage. The credit covers usage of: - Claude Agent SDK - claude -p - Claude Code GitHub Actions - Third-party apps built on the Agent SDK

译自6月15日起，付费Claude计划可申领专用的月度编程使用额度。该额度涵盖以下用途： - Claude Agent SDK - claude -p - Claude Code GitHub Actions - 基于Agent SDK构建的第三方应用

Perplexity@perplexity_ai · 5月14日54

Computer is secure by default. Every task runs in its own hardware-isolated sandbox with VPC-level storage and compute separation. Agents are authenticated with short-lived proxy tokens instead of raw API keys.

译计算机默认处于安全状态。每项任务都在其自身硬件隔离的沙箱中运行，并具备VPC级别的存储与计算分离。代理通过短期代理令牌进行身份验证，而非使用原始API密钥。

elvis@omarsar0 · 5月14日67

HTML Artifacts are a big part of how I work with agents now. Artifacts can be more than just static files. When combined with agents, they can take action or help you take action. This unlocks all kinds of interesting ways to work with agents. This is clearly the future. Check out this writing and scheduler artifact I built in a few minutes. It uses a bit of HTML and JS. All the data is in markdown (Obsidian vaults), so the agent can access and modify it at any time. No DB needed. No sophisticated functionalities. The agent decides all that for me based on the skills, context, and memory it has access to. The best part about this simple stack is that all the important information stays with me. This has allowed me to build a recursive self-improving system and automations that can better tap into coding agents like Codex or Claude Code. I could have paid or built an entire app for scheduling posts, and there are so many of them out there. But I don't need to. I've realized a simple artifact does the job. And the simplicity of it is actually an advantage. Very little maintenance for very high returns on personalization, time, and efficiency. The other benefit of this is that I can add features as I please. That level of personalization feels magical, and we should all be pursuing more of it. All of this just keeps compounding. Of course, this example is just about writing. But I have similar artifacts for research, design, experimentation, evaluation, and so much more. And no, I didn't actually publish the post example I shared in the clip. It was just for demonstration purposes. I actually spend more time than this when writing together with agents. Lastly, having built my own agent orchestrator tool has made me realize that simplifying the tool stack is a superpower. If you are curious about how all this works, I will do a live session next week: https://academy.dair.ai/events/cmovobp97000904l5h0n9a2yz

译作者介绍了将智能体与可交互的HTML组件（Artifacts）结合的工作流。这些组件超越了静态文件，能主动执行或辅助完成任务。其核心优势在于数据完全自主（存储于Markdown中，无需数据库）、维护简单且回报率高，并能实现高度个性化的功能扩展。作者已将其应用于写作、研究、设计等多个领域，并指出简化工具栈是提升效能的关键。他将于下周进行直播，详细讲解具体实现方法。

🚨 AI News | TestingCatalog@testingcatalog · 5月14日58

holaOS has shipped its beta 0.1 release, adding a management layer on top of its Agent Computer foundation: a Dashboard, Sub Agents, and Multi Workspaces. Each workstream gets its own isolated context, memory, and agent. No need to have a reset between sessions. The whole workflow shifts towards managing several ongoing workstreams in parallel.

译holaOS 已发布其 beta 0.1 版本，在其 Agent Computer 基础上新增管理层：仪表板、子代理与多工作区。每个工作流都拥有独立的上下文、记忆和代理。无需在会话之间重置。整个工作流程转向并行管理多个进行中的工作流。

Runway@runwayml · 5月14日65

Meet Runway Agent. Your new AI creative partner that helps you ideate and execute fully finished, sound designed and edited videos. All with just a simple conversation. From ads to shorts to content for social, Runway Agent makes it easy to make more of what you need. Get started on web at the link below.

译认识Runway Agent。您的新AI创意伙伴，帮助您构思并制作完整的、经过音效设计和剪辑的视频。一切只需简单的对话。从广告到短片再到社交媒体内容，Runway Agent让您轻松制作更多所需内容。点击下方链接在网页版开始体验。

Emad@EMostaque · 5月13日71

When you want to move from single agent SQLite on something like QMD, PostgreSQL is a great choice for multi agent and production quality, but not as snappy. So we made it much more snappy with BM25 & open sourced it. More soon for planetary scale sovereign agents

译在构建多智能体生产级系统时，PostgreSQL虽可靠但检索速度不足。团队为此开发并开源了psql_bm25s，这是一个原生PostgreSQL访问方法，实现了精确的BM25检索。其在标准基准测试中比pg_search快约23倍，使得检索不再成为性能瓶颈和成本负担，智能体得以高效查询数据，为大规模自主智能体应用铺平道路。

swyx 🌉@swyx · 5月13日49

if your reaction to this is “haha openclaw bad, see prompt injection is the #1 danger” you: 1) havent sufficiently appreciated the layers to this tweet 2) havent seen enough ai api keys

译如果你对此的反应是“哈哈OpenClaw不行，看吧提示注入是头号危险” 那你： 1) 还没充分理解这条推文的层层含义 2) 没见过足够多的AI API密钥

阿绎 AYi@AYi_AInotes · 5月13日50

Cursor这公司真的把我整懵了，长这么大第一次见，主动给用户送$10000额度的公司👍 之前他们同事私信我，说要送我一万刀的使用额度，我那几天忙到飞起，隔了快一周才看到消息回过去，当时我心里已经默认这事黄了，换任何公司都不可能再理你了🤣 结果今天，他们另一个同事专门追过来找我，说之前的同事交接了，直接给我开充足额度+Ultra全权限(◍•ᴗ•◍) 真的挺感慨的兄弟们｡°(°¯᷄◠¯᷅°)°｡以前的SaaS公司，晚回一天名额就没了，过三天销售直接把你拉黑。现在的Cursor，追着你给权限，追着你要反馈。好的产品会自己说话，好的团队会追着用户跑。 Damn，这才是做产品该有的样子啊，我现在要把所有代码工作全迁过去了，真的没话说。我觉得以后写代码我再也不会用别的编辑器了吧 hhh 太感谢了兄弟@shubgaur ，真的没想到过了这么久你们还会专门跟进。 @cursor_ai 是我这两年用过最惊艳的开发工具，没有之一。能得到你们的支持真的很开心，接下来我会深度使用Ultra版本，把所有遇到的问题和优化建议都整理给你们。再次感谢整个Cursor团队！ #Cursor #AI编程

译作者分享Cursor公司超预期的服务：在延迟回复赠送1万美元额度的私信近一周后，另一名同事主动跟进并兑现了额度与Ultra全权限，令作者盛赞其“追着用户跑”的服务精神，并决定将所有代码工作迁移至Cursor。同时，推文强调了Cursor SDK的正式发布，该SDK将生产级编程Agent转化为可任意嵌入的基础设施，允许开发者将其集成到CI流水线、自动化脚本或自有产品中，且运行环境与能力与桌面编辑器完全一致。这标志着编程Agent从辅助工具转变为可在任何地方执行任务的“操作系统”，开发者角色也向指挥Agent演进。