http://x.com/i/article/2061667400723156992 # 为了不花那120刀，我把电脑清理软件做成了开源skill。这两天干了一个我觉得还挺有意思的事，虽然很小，但是我也想写下来，因为感觉它可以非常非常直观的让大家感受到。 Ai时代，Agent对于传统应用的冲击。故事是这样的。前天我在推上刷到了一条帖子，X上有位老哥分享了一条prompt。就这么一句话。 do a FULL read only analysis on my Macbook to help me optimize storage。大概意思是他让Codex对他的MacBook做一次全面的只读存储分析。然后他发现可以清出500G的空间，Codex还找到了一个116G大的codex-tui.log文件。。。正好我当时这台MacBook Air赔了我快2年的时间，装了一堆乱七八糟的东西，我就想着，要不要我给我的电脑也试试查一下，看看有没有啥可以删掉的垃圾文件。于是我当场就把原Prompt丢给我的Codex试了一下，然后加了一句用中文回答。而Codex，给出了这样的结果。先不说其他的，不扫我都不知道，我发现电脑上竟然有快100个G的B站视频？？？我都懵了。而且还藏在一个相当深的Containers目录下面。我去B站客户端里翻了一下，发现是我为了坐飞机上的时候有东西看，下载了一堆以为会看的动漫、纪录片还有乱七八糟的各种视频。然后每次在飞机上都直接昏睡过去，几乎没有真的看过。。。然后，他们就默默的留在了哪里，我甚至都忘了，我还有B站客户端这回事，更忘了，这里面还有我的缓存视频。。。然后是Chrome、开发、Claude环境balbalabla。 Codex最后给了一个判断，按这个清单清，保守能腾出120G，激进一点能到140G以上。我不知道大家，反正我自己是个强迫症，是个洁癖。就是我就喜欢电脑干干净净的，垃圾能删就删。而且在之前，Mac系统清理垃圾，是一件特别恶心的事情，我还记的我17年刚上班的时候，当时为了清理Mac的垃圾，找到了一个软件，叫ClaeanMyMac。这玩意不是免费用的，正版一年近40刀，一次买断要120刀。当时刚毕业你让我买这个，我真的是掏不起，然后就满大街的搜破解版，然后功能又不全。可以说，到了今天，清理Mac的垃圾，都没有一个很好用的产品。 Windows生态也差不多，有多少装安全管家或者360，其实就是为了清垃圾的，可以举个手。。。但是现在，好像，Agent就能直接干了啊。本身你直接清理电脑垃圾也就是包装了一层UI，然后对我电脑底层进行扫描和操作，那我让Agent直接操作，岂不是更牛逼一点？说干就干。不过原版prompt其实有个问题，它只是一个比较专业一点的只读文档，然后给你列了一个占用清单，又给了一些不太清楚的清理建议。对没太熟悉系统的朋友，看完整份报告，其实还是会不太敢动手。哪些能放心清，哪些得自己看一眼再判断一下，哪些绝对千万别碰，这些判断它没有帮你直观清晰地列出来。而且他也没法帮你删东西。所以我想，要不然，圆一下我9年轻的梦，直接干脆自己搓一个skill，来解决清理电脑垃圾的需求？说干就干，大概烧了一些Token之后，这个清理垃圾.skill，就顺利面试了，而且，Mac和Windows都能用。同样，老规矩，也已经开源在我自己GitHub上的skills仓库了。 https://github.com/KKKKhazix/khazix-skills 我在我的MacBook Air上跑了一下，给大家看一下效果比如说一句帮我看看存储，它就可以自动触发了。它会先找你要权限，然后扫描你电脑上面的文件，然后直接在浏览器里打开一份可交互的HTML报告，帮助你可以化的了解，同时，你也可以直接在网页上点按钮清理。就这么简单，但是究极实用，而且效果甚至比收费的专业清理软件效果还要好。。。而且速度也不错，几分钟就跑完了。最终的网页是这样的。第一部分是磁盘总览。总容量多少，用了多少，还剩多少，可以通过一条彩色进度条方便直观看到。同时因为后续要给出清理命令，所以他会去扫描你电脑的系统环境。接着是占用排行Top 5。和上面prompt分析的结果一样，B站离线下载缓存96.7个G排第一，然后Google Chrome应用数据等等等等。每一项都有颜色标签、类型、完整路径和一句话说明。再往下是执行建议，帮你排好了清理的优先级。性价比最高的是去B站客户端清看完的离线视频。然后跑绿灯纯缓存命令，合计约27个G。这里虽然给了清理执行建议，但是你可能还不知道要怎么去清理。这就是随后的三色分级详情区用来做的事情，也是整个skill最核心的部分。 🟢 绿灯，可以放心让agent帮你清理。这类东西寄都全是纯缓存、临时文件、安装包残留，垃圾大户，不影响任何功能。每项都可以展开。展开之后路径、清理前要不要关进程、清理命令全列好了，每条命令旁边有复制按钮，你想去复制自己运行的，你也可以自己去运行着玩。但是我们也贴心的在下面也设计了两个操作按钮，移到废纸篓和直接删除。无论你点哪一个键，它都会有一个弹窗跟你进行二次确认。移到废纸篓是可逆的，删错了能捞回来。直接删除立即释放空间但不可恢复。你就自己选择就行。比如我这里点移到废纸篓，然后点确定。这几个安装包就会被移到我的废纸篓里面去了。然后这一项在网页上，也会实时更新，被标记为已清理。如果不想逐项清理的话，你也可以直接点击右上角，一键把这些绿灯文件移到废纸篓，或者是一键删除。 🟡 黄灯文件，是我们建议你自己看一眼再决定的。这类东西需要人去把关，比如B站缓存的视频、下载文件夹里的安装包、某个项目文件夹。 agent会告诉你它是什么、为什么建议你看一眼、删了有什么影响，最终你自己拿主意。黄灯项不会给你直接删除的按钮，只给在访达中打开让你自己去看，你确定了以后手动去删。有安全子路径的会额外给一个移到废纸篓，但也只是移到废纸篓，可逆的。比如这里没有用的B站视频，它会建议我去b站应用里面删视频。当然，你也可以快捷打开访达（就是Mac的文件夹），直接跳到那个地方，然后手动山东。也提供了一个移到废纸篓选项，这里的仅安全部分，它也会解释是经过核实过可安全清理的子目录。因为这个文件夹下面除了视频，还保留了我的登录派和设置，所以是不能完全删除的。点这个键，它会只删除视频，而保留我的B站登录态和设置，这也是我们的一些小小体验设计。 🔴 红灯里就是一些比较重要的文件。比如系统文件、正在使用的应用核心数据、sleepimage这些，agent会解释为什么不能动，然后跳过清理。如果你非要清理的话，那他也给你提供了一键在访达中访问的按钮，点一下就能找到这个应用了。最后是长期优化建议，这里面的一些建议，我觉得还是值得一看的。整个skill全程只读，扫描阶段禁止任何写操作。只有你在报告页面上主动点了删除之类按钮，浏览器弹出确认框，你再点一次确认，才会真正执行清理操作。我自己一直的原则是，对待AI，还是需要谨慎一点，稍微花点时间确认一下，虽然现在在代码层面，这种小东西幻觉率已经极低了，但还是防一手。给大家看看我清完之后的内存。直接清理掉了了快120个G。。。就像我前面说过的，这个skill它是不挑电脑环境，也不挑你的Agent工具。所以我也拿同事的Windows电脑的Codex试了一下。给大家放一下效果。欢迎大家试试，如果跑出来了什么有意思的发现，也欢迎来评论区分享，我很好奇大家的电脑里有没有像我一样藏了些奇奇怪怪的东西。也再次提醒一下大家，删东西一定要慎重慎重再慎重。当然我知道，肯定很多人也好奇，这种Agent+skill的方式来清垃圾，跟之前的专业清理软件比，效果到底怎么样。所以呢，为了方便对比，在用这个skill清理内存前，一开始我就专门在我的MacBook Air上同样拿CleanMyMac扫了一遍。跑了快半小时才出结果，扫出了15.8G的垃圾可清理。点进垃圾清理是这样的。左边把垃圾分成了几个大类，系统垃圾里面也给你分好了文件的种类。但是这些信息并不足够让我做决定。比如这个Google Chrome 3.8G的文件夹，他告诉我，这是用户缓存文件，属于系统垃圾，可以删。但是我其实并不知道这个文件里面到底是什么内容。这3.8个G里有多少是Service Worker离线缓存，扩展数据，或者IndexedDB，清完之后哪些网站要重新登录、哪些离线功能会失效。我全都不知道。那作为一个普通用户，我只能单凭他说的用户缓存文件，相信他，让他删了。而且他只能扫描到传统意义上的垃圾文件，扫不到我瞎下的b站视频，因为他不能像agent一样去读到每个文件的内容。相比起来，Agent给的信息比CleanMyMac细多了，也透明多了，每一项都有具体路径、具体大小、具体说明，告诉你这个文件夹是干嘛的、删了会怎样、建议你怎么操作。这个能力，现在一个skill就能做到了。而且做得更透明、更灵活、可以根据你的具体情况定制。在我的skill之上，进一步，你想让他找哪种想清理的文件都可以大白话跟他说，CleanMyMac做不到这种程度的个性化，因为它是一个写死了规则的软件，而Agent能理解你的各种奇奇怪怪的需求。我不是说CleanMyMac不好。但其实你可以发现，这类工具型软件，在Agent时代，确实正在遭受冲击。我之前写过一篇文章叫AI正在吞噬所有软件，里面有一个判断，软件正在从资产变成耗材。还有，软件的本质就是人和机器之间的翻译层，而Agent正在填平这道鸿沟。两个月，这个清垃圾的小skill，其实就可以验证了。我自己的电脑里，在很久很久以前，其实还装过很多工具类的软件。解压缩的、PDF编辑的、图片格式转换的、文件重命名的、重复文件查找的…… 这些软件的共同点是它们都在执行一个相对明确的、规则可定义的任务。而这恰恰是Agent最擅长的事。所以那些曾经靠一个明确功能养活团队的软件公司，它们面对的竞争对手已经不是另一家软件公司了，而是用户手里的一条prompt，是Agent的一个skill。这个skill今天能清垃圾，明天能做什么，那谁知道呢。反正我挺期待的。这个有趣的未来。

译作者受一条推文启发，使用Codex对自己的MacBook进行了只读存储分析，发现了B站缓存视频等大量可清理空间（激进方案超140G）。为替代收费软件CleanMyMac，作者制作并开源了一个跨平台（支持Mac/Windows）的AI清理skill。该skill会扫描文件并生成可交互的HTML报告，通过三色分级（绿灯可放心清理、黄灯需人工判断、红灯禁止动）直观展示，并提供安全执行按钮。实测清理后释放了近120G空间，相比CleanMyMac仅扫描出的15.8G，其信息更透明、建议更详细。

Ethan Mollick@emollick · 6月2日70

Big paper on AI coding agents using Github & other data The auto-complete tools (Copilot) led to 2.2x more code, local agents like original Claude Code led to 7.4x, & current remote coding agents 17.3x(!) But human bottlenecks in coding means actual releases "only" went up 30%

译关于使用Github及其他数据的AI编程智能体的重要论文自动补全工具（如Copilot）使代码量增加2.2倍，本地智能体（如初版Claude Code）增加7.4倍，而当前远程编程智能体增加17.3倍（！）但编程中的人类瓶颈意味着实际发布量“仅”增加了30%

meng shao@shao__meng · 6月2日35

宝玉老师，必须支持！

译今晚20:00，图灵社区直播间将举办一场关于 AI Agent Skills 的公开课。分享内容将涵盖讲者制作技能（Skills）的实操经验和心得体会，并介绍新书《图解Skill: AI提效实战指南》。该活动面向需要 AI 提效的受众。

StepFun@StepFun_ai · 6月2日69

This is exactly the philosophy: don't bolt on efficiency, design for it from day one. MFA + AFD aren't tricks. They're what lets Step 3.7 Flash serve at a fraction of the KV-cache cost. Huge thanks to @FireworksAI_HQ for making Step 3.7 Flash one-click to run. Go build something agentic with it.

译阶跃星辰发布其推理优化型模型Step 3.7 Flash。该模型为196B MoE架构，从设计之初就专注于推理效率。其采用多矩阵分解注意力机制，使KV-cache成本仅为DeepSeek模型的约22%；同时通过注意力与FFN解耦技术，实现了硬件优化的高效服务。该模型已通过Fireworks AI提供，采用Apache 2.0许可，并可用于构建智能体应用。

Berryxia.AI@berryxia · 6月2日63

这种不要说磨了30遍，主要是真的非常费人且费Token。黄总这个研究也算是把这套Claude Workflow 底层核心的设计研究的七七八八了，对于自己想做一些项目中可以引入和学习。反正我不会，AI会就行了。反正我不学，AI学就行了。 😁

译该推文拆解了Claude Code的工作流。它是一个能后台运行、可监控的任务系统，包含三个核心角色：Claude负责拆解任务与规划，Runtime负责调度管理状态，每个AI智能体（agent）仅处理一个子任务，并通过并发池与队列推进。系统关键设计是“状态外置”，即中间结果由执行系统保存，主上下文只读取摘要，从而使其能扩展至大量智能体。推文认为这种智能规划、Runtime执行、状态独立、模型按需调度的模式，代表了一种新的工程编排方式，并可将其工作流转换为自有系统的可执行格式。

Berryxia.AI@berryxia · 6月2日32

今晚8点，可以去蹲宝玉老师的直播。直接手把手教学了，这种书实用性直接拉满。

译图灵社区将于北京时间今晚20:00举办一场关于Agent Skills的公开课。分享者为@dotey，内容包括其制作Skill的实操经验与心得体会，并介绍其新书《图解Skill: AI提效实战指南》。主推文指出这场直播将直接进行教学，书籍的实用性很高。

Alibaba Cloud@alibaba_cloud · 6月2日82

👏👏 Introducing Qwen3.7-Plus — a multimodal agent model that unifies vision and language into one versatile agent foundation. ✅ Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks ✅ Versatile coding agent & productivity assistant with full-modality input ✅ Visual Agent: perception, reasoning, grounding, and search-augmented QA ✅ Cross-harness generalization across diverse agent frameworks One model. Sees, thinks, codes, acts.🙌🙌 Now available via API on Alibaba Cloud Model Studio. Try it — let us know what you build.😎 🔗🔗⬇️⬇️ Blog：https://qwen.ai/blog?id=qwen3.7-plus Qwen Studio：https://int.alibabacloud.com/m/1000413837/ API：https://int.alibabacloud.com/m/1000413829/

译阿里云推出Qwen3.7-Plus，这是一个统一视觉与语言的多模态智能体模型。其定位为多功能编码智能体与生产力助手，支持全模态输入，能够跨GUI与CLI执行任务。该模型具备视觉智能体能力，涵盖感知、推理、定位及搜索增强问答，并能跨多种智能体框架泛化。目前已在阿里云百炼平台通过API上线。

meng shao@shao__meng · 6月2日54

$10K Cursor Credits 到期了，很想念它 😄 5月放开用 Cursor，差不多用了 $2K，大致整理了 Cursor 使用体验： · 100% 时间都在用 Agent Windows，传统 IDE 界面没打开过 · 多模型切换用的很少，有🪜时用 GPT-5.5 多，没🪜时用 Composer 2.5 多，Composer 2.5 Fast 模式确实块，而且它很喜欢输出 Diagram 流程图 · Context 使用明细确实方便 · Cursor 的 Agent 输出界面默认不是 Markdown，也不支持拷贝为 Markdown，这一点有点不方便，我基本都要指定它输出到 Markdown 文件中 · Agent 界面右侧的扩展窗口比较好用，Terminal、Browser、File 和 Canvas 都有各自用处最后的最后，还有一个小惊喜，5月份除了送 $10K Credits，还送了两个月 Ultra 订阅吗？

译用户邵猛在获得 Cursor 团队赠送的 $10K 额度及两个月 Ultra 订阅后，实际使用了约 $2 千美元。其使用体验显示，100% 的时间都在使用 Agent Windows 模式，很少进行多模型切换。模型选择上，有外网访问时偏好 GPT-5.5，否则常用 Composer 2.5，因其 Fast 模式速度快且喜欢输出 Diagram 流程图。优点在于 Context 使用明细清晰，但 Agent 输出界面默认非 Markdown 且不支持拷贝为 Markdown。此外，Agent 界面右侧的扩展窗口（Terminal、Browser、File、Canvas）被认为比较实用。

meng shao@shao__meng · 6月2日64

Lee Robinson 分享了四条「Agent 友好型代码库」原则：把信息放进代码、让 Agent 能自检、能查文档、能自动化巡检一、源码必须是真相，或有一条 Agent 能走通的路径内容要么在代码里，要么通过 MCP / CLI / Skill 让 Agent 能读到。 @leerob 用 Cursor 官网从 CMS 迁回 Markdown + 代码的案例说明——问题不是 CMS 本身，而是抽象层在 Agent 时代成本极高。官网迁回后的好处： · 统一用 Git · PR 链接即可分享 · 源码 + 编译/AI 翻译 · 对象存储 + 自研小工具 · 内容直接可见、可改实践含义：若保留 CMS / 数据库 / 配置中心，必须为 Agent 补一条可编程访问路径（MCP 读内容、CLI 导出、Skill 描述工作流），否则 Agent 只能猜，或依赖你口述。二、Agent 必须能验证自己的工作类型系统、快而好的测试、配置完善的 Linter。 Agent 会犯错；没有反馈闭环，错误只能等人眼发现。验证机制是 Agent 的感官系统： · 类型：编译期约束，减少「看起来对、跑起来错」 · 测试：可执行的规格说明；快 = Agent 能频繁试、频繁改 · Linter：风格与常见错误的自动守门员三点都指向同一目标——让机器能独立判断「改对了没有」。Lee 在 CMS 迁移里用 @ browser 截图对比本地与生产，也是同一思路：用可观测结果验证，而非凭感觉。实践含义：若测试慢、 flaky、或无类型，Agent 的迭代会停在「 plausible 但未经检验」；投资验证基础设施，等于投资 Agent 产能。三、精简有效的 AGENTS.md 每轮对话都带上；写该写的，别写模型已知的常识。 AGENTS.md 是人类给 Agent 的压缩上下文，不是百科全书。模型已具备通用知识（测试常在 tests/、用 npm test 等），重复只会占 token、稀释重点。更值得写的是： · 项目特有的架构决策、命名约定、禁区 · 「非显而易见」的入口（例如内容其实在某 CMS，需用某 CLI） · 提交/部署/分支策略等团队规则 Lee 还强调：用 Agent 在仓库里找东西，看能否按预期找到；若 Agent 总找不到 utils/helpers/misc.ts 这类路径，说明命名/结构需要为人和 Agent 共同 refactor。好 AGENTS.md 像入职第一天老员工口头交代的那几件事，不是 README 复读。定期让 Agent 做「找 X、改 Y」的探路，是检验文档是否有效的低成本方法。四、自动化：让代码库在后台自我改进自动 refactor 建议、安全扫描、可选的持续文档化——「睡着也在变好的代码库」。 Cursor 安全 Agent 博客给出了可落地的形态： · Agentic Security Review：PR 级安全审查，可阻断 CI · Vuln Hunter：扫存量代码漏洞 · Anybump：依赖漏洞自动打补丁 + 跑测试 + 开 PR · Invariant Sentinel：每日检查安全/合规不变量是否漂移共同架构：Webhook / PR 事件触发 → Cloud Agent + MCP 存状态、去重、统一输出 → Slack / PR 评论闭环。这不是替代人工 Code Review，而是在 PR 量放大 5x 时补 coverage 和 consistency。静态分析 + CODEOWNERS 仍有用，但挡不住规模；Agent 自动化适合重复、有规则、可验证的任务（安全、依赖、文档漂移）。实践含义：从一条自动化开始（例如 PR 安全评论），验证噪音/召回后再加阻断、再扩到存量扫描；和第三条一样，验证机制越成熟，自动化越敢放权。总结：四条原则的关系 1 可读的真相源 -> Agent 能读能改 -> 2 可验证 -> Agent 能自检 -> 3 AGENTS.md 补缺口 -> 4 自动化放大 -> 代码库持续变好 · 可读真相 — Agent 有材料可工作 · 可验证 — Agent 有标准判对错 · AGENTS.md — 补代码里写不下的上下文 · 自动化 — 把 1–3 固化成 24/7 流程 Lee 的 CMS 迁移（$260、344 次 Agent 请求、3 天完成）说明：在 Agent 时代，删复杂度、把信息拉回代码，ROI 可以量化。四条原则本质是同一策略——降低 Agent 的认知与验证成本，把 token 和人力花在产品价值上，而不是和抽象层搏斗。

译Lee Robinson 分享了四条构建适合AI智能体的代码库的原则：1. 源码应为真相或提供可读路径（如将内容从CMS迁移回代码）；2. 智能体需能通过类型系统、测试和Linter验证工作；3. 维护精简有效的AGENTS.md文件，提供项目特有上下文；4. 设置自动化流程（如安全扫描）持续改进。他以Cursor官网迁移为例，该过程耗时3天，消耗344次Agent请求，花费$260，证明降低抽象层成本能带来可量化的投资回报。

meng shao@shao__meng · 6月2日78

Claude Code 核心开发者 @trq212 分享了一段高价值「人机结对编程中的 “理解验证” 工作流」通过这份工作流 Skill，让 Coding Agent 结束工作时，人类对问题、方案和影响都有可复述、可辩护的掌握，一起拆解看看。 https://gist.github.com/ThariqS/1389dcdff9eba4789887a2211370f06b 核心定位：AI 扮演「高效且睿智的教师」成功标准不只是「任务完成」，更要看人类是否真正理解整场会话，与常见 agent 模式的差异： · 每步增量教学，过关才进入下一阶段 · 先让用户复述，再补缺口 · 清单 + 测验 + 演示理解才算结束三条理解轴（清单应覆盖） 1. 问题域 · 是什么问题 · 为何会出现（根因、历史、分支路径） · 曾有哪些取舍路线 2. 方案域 · 做了什么、为何这样解 · 设计决策与 trade-off · 边界情况与失败模式 3. 语境域 · 改动在系统/业务里意味着什么 · 会影响谁、什么流程、什么风险反复追问 why → 更深层的 why，同时覆盖 what / how。强调：问题理解不到位，方案理解往往是假的。操作流程（可执行的节拍） 1. 做完一小步只推进一个可验收的小单元（例如：定位根因、选定方案、改一处逻辑），不要一口气跨多个阶段。 2. 先让用户复述在进入下一步之前，请用户用自己的话说明：这一步在解决什么、为什么这样做、还有什么不确定。这是诊断，不是考试前的泄题。 3. 按缺口补课根据复述找空洞：补动机、补业务逻辑、补边界与分支；可按需要切换抽象层级（例如 ELI5 / ELI14 /「像实习生那样讲」）。 4. 小范围验证用开放题或多选题检查是否真懂；若用选择题，打乱正确选项顺序，且在用户提交答案之前不公布对错。 5. 过关才前进同一阶段需在高层（为何要做）和低层（怎么做、边界在哪）都确认后，才进入下一阶段。 6. 同步更新清单在 running 的 Markdown 里勾选或补充：问题 / 方案 / 语境三个维度下，用户应掌握的具体条目。 7. 必要时绑到真实材料理解若依赖实现细节，贴相关代码片段，或一起用调试器走一遍，避免「听懂了但对着 diff 仍说不清」。 8. 收工条件会话结束前，清单上的每一项都需用户表现出已掌握（能复述、能答题、能解释 trade-off），而不是由 agent 单方面总结一句「你应该懂了」。设计意图（为啥在 Anthropic 内部被推崇） · 对抗「智能体黑箱」：长会话里人类容易变成审批按钮；增量确认把认知负荷摊到全程。 · 把 tacit knowledge 外显化：分支、否决方案、边缘 case 往往只存在于 agent 上下文里，清单强制沉淀。 · 可审计的学习：对团队负责人或后来的自己，「当时为什么这么改」有迹可循。 · 与产品风险对齐：懂 impact 才谈得上 responsible shipping，而不只是 merge。实操要点（落地时注意） · 清单是活文档：随会话演进增删项，不是一次性大纲。 · 测验要变式：避免背答案；多选题需轮换正确选项位置。 · 层级要交替：同一主题在动机 <-> 实现 <-> 边界之间切换，防止只会背概念或只会跟 diff。 · 会话可拉长：这是刻意的——深度理解优先于速度。

译Anthropic 核心开发者分享了一套用于 Claude Code 的「理解验证」工作流。该工作流将 AI 定位为“高效且睿智的教师”，成功标准不仅是完成任务，更是确保人类对问题、方案及影响有可复述、可辩护的掌握。它通过增量教学、用户复述、清单+测验等方式，围绕问题域、方案域和语境域三条轴线展开，具体包含8个可执行步骤，强调在进入下一阶段前需确认用户已真正理解。此工作流旨在对抗长会话中人类易沦为“审批按钮”的“智能体黑箱”问题，强制沉淀决策上下文，实现可审计的深度理解。

宝玉@dotey · 6月2日54

北京时间今晚 20:00 在图灵社区直播间有一场 Agent Skills 的公开课，分享我做 Skill 的实操经验和心得体会，以及聊聊我的新书《图解Skill: Al 提效实战指南》，有需要 Al 提效的朋友可以预约一下，咱们晚八点见。

译宝玉（@dotey）宣布将于北京时间当晚20:00在图灵社区直播间举办公开课，主题为 Agent Skills。他将分享自己制作 Skill 的实操经验和心得体会，并介绍新书《图解Skill: AI提效实战指南》。

凡人小北@frxiaobei · 6月2日67

Codex 正在变成 Agent 的默认 Runtime。 codex 其实还同时有 typescript sdk。如果你要搭建一个 agent，技术栈可以是： typescript + codex + cc-switch

ginobefun@hongming731 · 6月2日71

http://x.com/i/article/2061582822029283328 # BestBlogs 早报 · 06-02｜MiniMax M3、AI Coding 规范、视频 Agent 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-02 ## 导语 AI 能力边界在这个夏天被连续刷新。今天的早报围绕三条主线展开：MiniMax M3 作为国内首个集前沿 Coding、1M 超长上下文与原生多模态于一体的开源模型正式亮相，24 小时自主完成 CUDA 算子优化的实测让 benchmark 数字有了具体重量；Chromium 3500 万行代码库的 AI Coding 规范体系，展示了工程团队如何把 AI 工具真正制度化；xAI 的 Ethan He 则给出一个更深的判断——视频模型的智能上限跟着 LLM 走，下一个前沿不是更好的视频，而是视频 Agent。速览部分覆盖了语音智能体工程化实践、AI Friendly 架构设计、英伟达 Agent 工厂全栈发布、RAG 工程化认知纠偏、Rippling 生产级多智能体落地，以及吴恩达对 AI 工程师角色演化的判断，还有 MiniMax 自身作为 AI Native 公司的组织实践分享。 ## 精讲一：MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你 MiniMax M3 于今日正式发布，是目前国内第一个同时具备前沿 Coding 能力、1M 超长上下文与原生多模态的开源模型。三项能力的意义在此之前，这三项能力是海外闭源前沿模型（如 GPT-5.5、Gemini 3.1 Pro、Claude Opus）的专属标配。M3 是国内首个将这三者同时开源的模型，也是目前全球唯一的开源实现。 Coding 能力方面，M3 在 SWE-Bench Pro 上得分 59.0%，超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7；在面向自主 Agent 的端到端评测框架 Claw-Eval 上取得最高分。值得关注的不只是数字本身，而是 M3 背后训练方式的转变：团队构建了交互式用户模拟器框架，让模型在训练阶段就接触到需求澄清、方案讨论、多轮迭代等真实开发场景，而非单轮任务假设。 MSA：把长上下文真正变成可 Scale 的维度 1M 上下文并非只是参数设置——它需要底层注意力机制的彻底重构。M3 自研的 MSA（MiniMax Sparse Attention）是一种全新稀疏注意力架构，通过精确的 KV 分块和 KV outer gather Q 算子优化，在 100 万上下文下每 token 计算量仅为上代模型的 1/20，prefill 阶段加速 9 倍，decoding 阶段加速超过 15 倍。与全注意力相比，MSA 在多个对照实验中能力基本打平，却拥有硬件友好、易实现、真正可 scale 的特点。两个让人印象深刻的实测 CUDA 算子优化：给 M3 一份任务描述、一个 benchmark 脚本、一个不能直接运行的 Triton 骨架，没有任何参考实现，要求在 NVIDIA Hopper 架构 GPU 上优化 FP8 GEMM kernel。在约 24 小时的连续执行中，M3 完成了 147 次 benchmark 提交、1959 次工具调用，将 Hopper FP8 硬件峰值利用率从 7.6% 推进至 71.3%，实现 9.4× 加速。最优解出现在第 145 次提交——在多个性能平台期后模型仍未放弃，这种长程自主迭代能力是最直接的实证。让 M3 「训」模型：给 M3 四个仅完成预训练的 Base 模型，在 12 小时内自主完成数据合成、训练、评测、迭代全流程，目标是让这些模型在数学推理、工具调用、代码生成等任务上具备基本能力。任务开放度远高于 CUDA 优化——没有明确的反馈结构，M3 需要自主判断研究方向。最终结果显示，M3 在 PostTrainBench 的表现显著优于对比模型，验证了其在开放研究任务中的长程规划能力。原生多模态：从 Step 0 开始的混合训练 M3 从训练第一步就采用多模态混合训练，而非事后拼接。团队发现 Interleaved data（交错数据）对模型性能的提升远比通常认为的更关键，在数据管线重构后，训练数据 Token 规模已可提升至 100 万亿量级。在论文复现实测中，M3 通过多模态能力读懂论文图表、通过长上下文将论文+代码+实验日志一次性进窗口、通过编程+Agent 能力长线程完成复现——三项能力协同，体现了原生多模态路线的价值。为什么值得关注 M3 的意义不只是 benchmark 上的数字超越，而是三项能力的同时开源——这意味着研究者和开发者现在可以基于一个真正具备长上下文、强 Coding、原生多模态的开源基座来构建应用。在 API 成本、可定制性、数据隐私等方面，开源的 M3 为从业者提供了此前不存在的选择。延伸阅读：配合今天速览中的「MiniMax 的 AI Native 组织进化实践」，可以看到 M3 背后这家公司是如何从第一天就把 AI 作为组织运转基础来设计的。 ## 精讲二：深入解析 Chromium 的 AI Coding 开发体系 Chromium 的 AI Coding 开发体系这篇文章来自 QQ 浏览器团队，对 Chromium（3500 万行代码）的 agents/ 目录做了深度解析，呈现了目前见到的最完整的大型工程团队 AI Coding 规范实践。为什么 Chromium 的经验值得认真对待 3500 万行 C++ 代码库、全球数千名贡献者、同时支持 Gemini CLI、Claude Code、GitHub Copilot 三种 AI 工具——这个规模决定了 Chromium 团队不可能靠「提示词技巧」来管理 AI Coding。他们必须把 AI 工具系统化、制度化，构建可以跨工具复用、可以随项目规模扩展的基础设施。四层分层提示词体系 Chromium 没有使用单体提示词，而是设计了四层架构：第一层（common.minimal.md）是核心指令，定义构建规则、测试方式、编码规范（Stay on task，不修无关 TODO；注释只写「为什么」不写「做了什么」）和 JNI 识别规则；第二层（common.md）是 8 步标准编辑工作流，强制 AI 在写任何代码前先完整阅读相关文件并向开发者确认理解；第三层是平台模板（desktop/android/ios/rust），开发者按平台组合；第四层是一次性任务提示词。开发者在本地创建 GEMINI.md，通过 @ 引用组合不同层级，脚本递归展开后形成完整 system instruction 注入 AI——用户不可见，每次对话隐式生效。这种分层设计的核心价值在于：每一层关注点分离，底层约束稳定，上层可以灵活组合。新成员只需要遵循标准配置，无需理解整套体系就能获得符合项目规范的 AI 辅助。 18+ 个可复用技能系统 skills/ 目录下有超过 18 个按需激活的技能，涵盖代码审查、依赖分析、性能剖析、安全扫描、文档生成等场景。每个 skill 是独立的提示词模块，可以跨 AI 工具复用，开发者通过 /skill-name 命令按需激活。技能系统的意义在于把「最佳实践」从个人经验转化为可分发的工具——任何开发者都可以用 /cr:review 触发符合 Chromium 标准的代码审查流程，不依赖个人对 AI 提示词的了解程度。三层 Agentic 工作流编排 projects/ 目录记录了 AI 驱动的大型自动化项目，比如大规模代码迁移、自动化重构。这些项目通过三层编排：任务分解层（把大任务拆成可验证的子任务）、执行层（AI Agent 执行并提交 benchmark 反馈）、验证层（自动运行预提交检查，确保每步改动可追溯）。 AI 使用政策：制度化的责任边界 ai_policy.md 是整个体系的底层约束，核心规则清晰： - 自审义务：作者必须在发送 Review 前自行审查并理解所有代码；提交不理解的代码将被剥夺 Committer 权限，再犯封禁账号 - 原创声明：无论是否使用 AI，作者必须声明代码为自己的原创作品 - 人类回复人类：AI Agent 创建的 CL 或 Bug 收到人类反馈后，必须由人类操作者亲自回复这套政策的核心判断是：AI 是辅助工具，不是责任主体。一旦「AI 写的，我没仔细看」成为推卸责任的理由，代码库的信任基础就会崩塌。Chromium 选择在制度层面封堵这个口子。 eval 评估体系与 knowledge base 除了提示词和技能系统，Chromium 还建立了评估体系（eval/ 目录下有 15+ 个测试场景）和知识库（knowledge_base.md，供 AI 引用 Chromium 项目规范和历史决策）。评估体系的存在意味着提示词的迭代是可量化的——修改 common.md 的某一步骤时，可以通过 eval 用例验证改动是否导致 AI 行为退化。这种「提示词也要有测试」的思路，是成熟工程团队 AI Coding 规范化的重要标志。对工程团队的实践启示 Chromium 的体系提供了一个可以按规模裁剪的参考模板：小团队可以从 common.minimal.md 和 ai_policy.md 开始，建立最基础的责任边界和工作流规范；中大型团队可以逐步引入技能系统和平台模板；只有规模达到需要大规模自动化的团队，才需要考虑 projects/ 层的编排体系。关键在于，Chromium 的每一层设计背后都有明确的「为什么」——不是为了用 AI 而用 AI，而是为了解决具体的工程问题（减少 AI 幻觉、保证代码可追溯、让最佳实践可分发）。这个「为什么」比具体的实现细节更有参考价值。对于正在推进团队 AI Coding 规范化的负责人，这篇文章是目前最值得精读的外部参考之一。 ## 精讲三：为什么视频智能体模型是下一个前沿——Ethan He，xAI Grok Imagine 负责人这篇 Latent Space 访谈的核心是 xAI Grok Imagine 负责人 Ethan He 的一个反直觉判断：视频模型的智能主要来自 LLM，而非视频训练数据本身。反直觉的核心论点通常的直觉是：要让视频生成更好，就需要更多、更好的视频数据，以及更好的视频专用架构。Ethan He 的判断与此相反——视频模型的能力上限，实际上跟着底层 LLM 走。当 LLM 的推理、规划、语义理解能力提升时，视频生成质量会随之提升；反之，单纯增加视频数据的边际收益是递减的。这个判断的实践意义：视频生成领域的下一个突破点，不在于更好的扩散模型或更大的视频数据集，而在于更强的语言模型基座。从单次输出到视频 Agent Ethan He 把视频生成的演进类比 AI Coding 的演进路径：Coding 从「一次性输出代码」进化到了能规划、编辑、测试、调试、提 PR 的 Agent 系统，背后的关键不只是模型能力提升，而是编排系统的进化。视频生成正走向同样的路径——下一个 Sora 不会是「更好的视频模型」，而是「视频 Agent」：一个能规划、生成、编辑、批评、迭代，跨越完整创作任务的系统。 Grok Imagine 的 Agent 模式（Beta）已经在验证这条路径：用户输入创作意图，系统规划 → 生成 → 编辑 → 迭代，在同一个无限画布上自动完成。这与传统的「输入 prompt → 输出视频」范式有本质区别——用户在描述目标，而非描述过程。构建前沿视频系统的工程现实访谈中 Ethan He 分享了一些实际的工程经验，值得关注：迭代速度是最关键的变量，超过几乎所有其他因素。xAI 团队在三个月内从零到一构建出 Grok Imagine 首个多模态视频模型，核心是极快的实验周期。许多最重要的改进来自修复数据和训练流水线中的小 bug，而非架构创新。视频数据集的存储和移动成本是隐性的重大瓶颈。与文本数据不同，大规模视频数据集的 I/O 成本往往超过计算成本，这影响了迭代速度和实验设计。 VAE（变分自编码器）质量对最终视频质量的影响被严重低估。大多数关于视频生成的讨论集中在扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。音视频对齐是目前最难的工程问题之一。人对音画同步的敏感度远高于对视频质量的敏感度——轻微的音画不同步会立即破坏沉浸感，而视觉质量的小幅下降用户往往感知不到。更远的视野：生成式 UI 与世界模型 Ethan He 的判断不止于视频 Agent。他认为生成式 UI 最终可能替代 HTML/CSS——当 AI 能够实时生成符合语义的界面，而非渲染预定义的组件，应用的交互范式将发生根本性改变。世界模型的真正价值需要三个要素同时具备：实时性（低延迟响应）、交互性（能够响应用户行为并持续更新状态）、长时域（在长达数小时或数天的任务周期内保持一致性）。目前的视频生成模型在这三点上都有明显缺口，但这也定义了未来几年值得投入的方向。构建视频系统的数据与基础设施挑战访谈中 Ethan He 特别强调了两个常被忽视的工程约束。其一是视频数据集的存储和移动成本——与文本数据集不同，大规模视频数据的 I/O 成本往往超过计算成本本身，这直接影响实验迭代速度。其二是 VAE（变分自编码器）的质量对最终视频质量的影响被严重低估。大多数讨论聚焦于扩散模型架构，但 VAE 压缩引入的信息损失会贯穿整个生成过程，是难以在后期弥补的底层约束。了解这些工程现实，有助于更准确地判断视频 AI 创业公司的技术路线和壁垒。与今天其他文章的关联 Ethan He 关于「Coding AI Agent 路径」的类比，与精讲二中 Chromium 的三层 Agentic 工作流编排形成呼应——一个是理论判断，一个是已经在 3500 万行代码库上运行的实践。两者合起来，勾勒出 Agent 系统从 Coding 扩展到视频创作的共同演进逻辑。同时，精讲一中 MiniMax M3 原生多模态的发布，也印证了 Ethan He 「视频能力跟着语言模型走」的核心判断——当底层语言模型的能力跃升，多模态和视频生成的上限也随之抬升。 ## 速览工程化语音智能体：低延迟、高质量与规模化生产实践（AI Engineer） Together AI 语音 AI 团队负责人 Rishabh Bhargava 系统讲解了生产级语音智能体的工程挑战。核心约束是亚秒级延迟预算——人类对话响应约 300ms，超过 500ms 就会感知到停顿，超过 1-2 秒用户参与度直接下降。实现低延迟需要 STT-LLM-TTS 级联流水线、基础设施共址、guardrails 等多项措施协同。文章还覆盖了向原生 speech-to-speech 系统的迁移路径，以及千路并发流时的规模化挑战。对正在构建语音交互产品的工程师极具参考价值。面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？（大淘宝技术）来自淘宝营销业务的万字实战总结，系统阐述传统工程架构向 AI Friendly 架构演进的三范式：确定性→概率性（将输出收敛至安全区间）、结构化→语义化（基于意图而非格式响应）、静态→动态（从规则转向规划）。结合淘宝秒杀业务中 AI 审核与答疑系统的实战经验——AI 审核准确率 95.7%，AI 答疑系统问题解决准确率超 98%，效率提升 80% 以上。文章对 Multi-Agent 系统、Context Engineering、AI Friendly API 设计和 AI 可观测体系均有具体实现讲解，是目前国内最详尽的 AI 架构演进实战资料之一。黄仁勋的「Agent 工厂」里，装了什么新故事？（腾讯科技）英伟达在 COMPUTEX 2026 上宣布 Vera Rubin 平台正式量产，Vera CPU 开始全球交付。相比三个月前强调「算力全家桶」，这次黄仁勋把重点转向 Agent 工作负载：Vera Rubin 在同等规模数据中心内运行 Agent 任务的效率是上代 Grace Blackwell 的 10 倍；DSX 成为 AI 工厂的运营操作系统；Cosmos 3 重构物理 AI 感知框架；联合宇树发布 H2 Plus 人形机器人参考设计。英伟达正在从「卖算力」转向「卖完整的 Agent 基础设施」，这一战略转向值得持续跟踪。 RAG 不是机器学习，ML 工具包解决的是错误的问题（Towards Data Science）一篇观点鲜明的认知纠偏文章。作者举了一个典型案例：一个团队花了六个月跑 Optuna 超参数搜索、加自定义 reranker、微调 embedding 模型，生产准确率始终不动——最终发现问题在 parser。RAG 系统的本质是搜索和工程问题，不是机器学习问题。把超参数优化、训练/测试评估等 ML 工具引入 RAG，会选错指标、雇错人、掩盖真正的失败模式（解析错误、分块问题、检索召回率低）。这个判断对正在构建企业知识库的团队有直接警示意义。 Rippling 如何在 6 个月内借助 Deep Agents 和 LangSmith 构建生产级 AI（LangChain Blog） Rippling 是覆盖 HR、IT、薪酬、财务、全球运营的工作力管理平台，数据模型跨数千张表、数十万字段，概念在不同领域间还会重名。他们用 LangChain Deep Agents 和 LangSmith 在 6 个月内构建了生产级多智能体 AI 系统：一个 supervisor agent 协调 read、RAG、action 三类专业子 agent，通过 traces、分层 eval 和半自动自愈循环来保证质量。这个案例展示了「大型本体上的跨域推理」这一典型企业 AI 难题的实际解法，对构建复杂 B2B AI 系统的团队有直接参考价值。 AI 现场部署工程师的崛起与 AI 工程角色的未来（Andrew Ng）吴恩达分析了一个正在复兴的角色：AI 现场部署工程师（Field Deployment Engineer），深入客户组织内部为其定制 AI 解决方案（如 Agent 工作流）。这个角色在 Palantir 二十年前就有，因为定制化 LLM 的复杂性而再度走热。吴恩达的判断是：FDE 虽有价值，但通用 AI 工程师的岗位数量将远超前者，因为公司更倾向于让自有员工构建和维护 AI 系统（供应商绑定是风险）。他预测 AI 工程师角色最终会像软件工程一样分化出 LLMOps、评估工程师等专业方向，但目前通用型需求依然旺盛。从 Token 无上限到全员 Agent：MiniMax 的 AI Native 组织进化实践（量子位） MiniMax ToB 中国区商业化负责人胡维琦在 2026 中国 AIGC 产业峰会的演讲整理。核心观点：AI Native 公司首先要在内部实现闭环，不要吝啬 Token 补贴，让员工自己用 Agent 搭建自动化工作流，这个使用过程会反哺模型研发。几个具体实践：从「人类最不愿意干的高价值场景」切入推进阻力最小；AI 的广泛使用会让组织更加扁平，Token 消耗量正在成为衡量效率的新指标；未来 2-3 年 AI 将深度改变商业模式甚至组织构成。配合精讲一的 M3 发布来看，可以理解 MiniMax 的「用 M3 训 M3」实验背后的组织逻辑。 ## 补充阅读今日候选池中还有以下内容值得关注，按兴趣选读： - 打破「人月神话」，Agent 重塑风控场景产运研职能：快手风控技术负责人在 QCon 的演讲实录，系统讲解如何通过 Agent 和 AI 原生转型重塑产品、运营、研发三大职能的角色与协作模式。风控场景是 AI 落地难度较高的领域，实战参考价值高。适合风控、安全和大型平台工程师阅读。 - 扣子 3.0 正式上线：新一代 AI 团队，从扣子开始：扣子 3.0 通过项目空间、多端协同和技能商店，将 Agent 从单点工具升级为可协作的 AI 团队。值得观察产品形态的演进方向——从单 Agent 工具到 Agent 团队协作平台，这是当前市场的主流趋势之一。适合关注 Agent 产品形态演进的产品经理和开发者。 - 一个理想的组织，是 AI Agent 在组织人：ColaOS 创始人橘子的深度访谈，探讨 AI Agent 如何从产品、组织到商业模式重写创业逻辑。「理想组织是 Agent 在组织人」这个前瞻观点值得创业者和管理者深思。对 AI 时代组织设计感兴趣的读者推荐精读。 - 智能体引擎优化（AEO）：当 AI 成为你文档的头号读者：系统阐述 AEO（Agent Engine Optimization）这一新兴学科，为开发者提供让文档对 AI 编程智能体可发现、可解析且 token 高效的分层实操框架。如果你在维护开源项目或 SDK 文档，这篇文章有直接实用价值，值得收藏备查。 - 材料版 AlphaFold 来了！40 个工业任务全方位 SOTA，AI4S 迎来行业大突破：深度原理发布材料基座模型 MPA，借鉴 LLM 三阶段训练方法并引入物理对齐机制，在 40 个真实工业任务上取得 SOTA。AI for Science 领域的进展值得持续关注，对材料科学、化学、生物等领域的从业者有直接参考意义。 - 别光给 Agent 加 Tool 了，它根本选不明白！复旦×通义提出全新 CUA 训练范式：复旦与通义联合提出 ToolCUA 训练范式，通过分阶段训练解决 Computer Use Agent 在 GUI 与工具混合动作空间中的路径选择难题，在 OSWorld-MCP 上以 8B 模型超越 Claude-4-Sonnet。关注 Computer Use Agent 和 GUI 自动化的工程师推荐阅读。 ## 今日阅读路径如果你只有 30 分钟，优先读这三篇：第一篇：MiniMax M3 发布文章（链接）了解国内首个同时开源三项前沿能力的模型。重点看 CUDA 算子优化和「让 M3 训模型」两个实测案例，比 benchmark 数字更能说明 M3 的实际能力边界。预计阅读时间 15 分钟。第二篇：Chromium AI Coding 体系解析（链接）即使你不用 Chromium，这篇文章提供了一个大型工程团队如何制度化 AI Coding 的完整参考。四层提示词体系和 AI 使用政策两节最值得精读。预计阅读时间 10 分钟。第三篇：视频 Agent 前沿访谈（链接） Ethan He 关于「视频智能主要来自 LLM」的核心论点，以及视频 Agent vs 视频模型的演进类比，是理解下一阶段视频 AI 方向的重要参考。可以只读前三分之一。预计阅读时间 10 分钟。如果你有更多时间，速览部分的「AI Friendly 架构」和「RAG 不是机器学习」两篇是工程实践质量最高的文章，适合做系统性阅读。

译本期早报聚焦三个主题。核心是 MiniMax 发布其开源模型 M3，这是国内首个同时具备前沿 Coding 能力、1M 超长上下文和原生多模态的模型。M3 在 SWE-Bench Pro 上得分 59.0%，其自研 MSA 稀疏注意力架构显著降低了长上下文计算开销。实测中，M3 可在 24 小时内自主完成 CUDA 算子优化。此外，早报还简述了 Chromium 项目对 AI Coding 的规范化实践，以及 xAI 工程师关于视频 Agent 发展前景的观点。

Alibaba Cloud@alibaba_cloud · 6月2日83

👏👏 Introducing Qwen3.7-Plus — a multimodal agent model that unifies vision and language into one versatile agent foundation. ✅ Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks ✅ Versatile coding agent & productivity assistant with full-modality input ✅ Visual Agent: perception, reasoning, grounding, and search-augmented QA ✅ Cross-harness generalization across diverse agent frameworks One model. Sees, thinks, codes, acts.🙌🙌 Now available via API on Alibaba Cloud Model Studio. Try it — let us know what you build.😎 🔗🔗⬇️⬇️ Blog：https://qwen.ai/blog?id=qwen3.7-plus Qwen Studio：https://chat.qwen.ai/?models=qwen3.7-plus API：https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-plus&serviceSite=international

译阿里云发布了 Qwen3.7-Plus，这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础，支持图形界面与命令行操作，能够处理视觉和文本任务，充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答，并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。

🚨 AI News | TestingCatalog@testingcatalog · 6月2日66

Google AI Studio Build now supports many new integrations with Google services such as Gmail, Calendar, and Sheets, enabling users to vibe code apps that dynamically fetch relevant context.

译Google AI Studio Build 现在支持与 Gmail、日历和表格等 Google 服务进行多项新集成，使用户能够通过 vibe code 构建动态获取相关上下文的应用程序。

宝玉@dotey · 6月2日61

Cursor 在为用户增加使用额度。最近我重度使用了 Cursor 的 Agent，效果相当不错。我常用的 GUI Agent 里面，Codex App > Cursor > Claude Desktop。几个亮点： 1. 它的 multitask 模式可以开启多个后台任务并行，速度很不错。 2. 它可以灵活选择各种模型，不像 Codex 和 Claude Code 只能选择自家模型，composer 2.5 在普通任务上的能力和速度都还可以 3. Plan 模式比较详细，列有详细的 Steps，配合 multitask 模式通常效果很稳定不足之处：还不支持 /goal、手机版还没有类似于 Codex 的 Chrome use + Computer use 的调试功能，只有内置浏览器的调试

译Cursor 宣布提升所有团队用户使用额度，并推出 Premium 团队席位。用户反馈其 Agent 模式效果好，支持多任务并行、灵活选择各类模型，且 Plan 模式步骤详细。对比中，用户认为其表现优于 Claude Desktop，略低于 Codex App。当前不足包括不支持 /goal 与手机版，且调试功能仅限内置浏览器。

Google AI Developers@googleaidevs · 6月2日54

From Google I/O to building real world solutions in one weekend. Always inspired by the energy of this community!

译在Google I/O大会后，开发者社区与Google DeepMind在旧金山合作，利用最新的Gemini和Gemma能力（特别是Gemini 3.5 Flash）构建实际产品。活动展示了利用Gemini 3.5 Flash开发多模态智能体、语音接口和长期推理系统等应用的可能性。

宝玉@dotey · 6月2日58

It would be great if AI agents like Codex and Cursor could expose an API to web views. This would allow a webpage opened in the right pane to send prompts (including text and images) directly back to the agent. For instance, if I build a webpage similar to Claude Design, I could add an in-page input box. When a user enters a prompt and clicks "send", the webpage would call an API like "window.codex.sendPrompt(text, attachments)" to push that content straight into the chat interface on the left. This would enable much deeper interaction between the agent and the webpage, unlocking a lot more possibilities. cc @thsottiaux @jxnlco @Dimillian

译推文建议，Codex、Cursor等AI智能体应提供API接口，允许右侧面板的网页视图直接向智能体发送包含文本和附件的提示词。例如，用户可构建类似Claude Design的网页，通过调用"window.codex.sendPrompt(text, attachments)"等API，将输入内容直接推送到左侧聊天界面。此举旨在实现智能体与网页间更深层的交互，从而解锁更多可能性。

宝玉@dotey · 6月2日59

Cursor 在为用户增加使用额度。最近我重度使用了 Cursor 的 Agent，效果相当不错。我常用的 GUI Agent 里面，Codex App > Cursor > Claude Desktop。几个亮点： 1. 它的 multitask 模式可以开启多个后台任务并行，速度很不错。 2. 它可以灵活选择各种模型，不像 Codex 和 Claude Code 只能选择自家模型，composer 2.5 在普通任务上的能力和速度都还可以 3. Plan 模式比较详细，理由详细的 Steps，配合 multitask 模式通常效果很稳定不足之处：还不支持 /goal、手机版还没有类似于 Codex 的 Chrome use + Computer use 的调试功能，只有内置浏览器的调试

译Cursor 宣布为所有 Teams 用户提升使用额度，并受其 Ultra 计划启发，将推出一个提供 5 倍用量、价格 3 倍的 Premium 团队席位。有用户分享了重度使用其 Agent 的体验，认为效果不错，亮点包括：可开启多任务并行的 multitask 模式、能灵活选择各种模型（如 composer 2.5），以及步骤详细的 Plan 模式配合使用效果稳定。目前不足之处是不支持 /goal、手机版，以及缺乏类似 Codex 的 Chrome use 和 Computer use 调试功能，仅有内置浏览器调试。

Logan Kilpatrick@OfficialLoganK · 6月2日79

We just shipped the ability to build apps that connect to Gmail, Drive, Sheets, and more directly inside of @GoogleAIStudio, no navigating to other sites, you can add testers right inside of AI Studio, with full public sharing coming soon!!

译我们刚刚上线了在 @GoogleAIStudio 内直接构建连接 Gmail、Drive、Sheets 等应用的功能，无需跳转其他网站，你可以直接在 AI Studio 内添加测试人员，完整的公开分享功能即将推出！！

OpenAI Developers@OpenAIDevs · 6月2日46

The votes are in. @isausmanov’s Agentic OS for a Phone is the Voice Hack Night People’s Choice winner. A voice-first mobile OS. Users talk, agents answer and take action across the phone. Congrats to the team on taking home $50,000 in API credits.

译投票结果已出。 @isausmanov 的手机智能体操作系统获得语音黑客松人民选择奖。一款语音优先的移动操作系统。用户说话，智能体响应并在手机上执行操作。祝贺团队赢得 50,000 美元 API 额度。

Lee Robinson@leerob · 6月2日71

Some tips to help agents understand your codebase: 1. The source code either needs to be the source of truth, or have something legible as a path to the source. For example, if marketing site content is actually stored in a CMS, you need to either delete the CMS and move that content into code, or make the CMS legible through and MCP, CLI, or skill: https://leerob.com/agents 2. Agents need to be able to verify their work. This includes but is not limited to: using a typed language, having high-quality and fast tests, having a well-configured linter: https://x.com/leerob/status/2026369424450523348 3. You need to have a concise and effective AGENTS.md file, which is included in every message to your agent. Models are quite good now, so some things you can omit as the models know them. You don’t need to say the tests live inside /tests for example. It’s worth asking the models to find things in your codebase and making sure they’re named what the models might expect, otherwise consider refactoring: https://cursor.com/learn/customizing-agents 4. Set up automations which give you suggestions for refactoring code, catching security issues which may have slipped through code review, and optionally continuous documentation of the codebase. You can effectively create a self-driving codebase which gets better while you sleep: https://cursor.com/blog/security-agents

译文章分享了四条让AI智能体有效理解代码库的实用建议。1. 确保源代码是唯一真实来源，或通过MCP、CLI等方式让外部内容对智能体可读。2. 智能体需具备自我验证能力，这依赖于使用类型语言、高质量测试和配置良好的linter。3. 编写简洁有效的AGENTS.md文件，并融入符合模型预期的直观命名，可借助Cursor等工具自定义智能体。4. 配置自动化流程，用于代码重构建议、安全问题检查和持续文档生成，以实现一个能自我改进的“自动驾驶”代码库。

Replit ⠕@Replit · 6月2日75

Can you build a real business for free with a single prompt? Starting today on Replit, the answer is yes. From a single prompt, get a website, mobile app, slide deck, and launch video. Plus unlock perks from @stripe @atlas, @QuickBooks, @mercury & @doolaHQ

译你能用单个提示词免费构建一个真正的业务吗？从今天起，在 Replit 上，答案是肯定的。从单个提示词开始，获得一个网站、移动应用、幻灯片和发布视频。此外，还能解锁来自 @stripe @atlas、@QuickBooks、@mercury 和 @doolaHQ 的福利。

Chubby♨️@kimmonismus · 6月2日66

God f*cking damn, i love it.

译我真他妈爱死这个了。

Chubby♨️@kimmonismus · 6月2日79

Qwen3.7 plus released. Looks good, but why do they compare their models to GPT-5.4 and Opus 4.6? Anyways, multimodal as well

译阿里云通义千问（Qwen3.7-Plus）正式发布。这是一个统一视觉与语言的多模态智能体基础模型，其核心功能包括：支持GUI与CLI操作的交互式混合智能体、全能编码助手与生产力工具、具备感知、推理、定位及搜索增强能力的视觉智能体，并可跨主流智能体框架泛化。该模型现已通过阿里云模型工作室提供API。发布推文中提到的与GPT-5.4及Opus 4.6的比较，在用户侧引发了对其对标产品的讨论。

Google AI Developers@googleaidevs · 6月2日68

From clutter to clarity. Watch parallel subagents in @Antigravity sort and rename hundreds of marketing assets, eliminating manual file management.

译从杂乱到清晰。观看 @Antigravity 中的并行子智能体对数百个营销资产进行分类和重命名，消除手动文件管理。

Rohan Paul@rohanpaul_ai · 6月2日68

"Every 10 seconds, global token demand is around 31.7 billion in 2026. By 2030 its 1.27 trillion, a 40x increase." ~ Qualcomm CEO Cristiano Amon: --- The token explosion is not mainly about smarter answers; it is about AI moving from human-paced interaction to Agent-paced activity. Once agents become persistent, the economy of AI stops will be the background infrastructure. Every useful action has a hidden bill: context must be carried, memory must be updated, sensors may need to be interpreted, and mistakes must be caught before they become expensive. ---- From "Reuters" YouTube channel, (link in comment)

译高通CEO Cristiano Amon预测，全球token需求到2026年每10秒将达317亿，到2030年将增至1.27万亿，实现40倍增长。他指出，这一增长主要源于AI正从人类节奏的交互转向智能体驱动的活动。智能体AI将消耗远超聊天机器人的token，因其执行自主任务时需调用工具、读取输出、协调系统并更新记忆，形成隐藏的微决策链。因此，软件使用模式可能从按点击或席位计量，转变为按其消耗的机器推理token量计量。

Qwen@Alibaba_Qwen · 6月2日83

👏👏 Introducing Qwen3.7-Plus — a multimodal agent model that unifies vision and language into one versatile agent foundation. ✅ Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks ✅ Versatile coding agent & productivity assistant with full-modality input ✅ Visual Agent: perception, reasoning, grounding, and search-augmented QA ✅ Cross-harness generalization across diverse agent frameworks One model. Sees, thinks, codes, acts.🙌🙌 Now available via API on Alibaba Cloud Model Studio. Try it — let us know what you build.😎 🔗🔗⬇️⬇️ Blog：https://qwen.ai/blog?id=qwen3.7-plus Qwen Studio：https://chat.qwen.ai/?models=qwen3.7-plus API：https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-plus&serviceSite=international

译通义千问推出 Qwen3.7-Plus，这是一款统一视觉与语言能力的多模态智能体模型。它支持图形界面与命令行混合操作，可作为多功能编码智能体与生产力助手，并具备视觉感知、推理、定位与搜索增强问答能力。该模型设计为可跨多种智能体框架泛化。现在可通过阿里云百炼平台的 API 使用。

宝玉@dotey · 6月2日50

活久见，Claude 也重置了额度！

Perplexity@perplexity_ai · 6月2日70

Introducing Search as Code, our new search architecture for AI agents. It writes Python that calls our search stack directly, instead of looping through function calls one at a time. Available in the Perplexity Agent API, and now default in Computer. https://research.perplexity.ai/articles/rethinking-search-as-code-generation

译推出Search as Code，我们为AI智能体打造的全新搜索架构。它直接编写Python代码调用我们的搜索栈，而非逐个循环函数调用。现已在Perplexity Agent API中提供，并成为Computer的默认选项。 https://research.perplexity.ai/articles/rethinking-search-as-code-generation

ClaudeDevs@ClaudeDevs · 6月2日49

We've reset 5-hour and weekly rate limits for all users on Pro and Max plans. We fixed an issue that caused some Claude Code sessions to spawn excessive parallel subagents, burning through usage faster than expected.

译我们已为所有Pro和Max计划用户重置了5小时和每周速率限制。我们修复了一个导致部分Claude Code会话生成过多并行子智能体、从而比预期更快消耗用量的问题。

Chubby♨️@kimmonismus · 6月2日67

NVIDIA's quieter Computex drop actually matters more than RTX Spark: DGX Station for Windows. A GB300 (!) superchip under your desk that runs trillion-parameter models locally, 748GB coherent memory, 20 petaflops FP4, shipping Q4. GB300 Grace Blackwell Ultra Desktop Superchip -72-core Grace CPU + Blackwell Ultra GPU over NVLink-C2C -Up to 748GB coherent memory -up to 20 petaflops FP4 -ConnectX-8 SuperNIC, up to 800Gb/s (chain multiple units) -Runs models up to 1 trillion parameters locally -Optional RTX PRO 6000 Blackwell for ray-traced simulation Frontier models fully on-prem, hundreds of agents in parallel, local pretrain/fine-tune/inference, Linux toolchains via WSL, 748GB datasets in coherent memory. NVIDIA OpenShell, an open-source runtime that sandboxes each agent and enforces policy at the OS level via Windows containment primitives. Lets freaking go!

译NVIDIA发布了DGX Station for Windows，这是一款桌面级AI超级计算机，搭载新的GB300 Grace Blackwell Ultra Desktop Superchip。其核心规格包括72核Grace CPU与Blackwell Ultra GPU通过NVLink-C2C连接，提供最高748GB统一内存与20 petaflops FP4算力，可本地运行最高达1万亿参数的模型。该设备计划于2026年第四季度发货。同时，NVIDIA推出了开源运行时OpenShell，可在Windows系统层面为AI智能体构建安全沙箱。

Rohan Paul@rohanpaul_ai · 6月2日61

Agents everywhere. Templafy’s just launched a PowerPoint agent that tackles the part of AI presentation work that usually breaks after export: the painful handoff from AI draft to usable business deck. Because, business decks fail in the last mile: structure, brand rules, formatting, and edits. This one tries to solve that.

译Templafy推出一款PowerPoint AI智能体，旨在解决AI生成PPT后在实际业务场景中的应用痛点，即从AI草稿到可用商业演示文稿的“最后一公里”问题。该工具针对结构、品牌规范、格式和编辑等常见失败点，直接生成结构完整、符合商业标准且可在PowerPoint中即时编辑的完整演示文稿，避免了用户需要重建、处理格式混乱或从零开始的麻烦。

MiniMax (official)@MiniMax_AI · 6月2日78

this is what model-and-agent alignment looks like 🤝 @SimularAI

译这就是模型与智能体对齐的样子 🤝 @SimularAI

MiniMax (official)@MiniMax_AI · 6月2日76

day 0 launch partner energy 🔥 @Qubrid_AI is offering 50% off for early adopters. go run it!

译MiniMax的M3模型现已在Qubrid AI平台上线。该模型具备100万token上下文、原生多模态、前沿的代码性能，并支持长期智能体工作流，被评为年度技术上最有趣的开放权重模型之一。Qubrid AI作为首发合作伙伴，为早期用户提供50%的折扣。

Rohan Paul@rohanpaul_ai · 6月2日61

New video of Qualcomm CEO Cristiano Amon: AI will require “gazillions” of tokens. Because, Agentic AI will consume dramatically more tokens because it performs autonomous tasks, uses multiple systems, and interacts with tools. AI demand will grow hugely when software starts letting agents act, not just answer. A chatbot spends tokens on language; an agent spends tokens on deciding, checking, calling tools, reading outputs, revising plans, and coordinating with other software. Today a single human-AI exchange may be large, a reasoning task may be much larger, but we are already entering the agentic era, where an autonomous workflow can become exponentially larger still because the model is no longer producing one response. It is running a process. When a SaaS product redesigns itself around human-agent interaction, every task can become a chain of hidden micro-decisions, and each micro-decision consumes context, memory, tool calls, verification, and output tokens. Another point is people hear “more tokens” and think only of bigger data centers, when the deeper change is economic: software usage may stop being measured mainly by clicks, seats, or sessions. It will be measured by how much machine reasoning/tokens gets spent on behalf of each user. ---- From "Reuters" YouTube channel, (link in comment)

译高通CEO Cristiano Amon指出，AI智能体（Agentic AI）因其执行规划、工具调用、验证等自主任务，单次请求的token消耗可能达普通回答的10至50倍以上，因此AI将需要“海量”token。高盛预测，到2030年AI智能体的token使用量将增长24倍，每月可能达120千万亿。同时，推理成本预计年降60%-70%。这标志着软件计量方式可能从按席位/点击转向主要按机器推理/token消耗量计算，Uber和Microsoft等公司已在重新评估高昂的智能体使用成本。

AYi@AYi_AInotes · 6月2日67

《非暴力沟通》这本全球超级金典和实用的书做成NVC Skill怎么用？解决哪些问题？这个 Skill 把马歇尔·卢森堡的《非暴力沟通》核心框架（观察-感受-需要-请求 OFNR + 相关反模式、共情技巧、愤怒转化等）打包成了 Cursor / Claude Code ，龙虾，Hermes，Codex等Agent可以直接调用的工具。核心能力就是把任何一句话、任何情绪、任何冲突，快速翻译成非暴力沟通的格式，让 AI 帮你立刻生成可执行的表达。实用使用场景（按日常高频度排序） 1️⃣日常沟通卡壳时快速重写消息（最常用） • 你想发消息给伴侣/父母/领导，但怕说出来像指责或抱怨。 • 场景示例： • “帮我把这句话改成非暴力沟通版：你每次都把衣服扔一地，太不尊重我了！” • “我刚才在群里想怼同事，但又不想把关系搞僵，用 NVC 帮我重写一下。” 2️⃣别人说了让你难受的话时，快速拆解对方真实需要（共情倾听） • 对方：“你从来都不关心这个家！” • 你直接喊 Skill：“他说了这句话，用 NVC 帮我分析他背后的感受和需要，并给出可能的回应方式。”

译将《非暴力沟通》核心框架（观察-感受-需要-请求 OFNR）及共情技巧、愤怒转化等内容封装成 NVC Skill，可供 Cursor、Claude Code、Codex 等 AI Agent 直接调用。该技能主要用于：快速将冲突性或情绪化表达重写为非暴力沟通格式；分析他人言论背后的真实感受与需求，并提供共情回应建议。适用于日常沟通卡壳、情绪化对话拆解等场景，旨在借助大语言模型提升人际沟通质量。

Chubby♨️@kimmonismus · 6月2日67

At Computex, NVIDIA walked into a market it never owned: the PC itself. RTX Spark is an ARM superchip: 20-core Grace CPU, Blackwell GPU with 6,144 CUDA cores, up to 128GB unified memory, 1 PetaFLOP FP4. The GPU core count sits at RTX 5070 (!) level, in a laptop as thin as a MacBook. However, the strategy is the story: NVIDIA used to sell graphics cards. Now it builds the whole system: CPU, GPU, memory and software stack on one package, all on Windows on ARM. That puts it head to head with Intel, AMD, Qualcomm and Apple at the same time. Four rivals, one chip. The framing is as important as the gaming demos, even with Jensen holding up two laptops running 007 First Light and Forza Horizon 6. NVIDIA calls this a "personal AI computer." The pitch: your PC becomes a teammate, with local agents working next to you while you do something else. 128GB unified memory means 120B-parameter models running locally, no cloud. NVIDIA is wagering that the PC of the next few years gets built around local AI (!) rather than apps. If that lands, the company has done more than ship a product. It's set the frame everyone else has to compete in. What's still open: the GPU is power-limited (45–80W), the FPS and battery claims are unbenchmarked, and Windows on ARM still drags a long list of gaming and x86-emulation problems behind it. Ships Fall 2026. Until then, these are slides, not reviews. This is the most interesting AI launch of the year is a chip.

译NVIDIA在Computex发布了RTX Spark ARM超级芯片，采用系统级封装，集成了20核Grace CPU、6,144 CUDA核心的Blackwell GPU、最高128GB统一内存，并提供1 PetaFLOP FP4算力。此举标志着NVIDIA从显卡供应商转变为构建完整系统（包括CPU、GPU、内存和软件栈），直接与Intel、AMD、Qualcomm和Apple竞争。产品被定位为“个人AI计算机”，其128GB统一内存旨在支持本地运行120B参数的大语言模型。目前，该芯片的GPU存在功耗限制（45–80W），实际性能和电池表现待验证，且Windows on ARM平台仍面临游戏和x86兼容性挑战。产品计划于2026年秋季发货。

swyx@swyx · 6月2日71

This pod was an incredible gift to the community: not only our first pod about @xAI, but Ethan really indulged on all our questions on how to train a SOTA Videogen world model, including specific areas (consistent extending/editing, voice) that Grok @Imagine is *still* SOTA, on top of the factual overviews he ALSO came loaded with opinions/predictions: - why he's quitting Videogen for LLMs: video models get most of their intelligence from LLMs, not from scaling video data - why the next frontier for videogen also happens to be video agent models - agentic models trained to orchestrate video models - why deterministic compression (like MP4) is a useless target vs VAE compression - Videomaxxing: if you truly believe in the "Moore's law" of AI/genmedia, then video models become the final boss UI of everything, like Flipbook (below)

译前xAI世界模型负责人Ethan He在播客中分享了对Grok Imagine及视频生成未来的看法。他指出，视频模型的智能主要来自LLM，而非单纯扩大视频数据规模，因此正从视频生成转向LLM领域。他认为，视频生成的下一个前沿是训练用于编排视频模型的**视频Agent模型**。AI视频的发展将类似编程Agent路径，当前文本到视频仅是“自动补全”阶段。未来，世界模型将变得实时交互，语言模型或成为视频的控制层。

Chubby♨️@kimmonismus · 6月2日82

MiniMax just dropped M3! It hits 59% on SWE-Bench Pro, edging out GPT-5.5 (58.6%) and beating Gemini 3.1 Pro (54.2%). Trails Opus 4.7 on coding, but leads it on autonomous browsing at 83.5% on BrowseComp. First open model to pack frontier coding, a 1M-token context, and native multimodality into one system. I mean, let that sink in: Roughly 12x cheaper per token than GPT-5.5, with weights and a full tech report promised in about 10 days.

译MiniMax发布开源模型M3，它是首个将前沿编码能力、1M token上下文窗口与原生多模态集成于单一系统的开源模型。M3在SWE-Bench Pro上得分为59.0%，略高于GPT-5.5（58.6%）与Gemini 3.1 Pro（54.2%）；在BrowseComp自主浏览任务中以83.5%领先Opus 4.7。此外，模型在Terminal Bench 2.1（66.0%）、MCP Atlas（74.2%）等基准上表现优异。其每token成本约为GPT-5.5的十二分之一，模型权重及技术报告预计在10天后发布。