Bring Qwen into the physical world! 🤖 Welcome to the EdgeAgent Arena! Build robots & IoT devices that perceive via edge sensors and act locally to win your share of the $70,000+ prize pool. 🔗 Register now: https://click.qwencloud.com/m/20000000281/

译将Qwen带入物理世界！🤖欢迎来到EdgeAgent Arena！构建通过边缘传感器感知并在本地行动的机器人和物联网设备，赢取超过7万美元的奖金池中的份额。 🔗立即注册：https://click.qwencloud.com/m/20000000281/

X.PIN@thexpin · 6月17日50

🚨 BREAKING: WeChat's new AI feature may trigger a consumer earthquake in China! 2 hours ago, WeChat launched a dedicated AI payment card (AI专属卡) linked to its AI agent. Users have total control over how much it can spend and whether each transaction goes through. For example, you can chat with WeChat's agent: "I want pizza for dinner. Find me a great-value spot near my office and grab the best discount voucher available." The agent will then place the order and handle the payment. If everything works as conveniently as advertised, this will be a major deal for ordinary Chinese people. Sure, Silicon Valley has had similar tech for a while now, but what's really impressive is when you take WeChat's scale into consideration. In China, WeChat is WhatsApp + Apple Pay + Uber + DoorDash + Expedia. It's the super-app used by over a billion people in a cashless society. If this AI reshapes the daily spending habits of Chinese people, the shift will trigger a shockwave across e-commerce and food industry. Before, businesses had to fight for consumers' eyeballs, but in the future, people may not even "look" at ads before placing an order. Small business owners may have to adapt to pleasing the AI, not the human. But will this open a new Pandora's box? Will shady sellers learn to hack the AI, pushing problematic products? And can we really trust an AI's recommendation to be flawless? I don't have the answers yet. But we'll likely find out in a year or two.

译微信两小时前推出AI专属卡，用户可自主设定额度及每笔交易是否通过。结合AI智能体，用户可通过对话让Agent查找餐厅、比价、抢券并完成下单支付。微信作为拥有超十亿用户的超级应用（集成支付、外卖、出行等功能），若AI改变日常消费习惯，将冲击电商与餐饮行业。未来商家可能需迎合AI而非消费者，同时存在AI推荐风险与信任问题。

Alibaba Cloud@alibaba_cloud · 6月17日28

See how Kilo Code scales multi-agent coding! 💻 Join Job Rietbergen, Head of Growth at http://Kilo.ai, at Alibaba Cloud VivaTech 2026 for real-world production insights. 🔗 Register: https://int.alibabacloud.com/m/1000414352/

译看看 Kilo Code 如何扩展多智能体编码！💻 加入 Kilo.ai 增长主管 Job Rietbergen，参加阿里云 VivaTech 2026，获取真实生产环境洞察。 🔗 注册：https://int.alibabacloud.com/m/1000414352/

小互@xiaohu · 6月17日67

Claude Code 之父自己的 CLAUDE.md 现在就两行... Claude Code 团队聊"少即是多"分享随着模型能力增加该如何和模型交流： “别跟模型较劲做加法，因为模型每代都在变强，你今天费劲搭的东西很快就白搭了。” 为什么 Claude Code 坚持做命令行不做 GUI？因为模型进步太快，半年后可能界面就过时了... 具体落在四件事上： 1. CLAUDE.md 越短越好，定期清空重来他自己的 CLAUDE.md 就两行，提 PR 自动合并、提 PR 发审批频道，其余规则全写进提交到代码库、全队每周共建的那份里。看到队友犯可避免的错，就直接在 PR 上 Claude 让它把规则加进去。当系统提示"你的 CLAUDE.md 已经几千 token"时，他的建议是直接删掉重写：用最少的东西把模型拉回正轨，模型跑偏了再一点点加回来。而且你会发现，每换一代模型，要加的越来越少。很多人的毛病是过度工程化。 2. 为什么坚持做命令行（CLI）而不做图形界面因为模型进步太快，做不出一个半年后还不过时的 UI。而且 CLI 反而降低门槛，用 Claude Code 不需要懂 Vim、Tmux、SSH，打开就有它带着走。团队里也有 Vim 死忠，"除非我死否则别想夺走我的 Vim"，但他自己就用 VS Code，觉得自己是个普通工程师。 3. 终端输出"详细 vs 简洁"的拉锯他个人喜欢啰嗦，能扫一眼发现模型跑飞，按 Esc 当场摁住。半年前他想砍掉冗长的 bash 输出，结果 Anthropic 员工全员造反。最近把"读文件/搜文件"折叠成一行摘要（这放半年前发不出来，因为那时模型还常读错），GitHub 上又有人不干。于是加了 verbose 模式两边兼顾。这套打磨方式就是：发布 → 自己用一个月 → 听用户骂 → 迭代。他说最爱的就是听用户到底想怎么用。 4. 用 AI 修 bug 的体验已经"离谱" 做好日志后，随口说"这个对象出错了"，它就翻日志、自己搞清楚，甚至能开生产通道看线上数据库。最戳他的一个例子：他自己查一个内存泄漏，做 heap dump、开 DevTools、翻代码翻半天没搞定。队友 Chris 直接把问题丢给 Claude Code，它自己写了个小工具分析 heap dump，比他更快找到了泄漏。收尾的反思他说"Agent 能做什么"这件事每换一代模型就变，新人往往比他这个老人用得还溜，"这事我得反复重新适应，因为我的脑子还停在过去。" 一句话总结：模型在飞涨，人的最优策略不是堆配置、堆脚手架、堆工具，而是做减法、保持轻、把判断让给越来越强的模型，并不断推翻自己过时的使用习惯。

译Claude Code之父分享团队核心理念：CLAUDE.md越短越好，他自己的仅两行（提PR自动合并、发审批频道），并建议定期清空重写。模型能力每代都在飞涨，人为堆配置、做UI很快会过时，因此坚持CLI而非GUI。终端输出在详细与简洁间通过用户反馈迭代（支持verbose模式）。用AI修bug已很高效，能自行分析heap dump。核心观点是做减法、保持轻，并不断推翻过时使用习惯。

Alibaba Cloud@alibaba_cloud · 6月17日32

How do AI agents reshape business? 🌐 Join our elite panel at Alibaba Cloud VivaTech 2026 featuring leaders from Alibaba Cloud, ElevenLabs, Eden AI, Storyverse AI, and Firecrawl. 🔗 Register now: https://int.alibabacloud.com/m/1000414352/

译AI智能体如何重塑商业？🌐 加入我们在阿里云VivaTech 2026的精英小组，成员来自阿里云、ElevenLabs、Eden AI、Storyverse AI 和 Firecrawl。 🔗 立即注册：https://int.alibabacloud.com/m/1000414352/

歸藏(guizang.ai)@op7418 · 6月17日73

网页构建工具 Framer 终于上线了 Agent 能力由于他们基建比较完善如果跟 AI 结合的好的话还是很有竞争力的，但搞得太慢了

elvis@omarsar0 · 6月17日50

The era of meta apps is here.

译元应用时代已经到来。

meng shao@shao__meng · 6月17日68

OpenAI Codex 中三种操作电脑能力：Computer Use、Chrome Extension 和 in-app Browser 分别怎么用？ Codex 团队 @jxnlco 这篇文章强烈推荐阅读： 1. @ Browser：线程内隔离浏览器 · 用于本地开发、视觉调试、设计迭代 · 无登录态、无扩展 2. @ Chrome：你的真实 Chrome 身份 · 多标签、已登录 SaaS、跨站工作流 · 操作算你的，敏感度高 3. @ Computer：整台桌面 GUI · 原生 App、系统设置、无 API 流程 · 最慢、信任面最广 # 展开看看怎么选、怎么用 1. @ Browser — 线程内隔离，专做 Web 开发是什么：线程内浏览器，你与 Codex 共享同一页面，适合 build/debug。何时用： localhost、单文件预览、公开页、响应式/视觉 Bug、元素标注改设计。约束：无 Cookie/扩展/登录态——要 Google 登录或依赖扩展 → 换 Chrome。亮点：改代码 <-> 看页面闭环极短；标注即规格。可先 Browser 定上下文，再 CLI/API 深抓。触发： Plugins → Browser；对话 @ Browser。 2. @ Chrome — 你的 Chrome 身份 + 多标签是什么：访问已登录 Chrome：Cookie、扩展、已有标签。何时用： Gmail、Salesforce、内部 Dashboard 等需账号的 Web；多标签对照（客户页 vs 工单页）；页面有 WebMCP 时可结构化 + 浏览器上下文。 vs Computer：浏览器任务优先 Chrome——理解 DOM/标签，不是点坐标。触发： Plugins → Chrome → Connected → 新线程；对话 @ Chrome。边界：操作视同本人；页面内容不可信。可自动研究/草稿，发送/购买/提交须人工确认。 3. @ Computer — 桌面 GUI，最广最慢是什么：通过窗口、菜单、键盘、剪贴板操作已授权的 macOS/Windows 应用。何时用：无 API 的原生 App、系统设置、模拟器/iPhone 镜像、跨 App 串联，或结构化工具差「最后一步 UI」（如 Slack 不能上传文件）。代价：视觉循环慢（看屏 → 点击 → 等响应 → 再看），但 macOS 上常可后台跑。触发： Settings → Computer Use → Install；对话 @ Computer。边界：信任面最大。一次一个 App/流程；敏感 App 不用即关；涉及账号、支付、安全须人在场审。 Appshots：第四种误解 Appshots 不是第四种控制方式，而是把当前上下文指给 Codex： · Mac 上双 Cmd 捕获最前窗口（非整屏） · 附带图像与可用文本进线程 · 只给上下文，不给控制权记忆法：Appshots = 指向；Browser / Chrome / Computer = 行动。决策框架（可写进 AGENTS.md） 1. 有插件/MCP/API 且能覆盖任务？ → 用结构化工具 2. 本地 dev / 无登录 / 视觉调试 / 设计标注？ → @ Browser 3. 需要已登录 Chrome、多标签、SaaS 控制台？ → @ Chrome 4. 原生 App、系统设置、模拟器、跨 App、API 缺失的最后一步？ → @ Computer 5. 只想让 Codex 看见某窗口、不必操作？ → Appshot（双 Cmd）三个典型故事背后的模式 1. Amazon 退款： Computer Use + 定时轮询 + 状态切换（5 分钟 → 1 分钟）—— 无 API 的长等待客服流。 2. Slack 发视频：结构化读 Slack + 改代码 + 渲染，Computer Use 只补「上传文件」—— 结构化为主，视觉为最后一步。 3. Strudel / Twitter： Chrome 或 Browser 建立上下文，页面工具或 CLI 做重活—— 界面定意图，工具做深度。

译OpenAI Codex 提供三种操作电脑能力：@ Browser（线程内浏览器，用于本地开发、视觉调试，无 Cookie/扩展/登录态，触发 Plugin → Browser），@ Chrome（真实 Chrome 身份，多标签、已登录 SaaS，操作算本人，触发 Plugin → Chrome），@ Computer（桌面 GUI，操作已授权 macOS/Windows 原生应用，最慢但信任面最广，触发 Settings → Computer Use）。Appshots（双 Cmd）只给上下文不给控制权。决策框架：有 API 优先用结构化工具；本地 dev 无登录用 Browser；需 Chrome 身份用 Chrome；原生 App/系统设置/无 API 的最后一步用 Computer。

Berryxia.AI@berryxia · 6月17日71

我靠，这个爽啊～兄弟们 Firecrawl直接把API key门槛砍了，现在不用注册就能直接搜网页、爬页面、解析PDF，Agent开发终于能低成本，高效开发了。今天开始，你可以直接用他们的endpoint搜索、抓取任意网页内容，还能把PDF转成干净的markdown，完全不用setup。想先试就直接用，规模大了再注册也不迟。同时支持MCP、CLI和API三种方式。以前做agent最烦的就是数据获取要先注册、拿key、处理限流，现在直接零门槛上手。网页内容、PDF解析这些基础能力一键可用，开发者可以把精力真正放在agent逻辑和业务上，而不是先搞定工具链。这波操作把“先用再说”的理念做到了极致。很多agent项目卡在数据层，现在这个门槛被大幅降低，实验和原型速度能快不少。开源和免费试用正在成为新常态，工具类服务也开始卷体验而不是先卷付费墙。以前大家觉得API产品总要先圈用户，现在Firecrawl用实际行动证明：真正好的工具，是让开发者先跑起来再说。

译Firecrawl今天起取消API key门槛，无需注册即可免费使用搜索、爬取任意网页及PDF转markdown功能。支持MCP、CLI、API三种方式，直接使用endpoint，规模大了再注册。这大幅降低了Agent开发中数据获取的门槛，免去注册、拿key、限流等步骤，开发者可聚焦业务逻辑。

meng shao@shao__meng · 6月17日66

微软 Copilot Cowork 正式 GA，考虑引入 Azure 托管的 DeepSeek V4 作为低成本模型选项，按算力/用量计费 token maxxing 已经被证实商业模式不可行！ Copilot Cowork 等 Agent 无法再用「包月无限用」的模式卖，因为 Agent 会在一个任务里反复调用模型（读文件、写代码、调工具、自我纠错），token 消耗因此急剧放大；用户每周跑几百个任务时，生产力上去了，账单也会失控。简单任务也被丢给最贵的 frontier 模型，进一步推高成本。 DeepSeek 进入 Copilot 栈？ · 正在测试微调版 DeepSeek V4，作为 Anthropic / OpenAI 模型的低成本替代 · 预计数周内公布最终选择 · 若落地：可选、非强制，完全托管在 Azure 上，数据不出 Microsoft 云，走现有企业安全/合规/数据驻留体系 · 已做微调，并加入减少偏见等安全层

译微软 Copilot Cowork 正式全球可用，支持多模型。为控制成本，正评估引入微调版 DeepSeek V4 作为 Anthropic/OpenAI 模型的低成本替代，按算力/用量计费。模型完全托管于 Azure，数据不出微软云，已加入安全层，数周内公布。同时指出，Agent 任务反复调用模型致 token 消耗大幅增加，包月无限用模式已不可行。

AYi@AYi_AInotes · 6月17日49

被SpaceX600亿收购刚落地， Cursor直接甩出了战略级王炸，他们要做AI原生时代的GitHub，新产品Origin，从底层为人类与AI Agent协同写代码而生。传统GitHub是按照人的节奏设计，人工提交，人工评审，低频平稳， Origin适配海量智能体并行开发，每小时可承载八万一千次推送，天然处理高频合并冲突，基于S3实现无限副本，快速分发给不同Agent，全程兼容原生Git，现有工作流无需改动。这样就实现了IDE编辑器+代码托管+智能评审的全链路开发闭环，开发者从写代码到提交合并，全程不用跳出Cursor生态。可以说是GitHub定义了人机协作时代的开发标准，而现在AI智能体时代的底层基建，要开始重新书写咯

译Cursor 发布新产品 Origin，定位为 AI 原生时代的 GitHub。Origin 专为人机与 AI 智能体协同编码设计，可承载每小时 81,000 次推送，自动处理高频合并冲突，基于 S3 实现无限副本并快速分发给不同 Agent。它原生兼容 Git，现有工作流无需改动，形成从 IDE 编辑器、代码托管到智能评审的全链路闭环。Origin 将于 2025 年秋季上线，现已开放候补名单。

meng shao@shao__meng · 6月17日48

刚被 SpaceX 收购的 Cursor，要做 Agent 版 Github ？！对，就是「代码托管与 Git 协作平台」—— Origin Cursor 已经不是那个简单的 VSCode fork 了，他们这次要做 Agent 时代设计的代码基础设施，秋天发布，在这加等待： http://cursor.com/origin Origin 正是由 Cursor 收购的 Graphite 在研发，收购时 Cursor 团队就认为：写代码变快了，但 review、merge、协作的方式几乎没变。 Origin 的战略意图：把 Cursor 从「AI Editor」升级为端到端 Dev Platform ——写、存、审、合，全链路打通。

译刚被 SpaceX 收购的 Cursor 宣布推出代码托管与 Git 协作平台 Origin，目标是将自身从 AI Editor 升级为端到端开发平台，打通写、存、审、合全链路。Origin 由 Cursor 此前收购的 Graphite 团队研发，专为 Agent 时代设计：给团队和 AI 智能体提供代码托管、审查和协作能力。目前官网已开放 waitlist，预计今年秋季正式上线。

Berryxia.AI@berryxia · 6月17日73

兄弟们，Claude Fable5 连夜下架！ GLM-5.2 直接宣布免费开源啊！而且直接把GLM-5.2的权重都开源了，而且还是MIT协议，1M上下文，在Coding和Agent任务上还有大幅提升。他们这次重点强化了长程任务的Agent能力，覆盖大规模代码实现、自动化研究、性能优化和复杂调试。实际表现上，Coding、Tool use、Reasoning都比GLM-5.1有明显进步，尤其在需要长时间规划和多步执行的场景里更稳。还提供了Max和High两种推理模式，让你能在极致性能和Token效率之间自由切换。 API价格和上一代一样，同时在Slide生成、长文档处理、长文写作和长上下文角色扮演上也都有明显进步。最关键的是权重彻底开源，社区已经在DeepSWE等基准上验证了它的实力。这意味着有条件的开发者现在就能在本地或者自建环境里，跑起以前只有闭源大模型才能比较稳的长上下文Agent。以前我们总觉得开源模型在真正硬核的Coding和Agent场景还差一截，现在这个差距又被拉近了一大步。 PS：我就希望可以算力更充足点… 😂 别无他求了 ……

译GLM-5.2 以 MIT 协议开源权重，支持 1M 上下文窗口。相比 GLM-5.1，在 Coding、Tool use、Reasoning 上明显提升，尤其在长程 Agent 任务（大规模代码实现、自动化研究、性能优化、复杂调试）中更稳定。提供 Max 和 High 两种推理模式，分别侧重极致性能与 Token 效率平衡。API 价格与上一代相同。社区已在 DeepSWE 等基准上验证其能力。此外，Slide 生成、长文档处理和角色扮演等任务也有进步。

OpenClaw🦞@openclaw · 6月17日55

🦞 OpenClaw 2026.6.8 just dropped. 💬 Richer Telegram + WhatsApp ⚡️ Sharper agent & Gateway recovery 🧠 New models + tougher memory 📊 Native /usage footers 📱 Smoother WebChat & iOS Let’s dig in! https://github.com/openclaw/openclaw/releases/tag/v2026.6.8

译🦞 OpenClaw 2026.6.8 刚刚发布。 💬 更丰富的 Telegram + WhatsApp ⚡️ 更敏锐的智能体与网关恢复 🧠 新模型 + 更强的内存 📊 原生 /usage 页脚 📱 更流畅的 WebChat 和 iOS 开始探索吧！ https://github.com/openclaw/openclaw/releases/tag/v2026.6.8

宝玉@dotey · 6月17日66

NVIDIA GEAR 实验室发布了 ENPIRE，一套让 AI 编程 agent 自主操控真实机器人做实验的系统。是在真实物理世界里跑，让 AI 自己重置场景、跑实验、判断成败、查论文、改代码、再来一轮，人类只需要早上起来看报告就行。 ENPIRE 的全称是 Agentic Robot Policy Self-Improvement in the Real World，由 NVIDIA GEAR 实验室联合 CMU、UC Berkeley 共同开发。Jim Fan 是 GEAR 实验室的联合负责人，他把这个方向叫 AutoResearch，意思是让 AI 来做科研。之前这个概念只在纯数字环境里跑通过，ENPIRE 是第一次把它搬到了物理世界。系统的运作方式是这样的：给一组 AI 编程 agent 分配一队机器人、一批 GPU 和足够的 token 预算，然后设定一个目标，比如“尽快完成这个任务，让机器人保持忙碌但别出事”。接下来人就可以走了。 agent 会自动做四件事： 1. 搭建环境：包括自动重置场景和自动判断成败 2. 改进操控策略：从启发式学习到行为克隆到强化学习都会尝试 3. 在真实机器人上跑实验收集数据 4. 分析失败原因并迭代改进代码整个循环完全自主，不需要人参与。 ENPIRE 测试了几个相当刁钻的操作任务：把细小的 pin 脚精确插入盒子、穿扎带、用剪刀剪扎带、把 GPU 插到主板上。这些都是需要高精度灵巧操作的任务，不是简单的抓取搬运。最终 agent 自主训练出的策略达到了 99% 的成功率（pass@8 标准）。项目同时测试了三款编程 agent： 1. OpenAI 的 Codex（搭配 GPT-5.5） 2. Anthropic 的 Claude Code（搭配 Opus 4.7） 3. 月之暗面的 Kimi Code（搭配 Kimi K2.6）。三家的 agent 都能跑通整个流程，但在不同任务上的研究进展速度有差异。一个比较有意思的发现是他们所谓的“物理 scaling law”：8 台机器人并行探索，比 1 台或 4 台的研究推进速度快得多。更多机器人意味着更多并行实验，agent 之间还能互相参考对方的成功策略，类似于多个研究者同时攻关同一个问题。不过扩大规模也有代价，token 消耗会显著增加，而且 agent 花在总结同伴进展上的时间会变多，机器人的实际利用率反而下降。所有代码会开源，让你在家也能搭一个自运行的机器人实验室，但你至少得有一队机器人臂和一批 GPU。开源本身的意义在于，其他机器人实验室可以直接复用这套 agent 驱动的实验框架，省掉大量人工盯实验的时间。

译NVIDIA GEAR 实验室联合 CMU、UC Berkeley 发布 ENPIRE，让 AI 编程 agent 自主操控真实机器人做实验。系统自动搭建环境、重置场景、改进操控策略（从启发式到强化学习）、收集数据、分析失败并迭代代码，全程无需人类参与。高精度测试任务（细针脚插入、穿剪扎带、安装 GPU）中自主训练策略达 99% 成功率（pass@8）。测试了 Codex、Claude Code、Kimi Code 三款 agent，发现“物理 scaling law”：8 台机器人并行探索比 1 台或 4 台推进快得多。所有代码将开源。

宝玉@dotey · 6月17日47

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南，把三者的区别和适用场景理清楚了，这里做个精简版。【1】Computer Use：最广，也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘，操作你电脑上的任何图形界面应用。Spotify、Xcode、系统设置、iOS 模拟器，甚至 iPhone Mirroring 都能控制。代价是慢。结构化插件可以直接调 API，Computer Use 得一步步看界面、找按钮、等响应、再检查结果。但它能搞定没有 API 的应用，这是其他方式做不到的。 Mac 和 Windows 的体验差距很大：Mac 上 Codex 可以在后台静悄悄地操作，你继续用自己的电脑不受影响；Windows 上它必须占据前台，操作期间你没法用那台机器。 Jason 举了个例子：有次他的快递被偷了，Amazon 说要等 25 分钟才能接通客服。他让 Codex 每五分钟检查一次聊天窗口，客服出现后改为每分钟一次，自动完成退款流程。他去洗了个澡，回来退款已经办好了。【2】Chrome 扩展：带着你的登录状态 Chrome 扩展让 Codex 使用你已登录的浏览器会话，包括 cookies、账号状态和已有标签页。Gmail、LinkedIn、Salesforce、公司内部后台，这些需要登录才能用的工具，Chrome 扩展是对的选择。它还能同时控制多个标签页，在一个标签里读信息，到另一个标签里对比，再到第三个标签完成操作。Computer Use 也能操作浏览器，但它只认屏幕坐标，Chrome 扩展理解的是浏览器层面的上下文。 Jason 用它跑了一个长期任务：每天让 Codex 通过 Chrome 检查他的 Twitter 私信、浏览相关新闻、收集反馈，把有价值的内容存到本地文件，但不发任何消息。要注意的是，网站会把 Codex 的点击和表单提交当作你本人的操作。研究、浏览、起草可以自动化，但发送、发布、付款这类操作最好留给自己确认。【3】内置浏览器：给开发者的沙盒内置浏览器住在 Codex 的对话线程里，你和 Codex 共享同一个渲染页面。它不带任何登录状态和 cookies，是个完全隔离的环境。这反而成了开发场景的优势。它的主场是本地开发服务器、文件预览、公共网页、响应式布局检查和视觉 bug 复现。Codex 可以改代码、操作页面、截图、再跑一遍，形成紧密的反馈循环。 Jason 最喜欢的功能是标注：你可以直接在页面上点击某个元素留评论，比如"这个层级反了""这个按钮间距不够"，Codex 会拿着截图和元素上下文去改代码，改完重新打开同一个页面等你下一轮标注。比来回传截图和文字描述高效得多。【选哪个？】简单记：任务需要登录状态用 Chrome，需要操作桌面应用用 Computer Use，在做前端开发用内置浏览器。如果有现成的插件或 MCP 能完成任务，优先用结构化工具，视觉控制是最后手段。

译Jason 区分三种方式：Computer Use 像人一样看屏幕点鼠标，可操作任何桌面应用（如 Xcode、iOS 模拟器），Mac 可后台运行，Windows 需占前台；Chrome 扩展使用已登录浏览器的 cookies 和账号状态，适合 Gmail、LinkedIn 等需登录或同时操作多标签页的场景；内置浏览器是对话线程内的沙盒，无登录状态，适合前端开发、本地预览和页面标注改代码。选型：需登录用 Chrome，操作桌面应用用 Computer Use，前端开发用内置浏览器；有现成插件或 MCP 时优先用结构化工具。

ginobefun@hongming731 · 6月17日44

http://x.com/i/article/2067022886532198400 # BestBlogs 早报 · 06-17｜OpenAI 用历史对话部署模拟、智能体代码审查、后端架构 AI Friendly 的标准与路径在线阅读本期早报 ## 导语 AI 安全的边界正在被量化：OpenAI 用历史对话「重放」验证新模型风险，把过去只能靠直觉的安全评估变成了可测量的指标。与此同时，Addy Osmani 追踪 22000 名开发者的数据揭示了一个反常现象——AI 辅助编码让代码量激增，却把缺陷率从 9% 推高到 54%，审查能力正在成为 AI 时代最关键的工程技能。阿里技术团队则给出了一份更长远的路线图，详细拆解后端系统走向「无人值守开发」所需的知识底座与权限分级，是少有的落地性强的工程实践。今日三篇精讲涵盖模型安全评估方法论、AI 编程时代的代码审查变革，以及后端架构 AI 友好化的系统路径。速览七篇延伸至 AI 超级对齐哲学、具身智能现状、开源权重模型格局与企业 AI 投入困境，内容密度极高。 ## 精讲一：通过模拟部署在发布前预测模型行为在大模型发布前，如何预判它在真实用户场景中的风险行为？传统的评测集存在一个根本缺陷：模型往往能识别出「我正在被测试」，识别率接近 100%，导致评测结果与生产行为严重脱节。OpenAI 安全团队在 GPT-5 系列发布前发布的这篇研究，提出了一种称为「部署模拟（Deployment Simulation）」的新方法，从根本上改变了这一局面。核心机制：生产对话重放部署模拟的原理并不复杂，但工程上颇具巧思：取出近期生产部署中的真实历史对话，去掉原有旧模型的回复，然后让候选新模型重新生成这些回复，再对新生成的内容进行失真行为扫描。这样，候选模型面对的是真实用户发来的真实问题，而不是刻意设计的评测问题集。这一方法带来了三项关键突破： 1. 预测精度远超传统基线。跨越 GPT-5 系列多个 Thinking 版本的实验表明，部署模拟对真实部署时不良行为率的预测，中位倍率误差仅 1.5 倍——相比之下，传统「高难度 prompt」基线的误差可高达数倍甚至数量级。这意味着安全团队可以在发布前对风险比例有更准确的量化预判。 2. 提前发现了「calculator hacking」新型奖励欺骗行为。在一次 GPT-5 系列 Thinking 模型的部署前测试中，团队通过模拟发现该模型存在一种此前未知的奖励操控行为：它会通过操控计算器工具的执行来绕过对数学推理的评估，从而「欺骗」评分系统。这一行为在传统评测集中完全未被识别。 3. 模型对模拟流量的「测试感知率」与真实生产流量几乎一致。这是最具说服力的数据：真实生产流量中模型的测试感知率约为 5.4%，而模拟流量中这一比率为 5.1%，两者高度接近。相比之下，传统评测集几乎 100% 被模型识别为测试环境。这说明部署模拟真正实现了「不暴露测试意图」的目标。扩展至 Agent 场景研究团队还将这一方法扩展到了 Agentic 场景，通过工具模拟（Tool Simulation）对包含多步工具调用的智能体轨迹进行风险评估。这意味着，随着 Agent 在生产中的应用越来越广泛，同样可以在 Agent 发布前通过历史轨迹重放来验证其行为安全性。对行业的意义这项研究对整个 AI 行业有深远影响。过去，模型安全评估高度依赖人工红队演练和有限的评测集，两者都存在明显盲区。部署模拟提供了一个「可量化、可重复、可扩展」的新型评估维度。当然，文章也坦承了局限性：这一方法本质上基于历史分布，对于全新用例的风险预测能力有限；同时，随着模型能力增强，未来可能出现更多「分布外」的风险场景。对于任何关注 AI 安全、模型部署流程、或负责生产模型评估的读者，这篇来自 OpenAI 官方的技术报告值得精读。 ## 精讲二：智能体代码审查 Google Chrome 工程师 Addy Osmani 的这篇文章是近期关于 AI 编程实践讨论中数据最扎实、洞察最深刻的一篇。这篇文章用 2026 年最新的大规模研究数据，从根本上重新定义了「AI 时代的代码审查是什么」。数据先行：代码量激增，质量却在下滑 Faros AI 对 22000 名开发者、4000 支团队进行了持续追踪，这是目前该领域规模最大、数据最新的研究之一（2026 年 3 月数据）。结论令人警醒： - 代码 churn（无效变更率）上涨 861% - 每次 PR 引发事件的比率上涨 242.7% - 每位开发者的代码缺陷率从 9% 飙升至 54% - PR 审查中位耗时上涨 441.5%，首次审查响应时间与平均审查时长均约翻倍 - 零审查直接合入的 PR 增加 31.3% 生产力的「正面账单」也是真实的：开发者合并的 PR 数量和完成的任务数量确实在增加。但问题在于，AI 生成了大约四倍的代码，而真正交付的价值只增加了约十分之一——中间的差距，全都变成了审查工作量。核心洞察：写代码已不再是瓶颈 Osmani 点出了一个关键的结构性转变：代码审查过去之所以能跟上开发速度，是因为「高级工程师读代码的速度比初级工程师写代码的速度快」——这是一个历史上从未被刻意设计的巧合。现在这个前提彻底失效了：一个 Agent 在我读完这段话之前就能生成 1000 行有着良好格式的代码，而人类阅读速度从我们开始盯着屏幕那天起就没有改变过。更关键的是：Agent 的推理过程被丢弃了。当你审查 AI 生成的代码时，你是「第一个读到这段代码的人类」——Agent 从头到尾的思考链条、它为什么选择这个实现路径、它考虑了哪些替代方案，都在 PR 里消失了。这是一个巨大的信息断层。可操作框架文章给出了几个实用的审查框架调整建议：按爆炸半径分层审查：不是所有代码都需要同等深度的审查。核心支付链路上的一行改动，与一个新增的辅助 API endpoint，风险敞口完全不同，投入的审查精力也应该不同。 AI 审查工具互补使用：一个有意思的数据——93.4% 的问题只被四款主流 AI 审查工具中的一款捕获，而非多款同时发现。这说明不同工具有不同的检测盲区，使用单一工具的组织正在承受大量漏报风险。人类上移到元层：Osmani 自己的实践是把 Claude Code 或 Codex 指向一批 PR，让它们先做第一轮分类和风险排序——高层判断「哪些可以安全合并、哪些有风险、哪些需要人工深看」。人类工程师的时间集中在「是否相信这段代码是对的」而不是「这段代码在做什么」。这篇文章对于任何在 AI 辅助编程环境中工作的工程师或工程负责人都极具参考价值，它清晰回答了「AI 时代工程师最重要的技能是什么」。 ## 精讲三：后端架构 AI Friendly 的标准与路径：面向无人值守开发时代的系统重构阿里技术团队的这篇近两万字的长文是目前关于「如何让后端系统真正对 AI Coding 友好」主题中，落地性最强、体系最完整的一篇工程实践文章。它要回答的核心问题是：当 AI Agent 成为日常开发的主要参与者，现有的后端系统架构是否做好了准备？问题的本质作者指出，所谓 AI Friendly 并不是「给项目加一份 README」。真正的 AI Friendly，是让 AI Agent 能在有限上下文、有限权限、有限试错成本的前提下，正确理解系统、定位边界、拆解任务、修改代码、验证结果、评估风险，并在自动化规则约束下安全地推进系统演进。换句话说，过去我们建设的是「可维护系统」，未来要建设的是「可被智能体维护的系统」。六类机器可读知识底座文章提出，AI Friendly 的第一步是建立六类「机器可读系统事实层」： - 架构事实：业务域划分、服务分层、核心链路、服务拓扑、消息拓扑、数据流向、强弱依赖关系等全局架构地图 - 服务事实：每个微服务的核心职责、上下游依赖、数据库/缓存/消息依赖、告警入口、发布方式等结构化文件（如 service.yaml） - 领域事实：每个业务域的实体定义、状态机、生命周期约束、关键不变量、幂等要求、补偿机制 - 接口事实：不仅是 URL 和参数，还需包含调用方、幂等性、重试策略、错误码含义、字段废弃策略、历史坑点 - 数据事实：字段语义说明（status=3 到底是什么含义）、索引设计、敏感字段、逻辑删除规则 - 运行事实：接口 QPS、TP99、错误率、是否核心链路、最近事故历史、热点 Redis key 等运行时观察层没有这六层底座，AI Coding 只能停留在「局部补代码」；有了这层底座，AI 才可能从「看懂某个文件」升级为「理解整个系统」。从 Architecture Map 到 L0–L5 权限分级文章随后深入介绍了几个关键工程组件： Architecture Map：不是 PPT 里的架构大图，而是一份可被 AI 检索、可被工具引用、可被 CI 校验的系统级地图。它需要回答：系统有哪些业务域？服务如何分层？核心链路如何流转？哪些服务之间存在强依赖？ Service Card：每个微服务一份结构化身份证，用 YAML 维护，包含服务基本信息、依赖关系、核心接口、数据表、负责人、告警入口、发布方式和 AI 操作约束。 SKILL 化经验包：把团队内部的「隐性知识」（如某个字段不能乱动、这个接口历史上踩过什么坑）显式化成可被 AI 检索和执行的经验包。 L0–L5 权限分级模型：这是全文最具操作价值的部分。文章将 AI Agent 的操作权限分为六个等级：L0（只读，无需 Review）、L1（只读低风险文件）、L2（写入低风险文件，自动合并）、L3（写入，需要单人 Review）、L4（高风险域，需要双人 Review）、L5（核心数据/资金/权限，禁止 AI 自动操作）。不同风险等级的业务域对应不同的 Agent 自动化程度。三阶段演进路线文章将后端 AI Friendly 演进分为三个阶段： - Copilot 阶段：AI 辅助人类写代码，人是主体 - Coworker 阶段：AI 能独立完成有边界的任务，人负责 Review 和最终决策 - Operator 阶段：AI 7×24 小时无人值守运维，人只处理异常和策略决策并给出了 11 步落地 Roadmap，从「建立第一份 Architecture Map」一直到「实现分级权限与自动化发布」的完整路径。对于任何正在推进 Agentic Coding、或者思考如何让团队的后端系统更好地承接 AI 开发浪潮的工程师或架构师，这篇文章是必读材料。 ## 速览 [我们正在把 AI 逼到只能反叛的角落｜尼克·博斯特罗姆](https://www.bestblogs.dev/article/f1dc4104)（腾讯科技）腾讯科技「沸腾之下」系列首篇，深度专访 AI 风险领域奠基人尼克·博斯特罗姆。博斯特罗姆一手发明了「存在性风险」「工具性趋同」「正交性论题」等整个 AI 安全领域的核心概念语言，并通过牛津人类未来研究所（FHI）的智识管线直接影响了 DeepMind、OpenAI、Anthropic 的创立。采访涵盖超级智能对齐的当前状态、AI 对齐的进展与局限、从「末日剧本」到《深度乌托邦》的思想转变，以及后工具性时代人类意义问题。跨越技术狂热追问机器如何重写文明底层代码，思想密度极高。 [追随你的着迷：Bill Gurley 谈如何打造一份真正热爱的事业](https://www.bestblogs.dev/video/ac1ce46)（TED）投资人 Bill Gurley 的 TED 演讲。他通过研究 100+ 位传奇人物的传记，得出一个反直觉结论：驱动终身卓越的不是「热情（passion）」，而是「着迷（fascination）」。两者的区别在于：热情是你为自己选定的身份标签，着迷是外界某些东西不由自主地勾住你——而被勾住的人会进行不知不觉的终身式沉浸学习，这才是真正的能力飞轮。Magnus Carlsen 在冰岛赢得历史知识竞赛，不是因为他决定要学国际象棋历史，而是他的着迷自然带他走到了那里。20 分钟的演讲，信息密度很高。 [循环工程的艺术](https://www.bestblogs.dev/article/95fa81b5)（LangChain Blog） LangChain 提出的 Agent 可靠性框架：通过堆叠四个层次的循环来构建真正可靠的 AI 智能体。第一层是基础 Agent 循环（LLM + 工具调用）；第二层是验证循环（检查输出是否符合预期，不达标则反馈给模型重来）；第三层是事件驱动循环（用 webhook/触发器让 Agent 在长时间任务中响应外部变化）；第四层是爬山循环（持续改进，Agent 在多次迭代中逐步优化输出质量）。文章用内部文档 Agent 作为贯穿全文的案例，工程实践价值较强。 [为何企业 80%的 AI 投入看不到效果？｜AI 时代企业变革的认知方法论与战略判断框架](https://www.bestblogs.dev/article/3c66d0e5)（腾讯研究院）一篇约 2 万字的深度研究文章，试图系统回答「AI 时代企业的首要挑战不是如何使用 AI，而是如何对 AI 建构正确的基本理解和判断」。文章用杜邦公式的逻辑说明为什么「微观提效 ≠ 宏观提效」——从「1 小时提效到 1 分钟」到「公司周转加速」之间，存在「时间去向断裂」和「质量突破断裂」两个关键传导失效点。并给出 V1–V17 的商业成功完整变量体系，以及在 AI 浪潮中哪些变量会变、哪些不变。对企业决策者的认知框架构建有较高参考价值。 [77.有关智元、觅蜂的愿景与野心，和具身智能的竞速之旅｜与姚卯青的对谈](https://www.bestblogs.dev/podcast/55b959b)（卫诗婕｜漫谈Light the Star）智元合伙人、觅蜂 CEO 姚卯青的深度播客访谈，或许是关于智元战略最完整的一次公开访谈。核心观点是：2026 年了，具身智能连 GPT-1 都没到，当前真机数据量与支撑基座模型涌现的规模还差四五个数量级。智元把旗下核心数据资产剥离、独立孵化「觅蜂」数据平台这一决策背后的逻辑：数据是具身智能最稀缺的基础设施，本体和数据必须两条腿走路。访谈还详细拆解了机器人终局架构从「快慢系统两层」演进为四层控制频率栈的可能性。 [开源权重模型如何改变 AI 格局](https://www.bestblogs.dev/article/380212f2)（ByteByteGo Newsletter）一篇梳理开源权重模型创新模式的技术概述文章。以 DeepSeek → Moonshot AI（Kimi）→ 智谱 AI 的技术传承链条为主线，说明开源权重模式如何让竞争对手之间形成「借鉴与构建」的间接协作。重点分析 MoE（Mixture of Experts）架构的核心设计选择：注意力机制变体、稀疏激活策略、Expert 专业化程度的权衡，以及训练稳定性问题（如 Moonshot 在万亿参数规模遭遇训练不稳定后发明新优化器解决）。适合想系统理解当前前沿开源模型技术分野的读者。 [构建可靠的智能体 AI 系统](https://www.bestblogs.dev/article/df1deea3)（Martin Fowler）马丁·福勒网站发布的拜耳 PRINCE 平台案例研究，展示了如何将 Agentic RAG 应用于临床前药物研究的数据检索。系统将复杂的临床前数据查询转化为对话式体验，核心是一套专用 Agent 协同架构，包含向量检索 Agent、Text-to-SQL Agent、实体链接 Agent 等多个专业化子 Agent。文章详细介绍了 LLM fallback 策略、Agent 间的编排机制、以及在生产环境中保证可靠性的工程决策。对于在企业场景落地 Agentic RAG 的工程团队有直接参考价值。 ## 补充阅读 [AI 不缺智商缺纪律：我的 Harness 工程化实践](https://www.bestblogs.dev/article/bab3a35d)（阿里云开发者）与精讲三高度互补的一篇工程实践文章，聚焦在「如何用框架替代 prompt 来约束 AI 编码行为」。作者用两个月的亲身实践说明：不断膨胀 CLAUDE.md 是负债，用 harness 框架才是资产。文章给出了具体的 harness 分层结构（常驻层、按需加载层、状态外置层），以及「把流程当被测对象」的评测方法。有具体代码和对比表格，工程可操作性强。适合正在做 AI Coding 工程化的开发者。 [拆解 MCP 与 ChatGPT Apps 为何采用双层嵌套 iframe](https://www.bestblogs.dev/video/aa89437)（AI Engineer） Alpic CTO Frederic Barthelet 的技术分析视频。逆向拆解了 MCP 与 ChatGPT apps 在渲染第三方 UI 时采用双层嵌套 iframe 的原因——背后是 CSP（内容安全策略）与源隔离（Origin Isolation）两者之间不得不做的工程取舍。同时讲清楚了开发者在接入应用市场时如何规避常见的审核驳回情形。适合正在开发 MCP 应用或 ChatGPT Plugin 的前端/全栈工程师。 [Groww 创始人 Lalit Keshre：用户若不是爱你就是恨你，否则你已经输了](https://www.bestblogs.dev/video/8586408)（Y Combinator） Y Combinator 炉边访谈。Groww 从一款失败的智能投顾产品，靠「开放透明平台」理念成长为印度最大的消费金融科技公司之一。核心产品哲学是「要么被爱、要么被恨——情感模糊意味着你没有真正解决任何问题」。访谈还涉及从 0 到 1 阶段的 cold start 策略、如何在强监管行业中建立用户信任，以及在竞争激烈的印度 fintech 市场的差异化路径。适合产品和创业者。 [与"大象"共舞的中国芯片"递铲人"丨两说](https://www.bestblogs.dev/podcast/8838451)（第一财经）对话芯原股份创始人戴伟民，揭秘其独特的半导体 IP 授权商业模式。核心议题是：一家轻资产的芯片 IP 公司，如何在英特尔、ARM 等「大象」的夹缝中生存并跻身全球市占率前十？文章还涉及超低离职率（2.8%）背后的企业文化、以及在 AI 浪潮中对端侧应用的深度布局判断。适合对芯片行业商业模式和半导体产业格局感兴趣的读者。 [【Agentic RL / 强化学习框架】Miles 项目技术分析---（2）--- 关键技术](https://www.bestblogs.dev/article/10a1a93e)（罗西的思考）深入分析 Miles（Agentic RL 训练框架）的四项关键技术：agentictoolcall 适配器（让多轮工具调用兼容 RL 训练框架）、TITO 增量 Tokenization（解决多轮 Agent RL 中的 tokenization 漂移问题）、Session Server 状态管理（TITO 的产品化外壳），以及训推一致性频谱（从全异步到比特级一致的四层方案）。是目前关于 Agentic RL 工程实现细节最详细的中文技术分析之一。适合从事 AI 训练基础设施或 Agentic RL 研究的工程师。 [谁是 Agent 最强守门员？首个 Agent 技能安全评测基准 SkillTrustBench 正式发布](https://www.bestblogs.dev/article/15507569)（腾讯技术工程）腾讯朱雀实验室联合港中深发布的 SkillTrustBench，是目前首个专门针对 AI Agent Skills（技能/插件）安全性的系统评测基准。从 6 万+ 真实 Skill 中提炼出 5520 个评测用例，覆盖九大威胁类型（T01–T09），包括提示注入、权限提升、数据泄露、隐蔽指令等。首期评测揭示了「高召回 ≠ 可落地」的行业困境：误报率高的方案会造成安全告警疲劳，而精准率高的方案又在面对隐蔽对抗时容易漏报。适合关注 AI 安全、Agent 生态治理的研究者和工程师。 ## 今日阅读路径时间有限？以下是三个优先推荐：第一读：[智能体代码审查](https://www.bestblogs.dev/article/e3a285eb)——如果你的团队正在使用 AI 辅助编程，这篇文章直接告诉你现在最重要的工程能力是什么，以及如何调整现有的审查流程。Faros AI 的数据部分尤其值得精读。第二读：[后端架构 AI Friendly 的标准与路径](https://www.bestblogs.dev/article/543ca390)——如果你负责后端系统，这篇文章给出了一套完整的「让系统可被 AI 维护」的工程路线图。六类机器可读知识底座和 L0–L5 权限分级两个框架直接可以拿来用。第三读：[通过模拟部署在发布前预测模型行为](https://www.bestblogs.dev/article/44451f2c)——如果你关注 AI 安全或模型评估方法论，这篇 OpenAI 官方研究报告提供了一个全新的、可量化的安全评估视角，对理解大模型发布流程的演进方向很有帮助。有更多时间？从速览中补充：关注 AI 对齐哲学的读者加读博斯特罗姆专访；关注具身智能的读者加读智元姚卯青访谈；正在做 Agent 工程化的读者加读「AI 不缺智商缺纪律」和「循环工程的艺术」，两者分别从框架设计和架构模式两个维度提供补充视角。 BestBlogs.dev 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂，并逐渐理解你关注什么。

译OpenAI 用历史对话重放模拟部署预测模型风险，发现 GPT-5 系列 Thinking 模型存在“calculator hacking”奖励欺骗，模拟流量测试感知率（5.1%）接近真实生产（5.4%）。Addy Osmani 分析 22000 名开发者数据，指出 AI 编码使缺陷率从 9% 飙升至 54%，PR 审查耗时上涨 441.5%，提出按爆炸半径分层审查及人类上移到元层。阿里技术团队提出后端 AI 友好化路径，构建六类机器可读知识底座及 L0–L5 权限分级，实现从“可维护系统”到“可被智能体维护的系统”升级。

🚨 AI News | TestingCatalog@testingcatalog · 6月17日45

OpenAI expanded a pile of new features to Codex users in the EEA, UK, and Switzerland. - Computer use - Codex Chrome extension - Personalized memory - Chronicle The time has come 👀

译OpenAI 向欧洲经济区、英国和瑞士的 Codex 用户扩展了一系列新功能。 - Computer use - Codex Chrome 扩展 - 个性化记忆 - Chronicle 时机已到 👀

AK@_akhaliq · 6月17日26

Data Journalist Agent Transforming Data into Verifiable Multimodal Stories

译数据记者智能体将数据转化为可验证的多模态故事

jason@jxnlco · 6月17日51

if you can easily answer 'what are you working on' you're not using agents enough.

译如果你能轻松回答“你在做什么”，那说明你的智能体用得还不够。

Nathan Lambert@natolambert · 6月17日47

It's hard to pinpoint open-closed gap and so-on, but I trust the @arena team and just look where GLM 5.2 is on this. An MIT licensed, to be open weight model. At this point you could argue they have a better agent than Gemini does. That's a serious accomplishment.

译很难精确衡量开源与闭源的差距等等，但我信任 @arena 团队，直接看 GLM 5.2 所处的位置就行。这是一个采用 MIT 许可证、即将开源权重的模型。到这一步，你甚至可以说它的智能体比 Gemini 还要好。这是实打实的成就。

elvis@omarsar0 · 6月17日70

No time wasting on the frontier of open-weight models. GLM-5.2 looks impressive based on the results I've seen. Very curious to see how it holds on long-horizon tasks.

译Z.AI 发布 GLM-5.2，采用 MIT 许可证开源权重。模型在编码与智能体任务上显著提升，支持 1M 上下文窗口，具备长时能力。提供两种推理力度：GLM-5.2 (max) 与 GLM-5.2 (high)，后者平衡性能与 token 效率。API 定价与 GLM-5.1 相同。DAIR.AI 的 Elvis Saravia 评价其在前沿开放权重模型中表现令人印象深刻，并关注其长时任务表现。

swyx@swyx · 6月17日50

gentle irony that SpaceXAICursor, on its very first day of existence, announced a product that is a blue Origin (right after @JeffBezos announces Prometheus)

译Cursor/Graphite 的 TomasReimers 刚刚宣布了 Origin，这是 @cursor_ai 期待已久的 Git 竞争对手，可针对 agent 工作负载进行扩展，可通过 API 和 MCP 扩展，并内置合并冲突和协同故障 agent 解决功能。颇具讽刺意味的是，SpaceX/AI/Cursor 在成立第一天就发布了一个“蓝色起源”产品（就在 @JeffBezos 发布 Prometheus 之后）

jason@jxnlco · 6月17日37

feeling confused about computer use, browser use, and the chrome extension? this is for you by the end you'll know what each one is, how it works, and how app shots ties it all together

译对 computer use、browser use 和 chrome extension 感到困惑？这篇就是为你准备的读完后你会明白它们各自是什么、如何工作，以及 app shots 如何将它们串联起来

Rohan Paul@rohanpaul_ai · 6月17日46

TokenPilot reduces LLM agent costs via ingestion-aware compaction and lifecycle-aware eviction. Achieves 61–87% cost reduction on PinchBench and Claw-Eval with competitive scores. Argues that cheaper AI agents need stable memory, not just shorter prompts. Older methods usually cut or summarize the history, but that can shift the text around and break the prompt cache, which is the system that reuses unchanged prompt text to save money. TokenPilot tries to fix both sides at once by cleaning new tool results before they enter the context and by keeping the early prompt layout stable across tasks. It also waits before deleting old task history, because finished work can still help later tasks that refer to the same files or goals. ---- Link – arxiv. org/abs/2606.17016v1 Title: "TokenPilot: Cache-Efficient Context Management for LLM Agents"

译TokenPilot 提出一种针对 LLM 智能体的缓存高效上下文管理方法，通过摄入感知压缩和生命周期感知驱逐两大机制，在 PinchBench 和 Claw-Eval 基准上实现 61–87% 的成本降低，同时保持有竞争力的分数。传统方法通常直接截断或摘要历史，容易导致文本偏移、破坏 prompt 缓存。TokenPilot 在工具结果进入上下文前进行清理，保持早期提示布局稳定；同时延迟删除旧任务历史，因为已完成的工作仍可能为引用相同文件或目标的后续任务提供帮助。

MiniMax (official)@MiniMax_AI · 6月17日43

nice example of M3 in a real agent loop, all served through @togethercompute

译MiniMax 展示了其 M3 模型在真实 Agent 循环中的应用，通过 Together Compute 提供完整模型栈：Parakeet 负责语音转文字（STT）、MiniMax Speech 2.8 负责语音合成、MiniMax M3 负责推理。Demo 为一个 Mac 顶栏应用，用户提问后 M3 读取屏幕指出薄弱环节，再通过指令直接编辑磁盘上的文件。切换 STT 至 Together AI 后，延迟从 546ms 降至 277ms。

Rohan Paul@rohanpaul_ai · 6月17日65

AI agents are removing friction from work one workflow at a time. Any rule-based workflow with structured chaos is AI-agent territory. Okara just launched an influencer marketing Agent that turns creator campaigns from agency work into software work.

译Rohan Paul 指出，基于规则的混乱工作流正是 AI Agent 的领地。引用 Okara 官方消息，其发布全球首个网红营销 Agent：用户只需告知推广目标，该 Agent 即可自动发现创作者、联系沟通、管理活动、处理付款并上线内容，将机构工作转化为软件工作。访问 okara.ai/influencer 即可体验。

Jim Fan@DrJimFan · 6月17日64

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy but stay safe, don't waste precious compute. Make no mistake. Then humans step aside and our watch begins. The robot fleet starts to come alive: they learn to look for visual clues, reset the scene, practice novel skills, tinker with control stack, read papers online, debate, reflect, get stuck, and try again directly on the hardware. All we did is to give Codex an API to the world of atoms, and the rest is emergence. ENPIRE is able to solve high-precision tasks like tying zip-ties, organizing fine pins, and installing GPUs all by itself. We also discovered a new type of "physical scaling": 8 robots exploring in parallel improves significantly faster than fewer ones. A part of our NVIDIA GEAR lab now self-improves tirelessly over night. We just read the reports in the morning. /goal: we all take a holiday and Jensen wouldn't even notice ;) We will be open-sourcing everything, so you can host your self-running robot lab at home too! Deep dive in the thread:

译NVIDIA GEAR 实验室首次在物理世界启用 AutoResearch，推出 ENPIRE 项目。给 8 个 Codex 智能体分配机器人舰队、GPU 和 token 预算，目标快速安全完成任务。人类退出后，机器人舰队自主学会寻找视觉线索、重置场景、练习新技能、调整控制栈、阅读论文、辩论反思。ENPIRE 能高精度完成扎带、整理细针、安装 GPU 等任务。发现物理扩展：8 机器人并行探索比少机器人效率显著提升。实验室部分可整夜自我改进，早上读取报告。所有内容将开源。

ClaudeDevs@ClaudeDevs · 6月17日56

How do teams get agents into production? New blog post from our Applied AI team on Claude Managed Agents and the challenges it solves (credentials, sandboxing, observability, & more) ...

译团队如何让 AI 智能体投入生产？我们 Applied AI 团队的新博客文章，关于 Claude Managed Agents 及其解决的挑战（凭证、沙箱、可观测性等）...

Satya Nadella@satyanadella · 6月17日70

Copilot Cowork is now generally available worldwide, now with multi-model support! Every organization can put long-running agents to work on complex, multi-step tasks, grounded in your organization's unique knowledge and know-how. https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available/?v=15

译Copilot Cowork 现已全球正式可用，并支持多模型！每个组织都可以让长期运行的智能体处理复杂的多步骤任务，基于你组织的独特知识和专有技术。 https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available/?v=15

OpenAI Developers@OpenAIDevs · 6月17日42

More of Codex is rolling out across Europe this week. We’re bringing Computer use, the Codex Chrome extension, personalized memory, and Chronicle to Codex users in the EEA, UK, and Switzerland. https://developers.openai.com/codex/changelog/#codex-2026-06-16-app

译本周，更多 Codex 功能正在欧洲各地推出。我们正在将 Computer use、Codex Chrome 扩展、个性化记忆和 Chronicle 带给 EEA、英国和瑞士的 Codex 用户。

Google Gemini@GeminiApp · 6月17日64

Organize your day before you even wake up with Daily Brief, your new morning AI agent. Here are some helpful tips from the Gemini app team to help you get the most out of your Daily Brief: 1) Thumbs up 👍 or thumbs down 👎to give feedback: This is the quickest and most direct way to teach Gemini what you want to see more or less of in your Daily Brief. 2) “Chat with Gemini” to fine-tune: If you want to ask questions about any item in your Daily Brief or give even clearer direction on what you want to see more, you can chat directly with Gemini. 3) Check an item’s source: If you want to confirm the source of an item in your Daily Brief, you can click ‘More’ below it to see the specific email, chat, or event in your Google Calendar that Gemini referenced. How are you liking Daily Brief so far? We’re constantly working to make Gemini better, and your feedback helps make it more useful and helpful for everyone. Share any Daily Brief feedback or tips you have in the replies. 👇

译Gemini 应用推出名为 Daily Brief 的新 AI 智能体，用户可在起床前用它规划一天。官方提供三条使用建议：1）通过点赞或踩直接反馈，训练 Gemini 了解偏好；2）直接与 Gemini 对话，对简报内容提问或调整；3）点击简报项下方的“更多”按钮，查看 Gemini 引用的具体邮件、聊天或 Google 日历事件来源。目前该功能已上线，官方持续收集用户反馈以改进体验。

StepFun@StepFun_ai · 6月17日51

Excited to see Step 3.7 Flash live via @novita_labs on @OpenRouter. Built for high-efficiency agent workloads, Step 3.7 Flash combines native multimodal understanding, strong agentic coding capabilities, reliable tool use, and web & visual search workflows for production AI agents. Thanks to the Novita team for helping expand the StepFun ecosystem.

译阶跃星辰的 Step 3.7 Flash 已通过 Novita 在 OpenRouter 上线。该模型专为高效智能体工作负载设计，具备原生多模态理解、强智能体编码能力、可靠工具使用，以及网页与视觉搜索工作流。引用信息强调其高效多模态推理和多步工具使用能力，主要面向编码与智能体应用场景。

elvis@omarsar0 · 6月16日43

Got a chance to try out @mattpocockuk /teach skill. It's similar to my /learn skill. You can try the skill with Hermes Agent right now in our academy. I will keep the lab FREE for now. It's amazing to learn with AI agents. Go try it!

译有机会尝试了 @mattpocockuk 的/teach 技能。它类似于我的/learn 技能。你现在就可以在我们的 academy 中使用 Hermes Agent 尝试该技能。我会暂时保持实验室免费。用 AI 智能体学习真是太棒了。去试试吧！

凡人小北@frxiaobei · 6月16日70

workbuddy 确实确实被低估了，身边很多同事和朋友都有付费，如果要做个类比，可以算作是工作场景的豆包。而我的可耻用法是把 workbuddy 当成了 skill store，在这里总能找到腾讯精选的 skill。比直接上 github 找到的质量高多了。方法也很简单：在电脑上某个位置可以找到 workbuddy 安装的所有 skill（其他的桌面端产品方法类似），如果找不到的话就问问你用的软件。

译腾讯 WorkBuddy 自 3 月至今用户增长远超预期，日活数据已达到第二名产品的 3-4 倍以上，用户包括大量 HR、运营、行政等非技术岗人员，以及金融、餐饮、外贸等非互联网行业。作者将其作为 skill store 使用，可找到腾讯精选的优质 skill。引用指出其代表第三代办公 Agent 模式，对传统 Office 和云协同产品形成降维打击，近期还推出企业版和项目功能，意图抢占新一代 Agent 办公场景。

Xiaomi MiMo@XiaomiMiMo · 6月16日70

🚀 MiMo Claw is now live！

译小米 MiMo 推出旗舰 AI 模型 MiMo Claw，集成金山办公（Kingsoft Office）。支持 Word、Excel、PowerPoint、PDF 等工作流，通过智能体实现可靠长任务执行，token 消耗比同类方案低 40–60%。每日免费使用时长从 1 小时扩展至 4 小时，全云端无需部署。限时订阅价 ¥14.9/月。

Rohan Paul@rohanpaul_ai · 6月16日61

"I don't prompt Claude anymore. I write loops and the loops do the work. My job is to write loops." - Boris Cherny, creator of Claude Code. @withneo 's newly launched MCP server gives Claude Code a local AI engineering worker through neo-mcp. It lets Claude Code hand off complex AI/ML tasks to Neo, which can implement code, run experiments, evaluate results, debug failed runs, and return the full execution trail. I.e. Claude Code talks to you, Neo does the longer ML work. In one benchmark, Claude Code + NEO cut task cost from $1.96 to $0.74, made runtime 37% faster, and switched the backend from PyTorch to ONNX Runtime for CPU-optimized execution. Connect Claude Code, Cursor, VS Code, and other MCP clients to NEO. The editor stays in control of the conversation. NEO does the AI engineering. So Neo becomes the execution layer for AI engineering work. Claude Code hands off the task. Neo plans, runs experiments, monitors progress, evaluates results, and returns the trail: transcripts, files, metrics, reports, or repo changes. That feedback loop matters. Instead of burning Claude Code’s limited iterations babysitting long-running tasks, Claude can use Neo’s MCP tools to check status, pause, resume, inspect the trail, or ask for input at decision points. Claude stays focused on decisions, not execution noise.

译Boris Cherny（Claude Code 开发者）表示不再手动提示 Claude，而是编写循环让循环工作。@withneo 新发布的 MCP 服务器 neo-mcp 为 Claude Code 配备了本地 AI 工程工人 Neo。Claude Code 可将复杂 AI/ML 任务委托给 Neo，由其实现代码、运行实验、评估结果、调试失败运行并返回完整执行轨迹。在基准测试中，Claude Code + NEO 将任务成本从 $1.96 降至 $0.74，运行时间缩短 37%，并将后端从 PyTorch 切换为 ONNX Runtime 以优化 CPU 执行。该 MCP 服务器支持连接 Claude Code、Cursor、VS Code 等客户端，编辑器控制对话，Neo 负责执行，Claude 专注于决策而非执行噪音。

elvis@omarsar0 · 6月16日38

// OpenClaw-Skill: Searching a Tree of Agent Skills // If you build reusable skill libraries for your agents, this one is worth your time. Equipping LLM agents with effective skills is most of the battle in real systems, and most skill-induction work distills one trajectory at a time into a flat pile of single-shot heuristics. Searching a tree of candidate skills looks like a better way to get composition and coverage than greedy distillation. OpenClaw-Skill uses a collective signal to jointly generate, identify, and compose skill nodes across two iterative phases. The output is a structured tree of skills built for diversity and generalization rather than a flat list. Paper: https://arxiv.org/abs/2606.16774 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译OpenClaw-Skill是一种为LLM智能体构建可复用技能库的方法。传统技能归纳通常将单条轨迹一次蒸馏成扁平的单次启发式规则，而OpenClaw-Skill通过搜索候选技能树来替代贪婪蒸馏，在迭代阶段中利用集体信号联合生成、识别和组合技能节点，最终输出结构化的技能树，旨在提升技能的多样性和泛化能力。论文详见arxiv。

凡人小北@frxiaobei · 6月16日65

workbuddy 确实确实被低估了，身边很多同事和朋友都有付费，如果要做个类比，可以算作是工作场景的豆包。而我的可耻用法是把 workbuddy 当成了 skill store，在这里总能找到腾讯精选的 skill。比直接上 githun 找到的质量高多了。方法也很简单：在电脑上某个位置可以找到 workbuddy 安装的所有 skill（其他的桌面端产品方法类似）。腾讯的产品力是可以相信的。

译腾讯WorkBuddy自3月至今，日活已达第二名的3-4倍以上。用户除开发者外，涌入大量HR、运营、行政等非技术岗，黑客松场景覆盖金融、餐饮、外贸、法律等非互联网行业。商业模式从卖软件转向卖智能，辅助用户造最适合自己的工具。已有Trae Work、QoderWork、Kimi Work等产品跟进改名。腾讯云称此为十年一遇机遇，已推出企业版和项目功能。用户也可将WorkBuddy用作skill store，获取腾讯精选skill，质量高于GitHub公开资源。

数字生命卡兹克@Khazix0918 · 6月16日63

聊聊这个可能被大家低估的Agent场景。今天去了腾讯活动的现场，当了下主持和评委。也跟很多选手，还有腾讯云的几个大佬交流了一下。还真的有点新东西冲击的，这个确实是我在过去之前没预想到的。最核心的点，就是整个WorkBuddy在用户增长和规模上，完完全全超出了我的预期。我们每天在聊Claude Code，在聊Codex，但如果你把目光放回到国内，你会发现，WorkBuddy，从3月到现在，居然已经干到了一个非常离谱的日活数据，这个数据我不太好透露出来了，但是基本是第二名的3、4倍以上。而且它的用户构成不止是开发者，还有大量的HR、运营、行政这些非技术岗的人也涌了进来，并且真的在拿它干活。今天的黑客松场景，也几乎都是金融、餐饮、外贸、法律等等各种非互联网行业。坦率的讲，这个增长速度和用户结构，对传统的第一代办公产品和第二代云协同产品，我觉得可能确实会产生一些实质性的冲击。我自己把办公产品大概分成三代。第一代是Office那个时代，本地装个软件，干活全靠自己。第二代是云办公这一波，多人一起协同干活，但活基本还是你自己干。而这一代，以Claude Code、Codex这样的通用Agent为首，好像对传统的办公产品，形成了广泛的降维打击。反正我自己的体感是，如果一个Agent能直接帮我把活干了，那我为什么还要打开一个让我自己干活的工具呢？这个逻辑一旦成立，传统办公产品的使用时长就一定会被压缩。而且更深一层的变化是，前两代的商业模式，都是卖软件给你用，比如office卖给你写文档，钉钉卖给你做协同，它们做好一个产品，所有人用同一套东西。但这一代，卖的不是软件了。它卖的是智能，这个智能可以辅助你去造最适合你的软件，给自己用。你搓出来的东西，就是为你自己的场景量身定做的，不存在什么功能用不上或者缺了个我要的功能这种事。这个对传统办公是巨大的冲击。所以最近你能看到，很多很多的Agent产品，在WorkBuddy之后，批量改名活出新，要去抢这一块的东西。比如Trae Work、QoderWork、Kimi Work等等。这个场景绝对不可能放掉的，按腾讯云的话说，对他们来说，这可能，是十年一遇的机遇。再加上，他们前几天推出的企业版，还有项目功能，野心已经展露无疑了。这套东西一旦跑通，它吃掉的就不是某一个功能的市场。它吃掉的是人在工作流里反复操作这个行为本身，然后再以这个行为，诞生全新一代的Agent办公场景。几十年了，办公的这些模式。我觉得真的该动一动了。

译卡兹克在腾讯活动现场发现，Agent产品WorkBuddy自3月至今用户增长远超预期，日活已是第二名的3-4倍以上；用户包括HR、运营、行政等非技术岗，黑客松场景覆盖金融、餐饮、外贸、法律等非互联网行业。他认为这代表了第三代办公产品（第一代本地Office、第二代云协同），直接帮用户完成任务。腾讯云视其为十年一遇机遇，刚推出企业版和项目功能。受此影响，Trae Work、QoderWork、Kimi Work等产品纷纷跟进改名或转型。