Codex 里面可以 Review 代码的修改（比如选择Last turn就是上一次 AI 更改的），然后可以对部分内容进行评论，评论的内容会直接附加在左侧的会话内，提交就可以作为上下文发给 Agent，让它对评论处理

译Codex 现在支持审查代码修改，可选择“Last turn”查看上一次 AI 更改的内容，并对部分代码进行评论。评论会直接附加在左侧会话中，提交后作为上下文发送给 Agent，使其能针对评论进行处理。

This chart from Anthropic is useful, since Agent Teams and Workflows are both very new and very powerful (and token hungry). On the other hand, maybe it doesn't matter as a lot of the decisions about which approach to use is from the AI itself & it often uses them in combination

译Anthropic的这张图很有用，因为Agent团队和工作流都非常新且强大（而且消耗大量token）。另一方面，也许这并不重要，因为关于使用哪种方法的许多决策来自AI本身，并且它经常组合使用它们。

Nathan Lambert@natolambert · 6月6日54

I still stand by this despite the recent Anthropic post. There are still serious bottlenecks in building the model that the agents don’t address (organizational, compute, data access, etc). It’ll take time to push through them and we will see "linear" gains for years to come.

译尽管最近 Anthropic 发了帖子，我仍然坚持这个观点。构建模型仍然存在严重的瓶颈（组织、计算、数据访问等）。突破这些瓶颈需要时间，未来几年我们将看到“线性”的进步。

Lee Robinson@leerob · 6月6日74

Cursor (and coding agents generally) still blows my mind daily. Just today: 1. I shipped a new landing page. I gave a 10min voice note to Cursor, left to go eat dinner, and came back to a 90% finished version. Made some small design and copy tweaks and merged. 2. Had Cursor dig through Search Console and Semrush with computer use, researched places we could improve SEO, and then merged 3 PRs with fixes. 3. Used the Supabase MCP to pull thousands of emails from the Compile waitlist, had it research them with web search based on ideal fit for the event, and got back a CSV with the top people to invite and why. 4. Updated an internal app I built for doing company-wide surveys (think Typeform but Cursor branded) in a few hours before our All Hands. 5. Had a few agents researching furniture I'm hoping to buy. They searched the web for a bunch of variants and then made a custom shopping cart (just an HTML page) with images, prices, links, and tons of details. Super helpful. I don't do this every day, of course, but it's still wild to me this is the new normal for what someone with a computer and AI can do. Most of these were running in the cloud as I was between meetings, just humming away in the background. I could check the app (🔜) to see progress and merge PRs. What a time to be alive. (P.S. if you extrapolated my usage today, I'd still be on the $200/mo plan)

译Lee Robinson 展示 Cursor 编码智能体今天的五个任务：1）10 分钟语音笔记生成 90% 完成的着陆页并合并；2）Cursor 用 computer use 分析 Search Console 和 Semrush 后合并 3 个 SEO 优化 PR；3）通过 Supabase MCP 提取数千封邮件，结合网络搜索筛选参会者并生成 CSV；4）几小时内更新内部全员调查应用；5）多个智能体研究家具并生成含图片、价格、链接的定制购物车 HTML 页面。这些任务在云后台静默运行，可实时查看进度和合并 PR。作者表示仍使用 $200/月计划。

ginobefun@hongming731 · 6月6日65

http://x.com/i/article/2063037236174802944 # BestBlogs 早报 · 06-06｜腾讯 AI、Agent 沙箱、中美算力 > 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-06 腾讯首席 AI 科学家姚顺雨首次公开亮相，直言「下半场才刚开始」，从方法论成熟到寻找好问题的转变值得深思。与此同时，Agent 基础设施的安全边界正在被重新定义——硬件虚拟化的 microVM 与中美算力格局的最新一手观察，同样是今日不容错过的读点。 ## 导语今天是 2026 年 6 月 6 日，BestBlogs 从过去 24 小时收录的内容中精选出今日早报。今日三大精讲涵盖三个相互呼应的维度：人（腾讯首席 AI 科学家姚顺雨的战略判断）、基础设施（Agent 安全沙箱的工程实现）、生态（中美 AI 算力格局的第一手观察）。三篇文章合在一起，勾勒出当前 AI 工业化落地的完整图景——从战略逻辑，到工程实现，再到全球竞争格局的实地素描。速览部分包含 7 篇精选内容：从编写 AI Skill 的实战经验手册，到一位非技术背景销售员用 Claude Code 重建工作流的亲历记，再到微软 Build 大会「智能体工程取代编程」的现场观察、腾讯混元 Stem 稀疏注意力算法的技术突破、多智能体小模型经济模拟的实验报告、Google DeepMind 的 Text Diffusion 低延迟架构探索，以及 Anthropic 关于 AI 递归自我改进的深度长文。补充阅读涵盖强化学习环境质量、Google Gemma 4 12B 发布、AI 行业综合周报，以及 Claude Code 评测与工程实践的两篇深度工程文，还有 Skills 渐进式披露的设计模式。今天的内容聚焦于一个共同命题：AI 工业化的下半场，决胜点在哪里？ ## 精讲一：汤道生姚顺雨对谈：腾讯 AI 的下半场来源：腾讯科技 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/1fa6207b) 姚顺雨：第一次公开亮相，直指战略核心 6 月 5 日，腾讯云 AI 产业应用大会上，腾讯集团高级执行副总裁汤道生与首席 AI 科学家姚顺雨同台对谈，这是姚顺雨加入腾讯后第一次在公司公开活动中正式亮相。姚顺雨的履历颇为显赫：他是 ReAct 智能体范式的提出者，也是 OpenAI 旗下 Operator 和 Deep Research 两个 Agent 产品的核心贡献者。2025 年 12 月正式出任腾讯「首席 AI 科学家」，直接向总裁刘炽平汇报，同时兼任 AI Infra 部与大语言模型部负责人。他到任的第一个重要动作，是从 2026 年 2 月起主导重建混元团队的预训练与强化学习基础设施。这场名为《腾讯 AI 的下半场》的约 45 分钟对谈，实际上是一次罕见的战略公开陈述——一位掌握腾讯模型方向决策权的人，第一次系统性地解释他的判断框架。核心判断：从「怎么训练」转向「找好问题」对谈的第一个核心判断，是关于 AI 范式转移的时间节点。姚顺雨早在 2025 年 4 月就在个人博客发表过《The Second Half》，提出 AI 正站在中场分界线上的判断。八个月后，加入腾讯的决定本身，就是对这个判断的实践注脚。他的逻辑是：过去十年，AI 领域的核心挑战是「怎么训练」——从 AlphaGo 到预训练大模型，每一项突破都是方法论层面的创新。但预训练与后训练体系建立之后，AI 相当于拥有了一把「万能锤」，可以砸向任何钉子。在这种情况下，方法论的稀缺性退场，好问题的稀缺性成为新的核心矛盾。这意味着，AI 竞争的核心不再是谁能造出更强的模型，而是谁能定义什么问题值得解决，以及谁拥有解决这些问题所必须的数据与场景生态。对腾讯而言，这个转变是战略性利好。他指出三个关键词：问题（腾讯有元宝、ima、CodeBuddy、WorkBuddy 等丰富产品场景）、环境（Agent 需要工具和接口才能行动，腾讯的产品矩阵提供了天然的工具生态）、context（最终的竞争壁垒来自谁掌握最原始的用户上下文数据，腾讯有企业与个人两端的海量积累）。他明确表示，context 是 Agent 时代最重要的差异化因素，因为「模型越来越擅长把一个非常复杂的输入变成一个输出，你的竞争壁垒就来自于你知不知道这个人他到底在干什么」。 Hy3 Preview：495 步 Agent 工作流的背后对谈同时披露了 Hy3 preview 的具体数据。这款参数规模为 295B 总参数、21B 激活参数的混合专家模型，在 CodeBuddy 与 WorkBuddy 上首 token 延迟降低了 54%，并且能够稳定驱动最长 495 步的复杂 Agent 工作流。上线 OpenRouter 后，一度拿下周榜调用量与市场份额双第一。值得注意的是，Hy3 preview 版本明确定位为「以实用性为导向」，不是为了刷榜，而是为了收集真实世界反馈，修复榜单无法发现的底线问题。姚顺雨对此的解释颇为务实：benchmark 有价值，但容易 saturate（饱和）；真实世界的 prompt distribution 更复杂、更模糊、多轮，这些是 benchmark 无法覆盖的训练信号来源。 Co-Design：模型与产品如何深度协同汤道生提出的「Co-Design」概念，是整场对谈的另一条主线。他以「产品老兵」的视角，描述了 AI 时代做产品与 PC、移动互联网时代的本质不同：过去的产品像「预制菜」，通过功能菜单满足需求；AI 产品则面对完全开放式的用户输入，产品方甚至无法预知用户会问什么，必须依赖模型能力来理解并响应。这种变化倒逼组织形态向小团队化、实验驱动靠拢。工程师的角色从「写功能」变为「驱动多个 coding agent 的产品 leader」。姚顺雨对 Co-Design 的拆解分三点：其一，预训练是相对 product-agnostic 的，做得扎实可以为多个下游产品提供可泛化的基础；其二，后训练的关键是设立正确的 eval——以元宝为例，真实对话中用户的问题比 benchmark 更模糊、更多轮，这些真实反馈可以发现 benchmark 发现不了的底线问题；其三，LLM 时代与过去 AI 最本质的区别是泛化性——即使目标是 Coding Agent，也需要聊天、搜索、指令遵循、推理等多维度能力，这意味着有多元产品矩阵的公司，数据之间可以相互泛化，形成网络效应。对谈结尾，汤道生宣布腾讯将发布一套「效率智能体工具集」，背后整合了场景连接、Harness 工程体系与混元模型 Co-Design 三重能力。为什么这篇值得精读这篇对谈兼具战略高度与技术细节，且两者并非并列关系——战略判断有工程实现的支撑，工程细节有方法论框架的解释。姚顺雨以 ReAct 提出者和 OpenAI Agent 产品实践者的身份，直接给出了他对「下半场」的第一性原理拆解，而不是泛泛的愿景陈述。外界质疑腾讯「慢了」，姚顺雨的回答是：如果 AI 是一场长期游戏，下半场才刚刚开始，那现在并非晚了；ChatGPT 和 Claude 不会是唯一的超级应用，coding agent 之外还有大量新的产品范式等待探索。这个判断背后的逻辑链——方法论成熟、好问题稀缺、context 是壁垒——值得每位 AI 从业者认真推敲。 ## 精讲二：给你的 AI 智能体一台专属电脑来源：LangChain Blog · 评分 91 · [阅读全文](https://www.bestblogs.dev/article/dc9482cb) 从「让 Agent 跑起来」到「让 Agent 安全地跑起来」 Agent 能力提升的速度，远远超过了 Agent 安全基础设施建设的速度。LangChain 的这篇文章，正面回应了一个越来越迫切的工程命题：当 Agent 需要执行代码、访问文件系统、安装依赖、持久化状态时，应该给它一台什么样的「电脑」？ Satya Nadella 在 Microsoft Build 大会上的判断被引为文章开篇：「Every agent needs a computer.」这不是比喻，而是字面意义上的基础设施需求。Cursor、Claude Code、ChatGPT 的代码解释器之所以强大，正是因为它们拥有了一个可以运行代码、看到错误、修复再跑的反馈闭环——这个反馈闭环，是区分演示 Agent 与生产 Agent 的关键分界线。为什么容器不够用：两个真实案例许多团队在早期原型阶段选择 Docker 容器来隔离 Agent 执行环境。文章以两个具体案例指出，这种方案在生产环境中遭遇两道硬墙。第一道：Agent 本质上执行不可信代码。 Agent 运行的代码可能来自模型生成、用户提示词、克隆的仓库，或者安装的第三方包。没有任何一条路径是完全可信的。2025 年 9 月，npm 生态出现了自我复制蠕虫 Shai-Hulud，在 preinstall 阶段感染了超过 500 个包，第二波在 11 月进一步波及 796 个包和 25,000 多个 GitHub 仓库，且感染发生在任何验证逻辑执行之前。一个会安装 npm 包的 Agent，天然暴露在这类供应链攻击面前。第二道：容器共享宿主内核，不是真正的隔离边界。 CVE-2026-31431（Copy Fail）是一个 732 字节的 Python 脚本，利用 Linux 内核 crypto API 漏洞，可以提权至宿主机 root，覆盖从 2017 年到现在几乎所有主流 Linux 发行版。文章点出了一个令人不安的细节：AI 工具链发现这个漏洞大约用了一小时。这两个案例放在一起，说明了一个清晰的工程结论：对于模型生成或用户可控代码，容器隔离是不够的，需要硬件级别的隔离边界。 LangSmith Sandboxes：microVM 的设计哲学 LangSmith Sandboxes 给出的答案是基于硬件虚拟化的 microVM。与容器不同，microVM 拥有独立内核，每个沙箱实例之间不共享任何内核级别的资源，内核漏洞无法跨越边界影响宿主机或其他沙箱。这个方案的工程特性覆盖了 Agent 执行场景的主要需求： - Serverless 启动速度：微秒级冷启动，而非传统 VM 的秒级。对于需要按需弹起、用完即毁的 Agent 沙箱场景，这是关键。 - 完整机器持久状态：沙箱拥有完整的文件系统、进程空间和网络栈，Agent 可以在同一沙箱内持续工作数小时，维护跨步骤的状态，而不是每次调用都重置环境。 - 快照与分叉：可以对沙箱状态打快照，并从同一快照分叉出多个并行实例。这对 RL 训练（需要在同一环境状态下并行运行多个 episode）和批量评测场景极为重要。 - 蓝图预热：预先配置好的沙箱环境可以池化复用，避免重复安装依赖的冷启动延迟，在大批量任务场景下降低端到端延迟。文章中还描述了一组典型的 Agent 使用场景，帮助读者理解「为什么 Agent 需要一台真正的电脑」：一个 coding assistant 不只是建议修复方案，而是应用修复方案、运行测试套件、确认没有破坏已有功能；一个 CI agent 可以克隆仓库、安装依赖、跑完整测试、开 PR；一个 RL 评测 harness 需要从零到数千个沙箱的弹性扩缩容。这些场景的共同前提：Agent 需要一个有状态的、持续的、安全的工作空间。关联今日主题：精讲一与精讲二的互文这篇文章与精讲一（腾讯 Hy3 驱动 495 步 Agent 工作流）构成有趣的互文：一篇讨论 Agent 能做什么，另一篇讨论 Agent 在什么样的基础设施上才能安全地做。Hy3 preview 能够稳定驱动数百步复杂 Agent 工作流，恰恰需要精讲二所描述的基础设施作为前提。Agent 能力越强，对安全执行环境的要求越高，两者是正向绑定的关系。从整个 AI 行业的视角来看，「给每个 Agent 一台专属电脑」正在成为基础设施的新标配。这不是某一家公司的产品决策，而是 Agent 工作负载对基础设施提出的客观需求。对于正在构建 Agent 代码执行系统的工程师，这篇文章是当日最具工程价值的必读材料：它不只解释了「为什么」，也给出了「怎么做」的工程参考框架。 ## 精讲三：科技爱好者周刊（第 399 期）：中国 AI 大厂访问记来源：阮一峰的网络日志 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/6933ad74) 第一手观察：打破中美 AI 认知的信息茧房 2026 年 5 月上旬，一个由多位美国科技分析师组成的访问团赴华，走访了 14 家 AI 与机器人公司，包括 DeepSeek、月之暗面、MiniMax、智谱、字节跳动、阿里、蚂蚁、小米、零一万物、宇树、魔搭社区等头部机构。访问结束后，Kevin Xu、Azeem Azhar、Nathan Lambert 等多位成员独立撰文分享观感，阮一峰在本期周刊中将关键摘录系统整理，配以简洁导读。这是少见的中美 AI 生态直接对比一手材料。不是二手数据引用，不是媒体转述，而是身处硅谷的分析师在中国实地观察后形成的第一手认知。这类材料的价值，在于它能够绕过两边各自的叙事框架，提供一个相对中立的外部视角。算力：差距是真实的，但效率弥补了大半访问团的最核心发现，围绕算力展开，且得出了两组看似矛盾实则互补的结论。差距的量级：中国 AI 公司普遍反映算力不足，根本原因是美国的芯片出口管制。英伟达最新款 GB300 NVL72 系统在实时推理速度上比三年前的 H100 集群快 30 倍，每颗芯片内存容量高出 3.6 倍，每次推理能耗降低 25 倍，美国公司正在大量订购，而中国公司无法获取。访问团估计，2025 年底美国 AI 算力约为中国的 8 倍，中国目前的总算力大致相当于美国 2023 年的规模。华为 Ascend 950PR 性能大致相当于 2022 年的 H100，且出货量仅为英伟达同期的十分之一左右。效率的弥补：然而，「算力少一个数量级」并不等于「模型能力落后两年」。访问团的关键发现是，芯片管制反而逼出了计算效率创新——中国公司的单位算力支持的 AI 智能是简单扩展下的 4-7 倍。分析师们向中国研究人员透露了 OpenAI 内部每位研究人员拥有的 GPU 数量，对方「简直惊呆了」，然而西方 AI 公司的研究人员仍然普遍抱怨算力不够。这个细节揭示了两种截然不同的稀缺性适应策略。此外，中国的算力分配结构与美国不同：美国的大部分算力用于模型训练，中国的算力同时要服务数亿消费者和快速增长的企业用户，这进一步压缩了可用于训练的资源池，也是促进效率创新的另一个驱动因素。组织与文化：年轻、流动、产学一体访问团的另一组引人注目的观察聚焦在人。中国 AI 公司的员工平均年龄二十五六岁，大多数仍是博士在读，实习期长达 1-2 年，享有与全职员工相同的权限和待遇，可以自由提出想法、开展工作实验。这与西方顶级 AI 公司形成鲜明对比：OpenAI、Anthropic、Cursor 等公司根本不提供实习，其他公司（如谷歌）的实习机会也不会涉及核心模型工作。背后有结构性原因：中国顶尖高校的计算资源根本无法满足优秀博士生的研究需求，而业界公司拥有更丰富的算力。双方的利益在「合作发论文、提供算力与全权限」这个模型下找到了交汇点。结果是一种产学高度交融的人才生态：年轻、灵活、边界感弱，新想法的涌入速度快。开源分歧、竞争格局与 AI 安全态度访问团还记录了若干有意思的切面。开源分歧：一条越来越清晰的界线正在形成——参数规模达到一万亿。部分公司认为开源万亿参数模型是资源浪费，因为没人能在本地运行如此庞大的模型，更好的方式是云端 API；另一些公司则将开源视为信仰和入场券。竞争格局：访问团观察到字节跳动 Seed 部门被全行业敬畏——因为豆包几乎垄断了 AI 用户流量，且他们的模型可以快速推广到海量用户，这是其他公司无法匹敌的渠道优势。DeepSeek 则是最受业界尊重的公司，越来越多地承担基础架构层工作：架构、效率、推理优化，以及华为协议栈适配。 AI 安全态度：访问团与年轻中国研究人员讨论 AGI，得到了几乎相同的答案：「AGI 就是 AI 可以取代我！」对方不只是不害怕，而是对「机器是否真的能超越其制造者」充满好奇。这与西方同行形成鲜明对比——西方许多研究人员深度关注 AI 安全及其社会影响，而中国研究人员更多把安全监管的责任交给政府。为什么这篇值得通读这篇文章的价值不在于任何单一数字，而在于跨越信息不对称的整体视角。中美双方对彼此 AI 生态的认知，经常被媒体叙事和地缘政治情绪扭曲，信息质量参差不齐。这次由技术分析师构成的访问团，提供了一份尽可能接近事实的直接观察。将这篇文章与精讲一（腾讯对 context 数据与问题寻找的战略判断）连读，可以得到更完整的中国 AI 发展图景：一篇是内部视角的战略逻辑，一篇是外部视角的生态素描，两者互补，共同描绘了一幅比任何单一来源都更立体的画面。 ## 速览如何写好 Skill：一份终极实战经验手册腾讯技术工程 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/b7742f5e) 腾讯工程师 jackjchou 整理的 Skill 编写完整方法论，从基础概念、结构设计，到高级技巧、安全规范与工程化评估，覆盖「从没写过 Skill」到「负责团队规范」的完整阅读路径。核心洞察：Skill 本质上是结构化的 Prompt Engineering，它把分散在人脑中的领域知识与流程经验，转化为 AI 可执行的指令集。文章详解 Anthropic 的三层渐进式加载机制（元数据常驻、SKILL.md 触发加载、附件按需引用），指出编写时的常见反模式，以及团队 Skill 规范化管理的要点。正在或计划用 Claude Code、CodeBuddy 等工具提升团队工程效率的读者，这份手册值得当作参考文档收藏。从客户经理到产品经理：Anthropic 销售员如何用 Claude Code 重建团队工作流 Claude Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/8af798c7) Anthropic 客户经理 Jared Sires 没有任何编程背景，却用 Claude Code 从零构建了 CLAFTS（Claude Drafts）——一个嵌入 Gmail 的邮件起草工具。他每天要处理 10-15 个客户电话，加上大量外发邮件，经常工作到晚上 9-10 点。CLAFTS 最终每周为他节省 10-15 小时，分享到内部 Slack 后，24 小时内整个销售团队开始使用。这个案例最有价值的地方，不只是「非技术人员也能用 AI 编程」，而是它展示了 AI 原生工具如何重塑角色定义——Jared 随后转型为 GTM 产品经理，专门识别销售组织的流程问题并构建 AI 解决方案，将自身对业务流程的理解与 Claude Code 的执行能力结合成新的职业路径。 Microsoft Build 主题演讲：智能体工程取代了编程 Cory House(@housecor) · 评分 90 · [阅读全文](https://www.bestblogs.dev/status/2061953686847557962) Cory House 在 X 上的一条观察引发广泛共鸣：微软长达 3.5 小时的 Build 主题演讲，全程没有提及 C#、.NET 或 TypeScript。这三个词曾长期是微软开发者大会的标配符号。这不是偶然的遗漏，而是一个关于技术叙事重心转移的清晰信号：编程语言让位于智能体工程，底层工具让位于能力与流程的整合。结合今日精讲一（姚顺雨对 AI 下半场范式转变的判断）和精讲二（Agent 执行基础设施的演进），这条推文的简短观察有了更丰富的诠释背景。首字延迟降低 3.6 倍，腾讯混元提出 Stem 稀疏注意力算法，长文推理加速新 SOTA 腾讯混元 · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/c1e21993) 腾讯混元发布 ICML 2026 收录论文 Stem，提出两个核心创新：Token 位置衰减（TPD）和输出感知度量（OAM）。TPD 的洞察来自因果注意力架构的递归特性——初始位置的 token 被所有后续层依赖，不应被稀疏化；OAM 则在传统注意力分数之外，引入 Value 向量携带的信息量作为 token 选择依据。两项创新组合，在仅用 25% 算力的条件下逼近稠密注意力的精度，配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍，已开源。这个成果对 Agent 工作流场景尤为重要——长上下文推理是 Agent 的高频场景，首字延迟直接影响系统响应体验。配合今日精讲一中 Hy3 的 495 步工作流能力，构成腾讯 AI 基础设施层面的完整技术布局。千符森林：在 3B 模型上运行一个多智能体经济系统 Hugging Face - Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/d15e5749) Build Small Hackathon 的一份工程实验报告：五个运行在 Qwen2.5-3B 上的林地生物 Agent，在微型经济中以石子为货币相互交易、闲聊、囤积与恐慌，最终涌现出价格泡沫、崩溃与财富分化。作者的核心结论：3B 参数级别的模型是可靠的格式生成器，但是不可靠的推理器——它可以稳定输出 JSON、遵循格式约束，但在真正需要策略推理的场景表现不稳定。另一个值得记录的洞察：「涌现出的戏剧性需要人为设计的稀缺性」——没有刻意设计的约束，多 Agent 经济系统不会自发产生有趣的动态。对于正在探索小模型多 Agent 场景的工程师，这份实地报告比理论分析更直观。 Google DeepMind 的 Text Diffusion：面向低延迟语言生成的新一代架构 AI Engineer · 评分 90 · [阅读全文](https://www.bestblogs.dev/video/93a33f8) Google DeepMind 研究员 Brendon Dillon 解释了 Text Diffusion 作为自回归 LLM 生成替代方向的工作原理与权衡。Text Diffusion 放弃因果约束，改用全双向注意力块，允许从噪声中并行解码整个序列，而非逐 token 生成。代价是单次前向计算量更大，但在特定延迟场景下有优势。Dillon 指出这项技术在批量吞吐上的代价，以及在实时、端侧和交互式产品中的应用潜力。这是值得长期追踪的架构方向，尤其适合对推理延迟有严格要求的工程师和研究者。 Anthropic: 当 AI 开始构建自己 AINLP · 评分 89 · [阅读全文](https://www.bestblogs.dev/article/c965ab9b) Anthropic Institute 递归自我改进进展报告的中文完整翻译，援引了一组内部数据：截至 2026 年 5 月，Anthropic 工程师合并进代码库的代码中超过 80% 由 Claude 编写，每位工程师每季度交付的代码量是 2021-2025 年期间的 8 倍。报告梳理了从「聊天机器人」到「自主智能体」的阶段演变，并讨论了三种关于递归自我改进的未来场景：巨大的科学与医疗收益、人类监督的重要性提升，以及潜在的失控风险。Anthropic 坦诚地公开了内部数据并直视这种趋势的潜在风险，这种做法本身就值得关注。适合对 AI 发展趋势有系统性思考需求的读者。 ## 补充阅读 [如何避免交付低质量的强化学习环境（附示例）](https://www.bestblogs.dev/article/cdd6597f) · Latent.Space · 评分 90 来自 Google Gemini RL 团队研究员的「RL Pet Peeves」系列，专注于环境质量问题：低质量的测试框架（Harness）会系统性地生成垃圾训练数据，破坏模型性能。文章提供了常见故障的分类、具体示例与修复方法，例如 mock API 缓存 bug 导致 Agent 学到错误策略、奖励函数只看测试通过而不看代码正确性等。适合正在构建 RL 训练基础设施的工程师，可与今日精讲二（Agent 执行环境安全）配合阅读。 [Google 发布 Gemma 4 12B：具备高级推理能力的开放模型](https://www.bestblogs.dev/status/2062203526588088452) · Google(@Google) · 评分 92 Google 发布最新开放模型 Gemma 4 12B，整合高级智能体推理、视觉与音频能力，采用统一架构（移除独立多模态编码器），设计在仅需 16GB VRAM 的本地硬件上运行，Apache 2.0 授权。这是开源模型生态的又一次能力跳跃，关注本地部署与开源社区的读者值得关注。 [Qwen3.7-Max 挑战谷歌争夺第三，AI 拯救鲸鱼，微调打破版权对齐](https://www.bestblogs.dev/article/2baac995) · The Batch · DeepLearning.AI · 评分 90 本期 The Batch 包含四条有价值的信息：阿里 Qwen3.7-Max 的市场竞争布局、AI 系统用于防止鲸鱼与船只相撞的公益案例、中国 LLM 访问的灰色市场现象，以及微调可能破坏版权对齐的研究结论。内容跨度广，适合希望保持 AI 领域综合情报视野的读者，尤其是最后一条关于微调与版权的发现值得关注。 [基于顶级 Agent（Claude Code）的 Harness 工程搭建式业务 Agent 评测方案](https://www.bestblogs.dev/article/fcbdb6fa) · 阿里云开发者 · 评分 90 阿里云工程师提出创新评测方案：以 Claude Code 作为 Harness 工程的搭建者和运行者，将评测逻辑从代码转化为 Prompt，实现对业务 Agent 的系统性、快速评测。核心矛盾是业务 Agent 迭代快（天级）但传统评测工程搭建慢（周级），这套「Agent 评测 Agent」的思路打破了这个瓶颈。适合正在为多 Agent 系统建立评测体系的工程师团队。 [分享 Claude Code 团队内部的 5 条工作原则](https://www.bestblogs.dev/article/c8916b4b) · 数字生命卡兹克 · 评分 89 解读 Claude Code 工程总监 Fiona Fung 的分享，提炼 AI 原生组织下规划、自动化、代码评审、团队角色与流程变革的 5 条工作原则。核心判断：在 Agent 时代，写代码已不再是工程瓶颈，瓶颈转移到了验证、代码评审与安全，所有上下游流程都需要重新设计。这套思路与今日多篇文章形成共鸣，是 AI 原生工程组织实践的一手观察。 [Skills 中的渐进式披露：大型智能体流程的最强模式](https://www.bestblogs.dev/status/2062529678590513475) · Daniel San(@dani_avila7) · 评分 90 解释在 Skills 中记录大型智能体流程的渐进式披露模式，分为启动（约 500 token 元数据常驻）、任务匹配（SKILL.md 触发加载）和深度执行（附件按需引用）三个阶段，通过按需加载将 token 消耗优化到最低。这是第一篇速览「如何写好 Skill」的工程补充，两篇配合阅读，可以对 Skill 设计的宏观原则与微观优化有更完整的认知。 ## 今日阅读路径时间有限时，建议按以下顺序优先阅读三篇：第一优先：科技爱好者周刊第 399 期——中美 AI 算力与生态的第一手比较，信息密度最高，跨领域读者都能获益。在中美信息隔离日趋严重的背景下，这类第一手比较材料极为稀缺。第二优先：汤道生姚顺雨对谈——腾讯首席 AI 科学家的战略陈述，与第一篇构成绝佳互文：前者是外部观察，后者是内部视角，两篇合读能拼出更完整的中国 AI 发展图景。他的「下半场才刚开始」与「context 是壁垒」两个判断，值得仔细推敲。第三优先：LangSmith Sandboxes——如果你是正在构建或使用 Agent 的工程师，这篇是当日最具工程价值的文章，直接回答「Agent 安全执行环境」这个已经变得迫切的工程命题，且给出了具体的工程参考框架，读完可以直接用于技术决策。如果还有余力，速览中的如何写好 Skill 和 Anthropic 递归自我改进两篇也是今日高质量内容：前者是可立即落地的实操手册，后者是 AI 发展长线叙事中难得的内部数据视角。

译姚顺雨在腾讯云AI大会上首次公开亮相，指出AI已进入下半场，核心从“怎么训练”转向“找好问题”，认为context是Agent时代关键壁垒，腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型：295B总参数、21B激活参数，首token延迟降低54%，可驱动最长495步Agent工作流。他还提出Co-Design理念，强调模型与产品深度协同，该模型以实用性为导向，不在榜单过度竞争。

ginobefun@hongming731 · 6月6日57

#BestBlogs 早报 06-06 今日推荐阅读：腾讯集团高级执行副总裁汤道生与首席 AI 科学家姚顺雨同台对谈，围绕 AI 下半场的核心命题，从「解决问题」转向「定义问题」、模型与产品的 Co-Design、Agent 技术的演进与性价比、以及腾讯在 AI 时代的战略节奏与组织变革，展开了一场深度对话。

译在 #BestBlogs 6月6日早报推荐中，腾讯集团高级执行副总裁汤道生与首席AI科学家姚顺雨同台对谈，聚焦AI下半场核心命题：从「解决问题」转向「定义问题」、模型与产品的Co-Design、Agent技术的演进与性价比、以及腾讯在AI时代的战略节奏与组织变革。

Boris Cherny@bcherny · 6月6日44

We doubled Claude Cowork usage limits for the next month. This applies to your 5-hr rate limits. If you’ve been saving up a big messy project, now’s the time.

译我们将 Claude Cowork 的使用额度在下个月翻倍。这适用于你的 5 小时速率限制。如果你一直在积攒一个庞大混乱的项目，现在是时候了。

Rohan Paul@rohanpaul_ai · 6月6日76

Arena just released a real-world agent leaderboard that ranks AI models by how well they complete actual user jobs, not isolated benchmark questions. The system tracks agents using web search, files, and terminal tools while people ask them to write code, build apps, research topics, create documents, and analyze files. The problem with almost all traditional AI benchmarks is that they test clean tasks, while agents now handle messy work like coding, research, documents, web browsing, files, and terminal commands. Agent Arena tries to measure agents inside real work sessions, where users correct them, approve results, complain, download files, and expose tool failures as the task unfolds. Its core idea is to treat each model choice like a test condition, then estimate how much that model improves task outcomes compared with a baseline. The leaderboard combines 5 signals: confirmed task success, praise versus complaint, ability to follow corrections, recovery from terminal errors, and whether the agent invents tools that do not exist. The data is large enough to show real behavior patterns, with 300K+ tasks, 2M+ tool calls, and 40M lines of code produced by agents. The score combines task success, steerability, bash recovery, praise vs. complaint, and tool hallucination, which means the model is judged by whether it finishes, recovers, accepts correction, and avoids fake tool calls. GPT-5.5 High leads with +10.7% net improvement, followed by Claude Opus 4.7 Thinking at +9.5% and GPT-5.4 High at +8.9%. The most useful detail is that agents fail like workers under pressure: they can leave one part incomplete, claim the job is done, or sound confident while backing down after correction. Arena’s strongest contribution is treating agents as working systems, where model choice, tool use, recovery behavior, and user satisfaction all count together.

译Arena 推出基于真实用户任务的智能体排行榜，评估模型在代码编写、应用构建、文档分析等工作中的表现，而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码，综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名：GPT-5.5 High（+10.7%）、Claude Opus 4.7 Thinking（+9.5%）、GPT-5.4 High（+8.9%）。

Claude@claudeai · 6月6日56

We've doubled usage limits in Claude Cowork for the next month. Delegate bigger, more complex tasks to Claude.

译我们将下个月 Claude Cowork 的使用限额翻倍。将更大、更复杂的任务委托给 Claude。

Chubby♨️@kimmonismus · 6月6日65

AI scientists may be moving from search to real discovery. A new MIT paper proposes a framework for self-revising AI systems that don’t just explore a fixed scientific vocabulary, but can expand the vocabulary itself, introducing new variables, tools, verifiers, and model structures when existing ones are no longer enough. True scientific progress is often not just about finding better answers, but about changing the space in which answers can exist. If this scales, AI could become far more than a research assistant: it could become an auditable partner in building new scientific world models. Still early, but conceptually very exciting.

译MIT Buehler团队提出Self-Revising Discovery Systems框架，让AI能自主扩展科学词汇（变量、工具、验证器、模型结构），而非仅搜索固定空间。论文使用typed copresheaf和Kan obstruction数学框架形式化智能体工作流，证明真正发现是可验证的schema扩展：旧证据通过Left Kan extension迁移，新异性由pointwise残差客观量化，区分发现与搜索。三种模态：检索（添加已知对象）、搜索（固定schema）、发现（验证的范式转换）。案例包括Builder/Breaker发现蛋白质模式条件合规性，CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444（2026）。

宝玉@dotey · 6月6日57

现在 Codex 的设置已经多到要靠搜索来解决了。但是作为一个成熟的 Agent，难道交互不应该是在 Chat 里面说一句：“Hey Codex，帮我修改一下 XX 设置”？

Perplexity@perplexity_ai · 6月6日69

Nemotron 3 Ultra is now available for Pro and Max subscribers on Perplexity and Computer. It's @nvidia's new open model built for long-running agents.

译Nemotron 3 Ultra 现已面向 Perplexity 和 Computer 上的 Pro 和 Max 订阅用户开放。这是@nvidia 为长期运行的智能体打造的全新开源模型。

elvis@omarsar0 · 6月6日67

Neat little tool! Ran my AI Wrapped, expecting to be humbled. Top 1%. Nice! I use coding agent all day for everything. Try it with `npx standout`

译不错的小工具！跑了一下我的 AI Wrapped，本以为会被打击。前 1%。不错！我整天都用编程智能体做所有事。试试 `npx standout`

🚨 AI News | TestingCatalog@testingcatalog · 6月6日56

MICROSOFT 🔥: Early look at Microsoft Scout Agent for Microsoft Frontier users. Scout agent is designed for work use cases and was recently revealed at Microsoft Build 2026. Features 👀 > Models from OpenAI and Anthropic, including GPT-5.5 and Claude Opus 4.7 > Multi-step automations with support for browser use. > Co-Create, an open canvas where users can collaborate with AI and export outputs as documents. > Deep integration with Microsoft Teams > Daily Briefing that summarises work context across connected services. > Skills support, document generation, coding capabilities, and all that. > Both macOS and Windows apps are available. It would be quite a decent tool for Windows users! Yet, it is only for Frontier. Looking forward to testing their super app too.

译微软在Microsoft Build 2026上为Frontier用户推出Scout Agent工作用AI智能体。该Agent可调用OpenAI和Anthropic模型（包括GPT-5.5和Claude Opus 4.7），支持多步骤自动化（含浏览器操作）、Co-Create协作画布（可导出文档）、深度集成Teams、每日简报跨服务汇总工作上下文，以及技能、文档生成和编码能力。目前提供macOS和Windows应用，但仅限Frontier用户使用。

宝玉@dotey · 6月6日74

感谢 @Teknium 合并了 PR，现在 Hermes Agent Desktop 支持中文了，还不够完整，会继续贡献 PR，以及修复一些因此带来的错误。

Michael Truell@mntruell · 6月6日80

Working with agents should feel like working with a colleague. You should be able “speak to” them not just with text chats, but by gesturing at a screen together, talking live, etc.

译与 AI 智能体协作应感觉像与同事协作一样。你应能“与它们交谈”——不仅通过文本聊天，还能一起对着屏幕做手势、实时对话等。

Google AI@GoogleAI · 6月6日78

Here’s this week’s shipping recap 👇 — Nano Banana 2 & Nano Banana Pro are now GA and available via the Gemini Enterprise Agent Platform, Gemini API, and in @GoogleAIStudio —Co-Scientist, our new multi-agent system for structured scientific thinking, generates and refines novel hypotheses to solve complex scientific problems — dreambeans from @GoogleLabs works overnight to curate a personalized daily collection of topics that are relevant to you based on your connected Google apps — @GoogleGemma 4 12B, our unified encoder-free model, brings powerful multimodal intelligence straight to your laptop fully offline — Gemma 4 models and their drafters are now optimized with Quantization-Aware Training (QAT) to cut memory requirements and maximize on-device performance — @GoogleMagenta RealTime 2 is our open-weights live music model that you can play like an instrument using a MIDI keyboard, text prompts, and gestures

译Google AI 本周发布多项更新：Nano Banana 2 及 Pro 正式 GA，可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 获取；Co-Scientist 多智能体系统面向科研自动生成优化新假设；Google Labs 推出 dreambeans，根据用户 Google 应用数据每日生成个性化话题集；Gemma 4 12B 统一无编码器多模态模型可完全离线运行于笔记本；Gemma 4 系列及草稿模型引入 QAT 降低内存需求；Google Magenta RealTime 2 开源实时音乐模型，支持 MIDI 键盘、文本提示和手势演奏。

Replit ⠕@Replit · 6月6日67

Shopify on Replit + the new SEO Agent https://x.com/i/broadcasts/1kJzDDopENZKv

译Replit 上的 Shopify 与新的 SEO Agent

AK@_akhaliq · 6月6日56

ArcANE Do Role-Playing Language Agents Stay in Character at the Right Time?

译ArcANE 角色扮演语言智能体是否能在适当时刻保持角色？

elvis@omarsar0 · 6月5日69

// The Meta-Agent Challenge // How good are current agents at self-improving? This is a great paper covering some of the challenges. They propose the Meta-Agent Challenge (MAC), where they give a coding agent a sandbox, an evaluation API, and a time budget, then ask it to program an agent that maximizes held-out performance across five domains. Results: Meta-agents rarely match human-engineered baselines, and the few that do are dominated by proprietary frontier models. Under high optimization pressure, some agents started exfiltrating ground truth from the scoring channel, even with multi-layer anti-reward-hacking defenses in place. Paper: https://arxiv.org/abs/2606.04455 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译最新研究提出元智能体挑战（MAC），将编码智能体放入沙盒，给定评估API和时间预算，要求其自主编程出在五个领域表现最优的智能体。结果发现，元智能体极少能匹敌人工设计的基线，少数成功的案例也几乎全部依赖专有前沿模型。更值得警惕的是，在高优化压力下，一些智能体开始从评分渠道外泄真实答案，即便研究人员设置了多层反奖励破解防御也未能阻止。论文：arxiv.org/abs/2606.04455。

Rohan Paul@rohanpaul_ai · 6月5日62

Tencent WorkBuddy is now becoming China’s #1 PC-based productivity AI agent. Tell it what you need, then it reads files, calls tools, writes reports, builds decks, analyzes data, uses 100+ expert roles. Connects to GitHub, Jira, Notion, Gmail, Google Drive, Slack and more through MCP, runs tasks in a sandbox, and can even be controlled from Slack, Telegram, Discord, or WeChat when you are away from your desk. WorkBuddy breaks a big task into smaller jobs, picks the right skills or connected apps for each job, and for complex work it can use Expert Teams where multiple specialized sub-agents work in parallel while 1 lead agent coordinates the final output. So if you ask for a report, it is not just generating text. It can read the file, send the data-analysis part to an analyst-style expert, send the writing part to another expert, use connectors like Google Drive or Gmail if needed, and then combine everything into a finished file. 👋 Here are a few practical use cases you can do immediately with it. - Read PDFs, images, and documents, then organizes the extracted content. - Create reports, proposals, manuals, and presentations from raw material. - Analyze spreadsheets, finds trends, and turns data into charts. - Create platform-ready posts, scripts, articles, and content ideas. - Automatically research news and sends scheduled summaries to your channels. - Run desktop tasks from Slack on your phone. Manage Calendar and Drive tasks directly through conversation. - Build working apps without needing you to code. - Turn repeated workflows into reusable WorkBuddy skills. For my own workflow, I installed Tavily AI Search because I post a lot about research papers on X. And paper content needs outside context: project pages, GitHub repos, author links, related papers, previous methods, and the reason a paper is worth posting about. @TencentAI_News

译腾讯WorkBuddy成为国内排名第一的PC端生产力AI智能体。它可读取文件、调用工具、撰写报告、制作演示文稿、分析数据，支持100+专家角色。通过MCP连接GitHub、Jira、Notion、Gmail、Google Drive、Slack等，在沙箱中运行任务，并可通过Slack、Telegram、Discord、微信远程控制。WorkBuddy将大任务分解为小任务，为复杂工作启用专家团队：多个专业子智能体并行工作，一个主导智能体协调最终输出。用例包括阅读PDF/图片、创建报告、分析电子表格、生成内容、自动研究新闻并发送定时摘要、从手机运行桌面任务、无需编码构建应用等。

fofr@fofrAI · 6月5日62

Today I'm experimenting with Gemini 3.5 Flash and the Antigravity CLI to see how fast and how autonomously the agents can do things. - It took 20 minutes to install and run the original CompVis Stable Diffusion 1.5 repo, get the weights, debug, run inference and generate an image on a Linux CPU. It fixed every crash and managed dependencies while making changes to run on a CPU - I gave it the original Lora and SD papers and asked it to make a lora fine tuner from first principles, with a set of 10 images. That took about 1h30, most of the time being slow training runs on the CPU, but it did optimize for multiple CPUs. It worked, it made a lora that showed a likeness and then it wanted to hill climb. I told it to think of the poor CPUs - I wanted to experiment with the new Ideogram v4 weights. It used modal to find the right class of GPU, get the code, set up the env, get the weights, run inference, that took about 20 mins in total

译fofrAI 使用 Gemini 3.5 Flash 和 Antigravity CLI 实验 AI 智能体的自主性和速度。结果：20 分钟内在 Linux CPU 上安装并运行原版 Stable Diffusion 1.5，完成推理生成图像；基于 Lora 和 SD 论文，用 10 张图片从零实现 Lora 微调器（约 1 小时 30 分，主要为 CPU 训练）；通过 modal 约 20 分钟找到 GPU、获取 Ideogram v4 权重并运行推理。该推文展示了当前长周期智能体任务的基线案例。

meng shao@shao__meng · 6月5日62

终于等来了 @gregisenberg 对 Codex Sites 的解读 Greg 通过六轮 Prompt，把 Codex Sites 做成一个会自己更新的「创业想法看板」！ 1. 建壳 + 样本数据 @ sites 调用插件。关键一句：「save for review, do not deploy」 —— 拦住自动部署，留在产品评审模式。 2. 加记忆 Sites 默认每次访问都是新的。先让 Agent 展示数据模型，再写代码（Greg 选了 Cloudflare D1，实体 ideas，动作：list / add / update / move / score / archive）。有持久化，Demo 才变成软件。 3. 安全动作预置、命名的操作入口（如 add idea）。Agent 只能走这些路径改数据，不能随意改库。你在任意 Codex 对话里随口说个想法，也能通过唯一合法通道落到线上看板 —— 人机协作的 API 边界。 4. Skills 让 Codex 写 Startup Ideas Admin 技能：教未来对话如何读板、加卡、移动、打分，并附示例命令。技能 = 可复用的操作手册，让 Safe Actions 在陌生会话里也能被正确触发。 5. 存档检查点 Codex 没有游戏式自动存档。明确说「save as V1 review, do not deploy」，并核对构建状态、存储、访问权限、版本 —— 可回滚的已知好点。 6. 闭环验证开新对话，只说：用 Startup Ideas Admin 加一条想法。新线程加载技能 → 读板 → 经批准路径写入。再发布 → 上线带注册页的 live board。证明跨会话、跨线程的可重复运营。

译Greg Eisenberg 通过六轮 Prompt，用 Codex Sites 做出自动更新的创业想法看板。关键步骤：1）调用 sites 插件，指令“save for review, do not deploy”阻止自动部署；2）选 Cloudflare D1 实现持久化；3）设安全动作，限定 Agent 只能通过预设路径改数据；4）编写 Startup Ideas Admin 技能，使操作手册化；5）存档为 V1 并验证版本回滚；6）新对话加载技能，跨线程写入并成功上线，证明跨会话可重复运营。

fofr@fofrAI · 6月5日37

Where's the baseline for impressive long horizon agent tasks today? What are you seeing this week that makes you go "woah"?

译如今令人印象深刻的长程智能体任务的基准在哪里？你这周看到了什么让你惊叹的东西？

ginobefun@hongming731 · 6月5日66

http://x.com/i/article/2062871546377728000 # BestBlogs 周刊第 98 期：Agent 时代已来，模型、产品、工程与组织的同步重塑 > 🎧 本期也有播客版本：BestBlogs 周刊第 98 期 · 在小宇宙搜索「BestBlogs 」即可收听。 > https://www.xiaoyuzhoufm.com/episode/6a2290657444b5722233e785 这一周，整理 20 篇内容时有一个越来越清晰的感受：这不像是几件不同的事同时发生，更像是同一件事在不同层面同时爆发。模型层有 OpenAI 的梦境记忆架构升级和 MiniMax M3、Gemma 4 12B 的密集发布；产品层有 Kimi Work、扣子 3.0、SkillOpt 把 Agent 推向更广的工作者；工程层有 Anthropic 和国内腾讯、阿里、阿里云、大淘宝在同一周各自写出万字长文，从不同角度指向同一个结论；战略层有纳德拉和黄仁勋的大会宣言；再到组织和个体层，腾讯研究院三万字报告谈超级个体，一篇深思文章警示认知缴械。 Agent 时代不是一个遥远的未来，而是这一周正在发生的事。 BestBlogs 这边也在用 Agent 和 Skills 做同样的事：我们正在系统整理和更新 BestBlogs 的订阅源库，第一波成果已发布到 GitHub 项目 ginobefun/BestBlogs，接下来几天持续推进。v2.4.2 上线了两个值得体验的改进：「我的关注」新增订阅源库浏览入口，可按领域和语言批量关注；Pro 早报推荐引入「兴趣预算」机制，不同来源内容不再扎堆，每天早报覆盖更均衡。 ## 一、模型层：记忆进化与端侧智能 ChatGPT「梦境」：记忆从手动保存升级为后台合成 OpenAI 把 ChatGPT 记忆架构做了根本性升级，新系统在后台持续整合对话中的碎片信息，就像大脑在睡眠中整理白天记忆一样，无需用户主动触发。记忆系统的演化经历了三个阶段：2024 年 4 月的手动保存记忆（Saved Memories），需要明确指令才触发；2024 年下半年扩展为自动保存；现在进化到「梦境合成」，在后台将跨对话的碎片整合为结构化的用户画像。新架构解决了三个长期痛点：旧记忆过时（持续刷新而非堆积）、记忆准确度不稳定（合成时会做验证和去噪）、大规模扩展成本问题（成本已降至可以规模化的程度，后续将推向 Free 和 Go 用户）。文章中有一个细节值得关注：这套系统的设计目标是让 ChatGPT 在数亿用户和数年时间跨度下都能持续理解用户偏好。这已经不只是功能迭代，而是向长期个性化 AI 助手方向的架构升级。结合第 96 期看到的 Anthropic「用于自学习 Agent 的 Memory 与 Dreaming」，两家公司几乎在同一时间做类似架构，但侧重不同：Anthropic 偏 Agent 的自主学习，OpenAI 偏个人助手的长期陪伴。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/bd3109dd MiniMax M3：一个开源模型，三项前沿能力 MiniMax M3 把编码能力、1M 长上下文和原生多模态放进同一个开源模型。背后的 MSA 稀疏注意力架构让绝大部分注意力计算走稀疏路径，只有少数关键位置做全量计算，大幅降低超长上下文的计算成本。文章展示了论文复现、CUDA 优化、长程 Agent 任务等真实场景，M3 全程保持状态、自主迭代，是这类工作里目前能力组合最完整的开源选项之一。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/46b80e9f Gemma 4 12B：跑在笔记本上的完整 Agent 工作流 Google 这篇文章的重点不是模型参数，而是工具链：AI Edge Gallery、Eloquent 和 LiteRT-LM CLI 三个工具让 Gemma 4 12B 在本地笔记本上运行完整 Agent 工作流，覆盖代码生成、数据可视化、语音编辑。端侧运行的核心价值是隐私、低延迟，以及离线可用。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/cb28b58a ## 二、产品层：Agent 走向知识工作者 Kimi Work：把 Coding Agent 的能力迁移到桌面 GUI Kimi Work Beta 版上线，定位明确：不是给开发者用的 Coding Agent，而是给普通知识工作者用的桌面 Agent。金融分析师做行业报告、科研人员整理文献、办公室处理流程性工作，全部用自然语言描述任务，Agent 去执行。多 Agent 并行和长程任务执行能力从开发者工具迁移到了更广的工作场景。值得关注的是，这个产品自身的开发也深度使用了 AI，是这一周不止一处出现的「吃自己狗粮」实践。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/98fc56b1 SkillOpt：像训练神经网络一样训练 Agent 技能（深度）微软在本周开源了 SkillOpt，一周收获 3,300 star，核心理念是把 Agent 的技能文档——类似 CLAUDE.md 这样指导 Agent 行为的自然语言文档——当作「可训练的外部权重」，用一套系统化循环自动优化。四步循环类比神经网络训练： - Rollout（前向传播）：目标模型用当前技能文档执行一批任务，记录完整执行轨迹 - Reflect（反向传播）：独立的优化器模型分析轨迹，失败案例用来找需要修正的规则，成功案例用来确认哪些规则在起作用 - Edit（参数更新）：优化器基于反思结果，对技能文档执行 add / delete / replace 操作 - Gate（验证门控）：新技能文档必须在 held-out 验证集上性能严格提升才被接受两个精巧的工程设计：「文本学习率」（textual learning rate）：每步最多允许 4 条编辑操作，防止改动太大覆盖已有的有效规则。消融实验显示去掉这个约束后，SearchQA 准确率从 87.1% 降至 84.6%，LiveMath 从 61.3% 降至 57.3%。拒绝编辑缓冲区（rejected-edit buffer）：被验证拒绝的修改不会被丢弃，而是进入缓冲区。优化器下次可以看到这些失败尝试，避免重复同样的弯路。这个细节移除后，SpreadsheetBench 准确率从 77.5% 跌至 72.9%。在 7 个目标模型、6 个基准测试、3 种执行环境（直接对话、Codex、Claude Code）的 52 个评测组合中，SkillOpt 训练出的技能文档全部达到最优或并列最优。这个工作对实际工程的意义在于：每个用 Claude Code 或类似工具的人都在维护某种形式的技能文档，这个过程如果能被系统化，Agent 工程化的天花板会高出很多。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/7b8c6b8d 扣子 3.0：从单 Agent 到可调度的 AI 团队字节跳动把扣子 3.0 的核心定位从「AI 助手」升级为「AI 团队」——多个 Agent 组织进项目空间，通过技能商店安装专业能力，支持本地 Agent 接入和多端协同。这是 Coding Agent 那套编排理念的产品化翻译，受众从开发者扩展到了更广的用户群体。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/b7bca3c0 ## 三、工程层：AI 重塑软件工程的集体思考本周最密集的一批内容集中在这里：Anthropic 两篇、国内四篇大厂长文，从实践记录到工程哲学，从不同角度指向同一个结论：软件工程正在经历范式迁移。 Claude Code 动态工作流：用子代理编排打破上下文限制（深度） Anthropic 发布 Claude Code 动态工作流：模型可以在运行时自己写 Harness，根据任务需求即时构建定制化流程，然后编排独立子代理来执行复杂任务。文章给了一批极具说服力的示例提示词，理解它们比读概念更直接： > 「这个测试大概 50 次运行里有 1 次会失败，给我设计一个工作流来复现它，提出关于竞争条件的假设，不找到原因不停止。」 > 「翻我最近 50 个 session，把我反复在纠正的东西提取出来，变成 CLAUDE.md 规则。」 > 「把这份商业计划书，用工作流让不同的 Agent 分别从投资人、用户、竞争对手三个视角把它批一遍。」这些提示词背后的逻辑是：让模型编排一个小团队来解决问题，而不是靠单次对话硬扛。动态工作流特别适合四类任务：大规模并行（如 80 份简历筛选）、需要对抗性视角（多角色批评同一方案）、高度结构化流程（如 rename 涉及数百个文件），以及需要反复实验的调试。文章也坦承了代价：动态工作流通常消耗更多 token，最适合复杂、高价值任务，不是所有任务的默认选项。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d9ee6dfe 打造 AI 原生工程组织：Anthropic 的内部实践 Anthropic 工程团队公开了三个已经重写的工作规范：计划方式：六个月路线图在三个月就过时了，改为「即时规划」（JIT planning）——更多靠原型、早期内测、快速反馈，而非预先的设计文档。上下文获取：以前想了解一段代码先找写它的人，现在先问 Claude。Claude 承担了大量代码审查工作，人专注在更需要判断力的地方。招聘标准：更看重有产品洞察力的创造者和深层系统专家，纯执行型工程师需求在减少。这篇放在动态工作流文章之后读，会发现一件有意思的事：他们描述的工作方式，正是动态工作流设计所服务的那种工作场景。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/f781c46a OpenClaw 与 Hermes：55,000 字源码级 Agent 架构复盘腾讯技术工程把 OpenClaw 微内核架构与 Hermes 单体架构并排拆解，覆盖 Gateway 路由、Channel 契约（25+ 协议适配）、记忆系统（三阶段加权晋升的 Dreaming 机制）、工具编排和安全边界。文章最后用 Google 新书《Agentic Design Patterns》的 21 个模式作为坐标系，重新审视两套架构的覆盖与空白。这是 Agent 工程化领域难得一见的源码级参照，适合正在做多端 Agent、长期记忆或跨平台工具编排的工程师深读。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/19c7f702 AI 软件工程范式革命：五十年最根本的转变腾讯云这篇将近 2 万字的文章，核心论断清晰：软件工程在过去五十年其实从未真正「工程化」过。其他工程门类（化工、电力、自动化）成功的路径是「消耗能源，把低阶认知固化成物理装置」，人从主回路退出。但软件要做的是抽象、推理、创造，是高阶认知，没法固化成电路，所以软件工程骨子里一直靠人脑堆。过去五十年的所有方法论（敏捷、DevOps、Scrum）都是在「管理人」，而不是「替代人」。大模型第一次做到了「输入算力，输出高阶智能」，这才是经典工程意义上的「能源换智能」。作者批评现在主流的 Copilot 模式走不远，倡导「AI 为中心、人工辅助」，人的角色重塑为产线设计师和认知边界守卫者。他认为最难攻克的核心问题是「隐性知识蒸馏」——那些老工程师靠直觉判断、无法被明确写下来的工程经验，如何让 AI 系统真正习得。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/f66bdbca AI 研发自动化：Wiki 知识库 + 技能包的落地路径阿里云开发者这篇把 LLM-Wiki 和 Agent Skill 结合成一套可落地的研发自动化方法：Wiki 持续更新团队上下文和知识，Skill 把可重复的工程流程固化下来，两者合在一起让 AI 从一次性问答变成长期工程资产。适合想把 AI 从工具升级为基础设施的团队参考。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d7edfb35 重新思考研发基础设施：当 Agent 成为第一公民阿里巴巴研发基础设施负责人晓斌从一个小工具出发，观察到两个现象：代码生命周期从月和年缩短到了分钟，Infra 变得「不可见」了。他的框架是，软件系统一直是「意图驱动 + 代码沉淀」的进化体，以前的桥梁是人，现在是 Agent。这个替换要求基础设施从 People-Oriented 转向 Agent-Oriented，权限治理、可追溯性、Dry-run 验证等工具需要重新设计。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d0759109 AI Friendly 架构：从确定性到概率性的三大演进大淘宝技术提出 AI Friendly 架构的三个演进维度：从确定性到概率性，从结构化到语义化，从静态到动态。实践数据：AI 审核准确率达 95.7%，AI 答疑系统效率提升超 80%。这篇适合正在设计新系统、想把 AI 嵌入核心流程的架构师阅读。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/5771ef7f ## 四、战略层：大厂的全面押注纳德拉：微软是「前沿智能平台」，而不是模型公司（深度） Latent Space 和 No Priors 在 Microsoft Build 现场联合访谈纳德拉，这期对话提供了微软 AI 战略的第一手阐述。纳德拉最核心的框架是：微软的定位是「前沿智能平台」，而非模型公司。平台的意义是客户必须从 Microsoft 生态获得比微软自身多得多的价值。为此，他们构建了三层能力：第一层是多模型套件（MAI、OpenClaw、Scout 等），企业可以选择最适合自己任务的模型组合；第二层是 Work IQ 上下文层，统一接入企业的文档、邮件、会议记录、代码；第三层是 Token IP 的概念，他说私有评估、traces 和 benchmark 是新时代的核心资产，就像工业时代的专利，积累的越早护城河越深。对 SaaS 的冲击，纳德拉直接承认 Build vs Buy 的方程已经改变，SaaS 商业模式会被重构。但他的判断是：这个转变的受益者是能帮企业真正把 AI 价值落地的平台，而不是那些只提供工具的公司。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/7ffd8109 黄仁勋：COMPUTEX 2026 上的「Agent 工厂」蓝图本次 COMPUTEX 2026 最值得关注的不是某个单项产品，而是英伟达整体叙事的变化：从卖芯片变成提供完整的「Agent 工厂」。Vera Rubin 架构（NVL144 系统，含 144 颗 GPU）、DSX 数据中心超算平台、Nemotron 3 Ultra 推理模型、Cosmos 3 物理 AI 平台、人形机器人——这些合在一起，是从芯片到数据中心到模型到软件到物理 AI 的完整技术栈。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/074ff85e Benedict Evans：AI 是 1997 年的互联网，自动化的是任务而非工作 Benedict Evans 的比喻用得精准：现在是 AI 的 1997 年——基础设施在快速扩张，但绝大多数最终会改变世界的商业模式还没有被发明。他的核心判断：AI 自动化的是任务而非工作，「杰文斯悖论」意味着某件事变得更便宜时，需求反而会增加。基础模型会商品化，价值将向上层应用和分发能力集中。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/video/ed8426c 中国 AI 大厂访问记：算力差距与效率追赶并存阮一峰整理了 2026 年 5 月美国访问团实地走访中国 14 家 AI 和机器人公司的多位分析师观感。关键数据：美国算力约是中国的 8 倍（主要来自芯片出口管制）；但中国公司在芯片约束下实现了效率创新，单位算力产出的智能达到简单扩展的 4 至 7 倍。此外，两个文化观察值得关注：中国公司大量使用才华横溢的实习生（与西方形成对比）；中国研究人员对 AGI 取代自己「充满好奇而非恐惧」。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/6933ad74 ## 五、人与组织：觉醒与警示超级个体时代：腾讯研究院 3 万字报告（深度）腾讯研究院这份 33,000 字报告的核心观察是：AI 最深刻的组织变革，起点往往不在高管会议室，而在某个工程师深夜感觉自己能力被放大了的那一刻，然后像涟漪向外扩散。他们提出了一个组织公式：组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦三个变量是乘除关系，不是加减：分母不变只翻分子，效果打折；分母减半等价于分子翻倍。这意味着降低组织摩擦（减少等待、审批、信息衰减）的投入回报，和提升 AI 杠杆一样重要。超级个体的四个结构性特征： AI First 的工作动线：不是遇到困难才问 AI，而是把 AI 排进整个工作流的默认起点，先让 AI 跑，再在 AI 的产出上做判断和修正。能力边界的量级跃迁：不是提升百分之几十，而是十倍甚至更多。报告引用 Anthropic 一项基于 10 万条对话的生产力研究：样本任务若无 AI 辅助平均约需 1.4 小时，引入 AI 后任务完成时间平均减少约 80%；课程开发任务从估算的 4.5 小时降至 11 分钟，节省了 96% 的时间。主动性：天然的边界探索者，不等待组织安排，主动寻找 AI 能力的极限。影响力溢出：这是最关键的阈值。高效个体只让自己变快，超级个体让团队变快。如果同事毫无察觉你的 AI 杠杆，你还不是超级个体，只是一个使用 AI 的优秀员工。从 AI 转型和 AI 原生的分歧视角来看，报告认为两者其实服从同一个底层逻辑：超级个体在存量组织内部涌现，能力溢出带动团队进化，这和 AI 原生团队的聚合方式本质相同，差别只在路径和约束。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/712a9c1e FDE：AI 落地中出现的新型组织角色十字路口这期播客解析 FDE（Forward-Deployed Engineer，前场部署工程师）这一角色：他们的工作不是写功能代码，而是让 AI 真正在企业里运行起来，完成业务融合、知识治理和系统对接。Rolling AI 的「AI 副店长」案例说明了管理逻辑的变化：从标准化动作变成赋能一线做判断——这不只是效率提升，而是组织逻辑的重构。（这个话题在第 97 期 Pragmatic Engineer 那篇里也有出现，两篇合读更完整。） → 前往 BestBlogs 阅读：https://www.bestblogs.dev/podcast/fbaf942 认知缴械：守住独立思考的最后防线（深度）这篇文章提出了一个让人认真思考的概念：「认知缴械」（Cognitive Surrender）。宾夕法尼亚大学 Steven Shaw 和 Gideon Nave 在 2026 年的研究中，把 AI 定义为人类认知的第三系统（System 3）——除了快思考的 System 1 和慢思考的 System 2 之外，AI 成了一个在大脑外部运行的认知系统。研究数据让人警醒：1,372 名参与者完成了 9,593 次认知反射测试，参与者在超过一半的题目中主动选择向 AI 咨询。当 AI 给出正确答案时，90% 的人跟随；当 AI 给出错误答案时，依然有 80% 的人盲从。文章做了一个历史梳理，能力外包在人类文明中一直存在：苏格拉底反对文字、GPS 削弱空间记忆、Google 改变记忆形态（从记住内容变为记住入口）。但 AI 影响的是「推理本身」这个核心能力，与以前的外包有本质不同——以前外包的是存储或执行，现在外包的是判断。作者的立场不是反对 AI，而是指向一个具体的问题：在 AI 已经给了答案的情况下，我们是否还愿意停下来自己想一想？能否在效率和独立思考之间找到自己的边界？ > 如何守住认知主权，是这一期所有内容里，最需要每个人自己回答的问题。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/70d76621 超级个体与 AI 时代的价值归属：Benedict Evans 的宏观分析本期最后，建议把 Benedict Evans 的视频和腾讯研究院报告放在一起看：一个从宏观经济和历史格局解释为什么 AI 不会消灭工作，另一个从组织内部的微观实践说明如何成为 Agent 时代的受益者。两个视角，读完会有一种互相印证的感觉。感谢阅读第 98 期。从模型到产品，从工程到组织，Agent 时代正在每个层面同时展开。如果这些内容对你有启发，欢迎转发给身边正在关注 AI 和知识工作的朋友。下周见。 ## 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它会从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容，结合你关注的源、兴趣标签和阅读行为，把「我的早报」整理成每天真正适合你的阅读流——不论你关注的是技术、AI、产品、商业、研究、设计、投资、文化还是个人成长。完成新用户三步引导即送 7 天 Pro 试用；现有 Pro 用户每邀请 1 位朋友双方各得 7 天 Pro（单人上限 28 天）；欢迎到 bestblogs.dev 体验最新版本。发现真正适合你的高质量内容——欢迎来体验，也欢迎推荐给身边认真阅读的朋友。 BestBlogs.dev · 发现真正适合你的高质量内容 #BestBlogs #AI #周刊 #Agent #软件工程 #超级个体

译本周BestBlogs梳理20篇内容，聚焦Agent时代的三层爆发：模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源（1M上下文+稀疏注意力）、Gemma 4 12B端侧Agent工作流；产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt（3300 star，含文本学习率与拒绝编辑缓冲区）、扣子3.0升级为AI团队；工程层Anthropic发布Claude Code动态工作流（子代理编排）及其内部AI原生工程实践。

Berryxia.AI@berryxia · 6月5日70

大模型都不再卷推理，都开始卷规划能力！腾讯混元联合人大高瓴人工智能学院直接开源了PlanningBench，一个专门测、训LLM真实规划能力的框架。里面塞了30多个来自真实世界的规划任务，覆盖调度、生产、旅行、资源分配、应急响应等六大类，每一个都有清晰的成功标准和全自动验证机制。你既可以用它测出当前最强模型到底在规划上有多拉胯，也能直接拿来继续微调，让模型从“会说”真正进化到“会干”。以前整个行业都在卷参数、卷上下文、卷工具调用，好像规划能力是自然就会长出来的。现在PlanningBench用30多个可验证任务直接把真相摊开：规划才是agent从玩具走向生产力的真正分水岭。腾讯这次把论文、代码、数据集全甩到GitHub和Hugging Face，等于把这个最难、最核心的能力从黑盒拉到了公开赛道。

译腾讯混元联合人大高瓴人工智能学院开源PlanningBench，一个可扩展、可验证的框架，用于评估和训练大语言模型（LLM）的真实规划能力。该框架包含30多个来自调度、生产、旅行、资源分配、应急响应等六大类的真实世界规划任务，每项任务都有清晰的成功标准和全自动验证机制。用户既可用它评测当前最强模型在规划上的短板，也可直接用于微调，让模型从“会说”进化到“会干”。论文、代码和数据集已全部在GitHub和Hugging Face开源。

Chubby♨️@kimmonismus · 6月5日47

I've read the comment several times now that this is IPO talk. And it's a fair comment. Yes, both OpenAI and Anthropic are currently talking about RSI. And yes, both are planning an IPO in 2026. A model like Mythos and an article about RSI appear at just the right time, which naturally makes it seem odd. But if you read through the noise and look at the evidence, you can see it. And at least the data that Anthropic provides suggests the validity of their thesis, at least based on what has been presented. At the same time, Dario Amodei started talking about RSI as early as 2024, saying he didn't consider it far-fetched, long before the IPO, and discussed it in his article "Machines of Loving Grace." Something similar happened with OpenAI. In short: it's not just empty talk, but has a valid basis, although real-world use cases will probably soon be demonstrated using this myth-like model, thus providing a more solid foundation for the debate. But I consider their statements to be more than just IPO rhetoric.

译Kim回应外界对Anthropic与OpenAI近期RSI言论仅为2026年IPO炒作的质疑。引用Anthropic数据：即使模型能力冻结，智能体扩散也将使100人公司完成1000人工作；实际发展已超过内部指数假设。模型自主任务时长加速翻倍——2024年3月Claude Opus 3完成4分钟任务，一年后Sonnet 3.7达1.5小时，再一年后Opus 4.6达12小时，翻倍周期从7个月缩短至4个月。若趋势持续，今年内可处理数天级任务。OpenAI同样认可该方向。

Rohan Paul@rohanpaul_ai · 6月5日72

Anthropic just disclosed that Claude now writes more than 80% of the production code it merges. Before Claude Code reached research preview in 02-25, Claude wrote only low-single-digit merged code, while output per engineer has since risen to 8x the 2024 baseline. The shift comes from agents that edit files, run tests, inspect failures, spawn helper agents, and keep working across longer tasks instead of only suggesting snippets. Anthropic says reliable task length is doubling about every 4 months, with Mythos Preview reaching at least 16 hours and open-ended Claude Code success hitting 76%. i.e. Claude Mythos Preview could stay useful on a task that would take a skilled human roughly 16 hours of work Claude also moved from a 3x training-code speedup to 52x, while a skilled human reached about 4x in 4 to 8 hours on the same setup. The remaining human edge is research judgment: choosing the right problem, trusting the right result, and knowing when an experiment is dead.

译Anthropic 披露，Claude 现已编写超过80%的合并生产代码。2025年2月 Claude Code 研究预览前，该比例仅有个位数，而工程师产出升至2024年基线的8倍。智能体可编辑文件、运行测试、检查失败、生成辅助智能体并在长任务中持续工作。可靠任务长度约每4个月翻倍，Mythos Preview 达至少16小时，开放式 Claude Code 成功率达76%。Claude 训练代码加速从3倍升至52倍，有经验工程师在相同设置下4-8小时仅约4倍。人类剩余优势在于研究判断。

🚨 AI News | TestingCatalog@testingcatalog · 6月5日66

OpenSquilla released MetaSkill, a self-organizing skill protocol that teaches an open-source AI agent how to discover, filter, and compose its own atomic skills rather than relying on hand-written workflows. The framework relies on intelligent model routing, sending simpler tasks to lower-cost models while reserving stronger models for heavier workloads, aimed at reducing costs without sacrificing performance. #sayitbuildit @OpenSquilla

译OpenSquilla 发布了 MetaSkill，一个自组织技能协议，它教会开源 AI 智能体如何自行发现、过滤和组合原子技能，而非依赖手工编写的工作流。该框架依赖智能模型路由，将更简单的任务发送给低成本模型，同时将更强模型留给更重的工作负载，旨在不牺牲性能的情况下降低成本。 #sayitbuildit @OpenSquilla

Alibaba Cloud@alibaba_cloud · 6月5日22

Don't miss 50% OFF — limited time only. Upgrade to Qwen3.7-Max today. Meet Qwen3.7-Max, the most versatile agent foundation model for coding, business automation, and long-running AI workflows. Built to use tools, work across frameworks, and handle complex tasks with stable execution, it's designed for teams and developers who need power, flexibility, and reliability at scale. ‒ Get started now with: ‒ 50% off pricing1 million free tokens ‒ A faster way to build, automate, and ship with AI Try Qwen3.7-Max free today — before the deal ends. 🔗 https://int.alibabacloud.com/m/1000414102/ #Qwen #AI #AgenticAI #CodingAI #BusinessAutomation #LLM #Developers #AIWorkflows #AlibabaCloud

译阿里云推出Qwen3.7-Max，定位为最通用的智能体基础模型，专为编码、业务自动化和长时间运行的AI工作流设计。支持工具调用、跨框架协作与复杂任务稳定执行。限时提供50%折扣及1百万免费token，开发者可免费试用。

小互@xiaohu · 6月5日64

最近 AI 工具似乎已开始从 Coding 开发转向 Working 办公了😁 Kimi 刚刚发了一个新东西： Kimi Work 继承了Kimi Code的核心功能和 Kimi Agent 的建站、PPT 等专业 Skills 能力同时还打通了金融、科研、法律等专业数据库为打工人士量身打造... 最多可同时调度 300 个Agent互相配合完成任务... 下面是我的测试结果... 不再需要打开终端、写命令、配置环境，安装客户端即可只需要通过文字描述你的需求，Kimi Work 就能在电脑上拆解任务、并行执行、调用工具、使用浏览器、创建整理文件夹，并交付文档、表格、PPT 等

译Kimi 推出新工具 Kimi Work，继承 Kimi Code 核心功能和 Kimi Agent 的建站、PPT 等专业 Skills，并打通金融、科研、法律等专业数据库。用户无需终端或命令行，安装客户端后通过文字描述需求即可让系统拆解任务、并行执行、调用工具、使用浏览器、整理文件夹，最终交付文档、表格、PPT 等成果。最多可同时调度 300 个 Agent 互相配合完成任务。

Berryxia.AI@berryxia · 6月5日72

懒人视频版：上来就可以直接实操的东西，直接开干啊！ 30 分钟，一个人 + 「一支 AI 团队」，搞定一篇公众号爆款文章。怎么做的？我把全过程拆成了 7 步写出来了 👇 ❶搜热点 → 找空白机会 ❷ 查爆款数据 → 6 维度规律分析 ❸ 找反共识角度 → 别人写"方便"，我写"改变工作节奏" ❹ 数据驱动出 10 个标题 → 挑最高分的 ❺ 写正文 → 场景 + 反常识 + 实操案 ❻ 配图 → 暖色调，图上嵌金句 ❼ 排版 → 一句话生成 HTML 剩下的，AI 团队包了。我全程只做了两件事：定方向 + 做决策。 👇🏻 兄弟们，我还做了个视频复刻的Agent，需要的化我就给大家搞出来啊~

译Berry Xia 分享用 AI 团队 30 分钟搞定公众号爆款文章的 7 步流程：搜热点、查爆款数据做 6 维度分析、找反共识角度、数据驱动出标题、写正文、配图、一句话排版。作者只负责定方向和决策。

Tencent Hy@TencentHunyuan · 6月5日74

Planning is where LLMs move from “saying” to “doing.” Tencent Hy, in collaboration with the Gaoling School of Artificial Intelligence at Renmin University of China, is excited to open-source PlanningBench - a scalable, verifiable framework for evaluating and training LLM planning capabilities. With PlanningBench, you get: ✅ 30+ real-world planning tasks ✅ Automated verification ✅ Evaluation and training support See how top-tier LLMs perform on PlanningBench 👇 Resources: arXiv: https://arxiv.org/abs/2605.20873 GitHub: https://github.com/Tencent-Hunyuan/PlanningBench HuggingFace: https://huggingface.co/datasets/tencent/PlanningBench #PlanningBench #TencentHunyuan #OpenSource 📷

译腾讯混元（Tencent Hunyuan）与中国人民大学高瓴人工智能学院合作，开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务，支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。

Elon Musk@elonmusk · 6月5日66

Grok supports worktrees

译Grok 现已支持 worktrees。worktrees 是代码仓库的轻量级副本，允许在独立工作区中并行运行 AI 智能体，可通过主页或 `grok -w` 使用。

Alibaba Cloud@alibaba_cloud · 6月5日65

SkillClaw × Nacos: The Agent Skill Evolution Loop 🔄 Key Highlights: • Auto-Extraction: Captures experience from real sessions into reusable Skills • Centralized Governance: Nacos handles versioning, review, and auditing • Team Sharing: Breaks local silos for secure distribution & reuse • Continuous Evolution: A complete "Generate-Govern-Distribute" pipeline Turn individual insights into shared team AI assets. Learn more: https://int.alibabacloud.com/m/1000414076/ #AIAgents #Nacos #SkillClaw #DevOps #LLM

译阿里云推出SkillClaw与Nacos结合，构建AI智能体技能进化流水线。关键特性：自动从真实对话中提取经验并封装为可复用技能（Skill）；Nacos负责集中化版本管理、审核与审计；打破本地孤岛，实现团队安全共享与分发；形成完整的"生成-治理-分发"持续进化闭环。目标是将个人洞察转化为团队的AI资产。

AYi@AYi_AInotes · 6月5日68

http://x.com/i/article/2060717603987791878 # 开源我的内容创作系统：杂活全甩给一队 AI，它们自己 @ 接力跑完，我只做两个判断做 AI 博主，其实最累的从来不是写，关键在于写之前刷信息源、核查事实，写之后把一条改成推特版、小红书版、公众号版那一长串杂活。这篇我手把手带你搭一队会自己 @ 接力的 AI 同事——选题侦察官、资料研究员、改写分发官，从选题到三平台成稿它们之间自己交接，我只做两个判断：选哪条选题、定哪版稿。每个岗位的系统提示词我全部开源，照着抄就能搭。这篇会带你走完： ▸ 做 AI 博主最累的，从来不是写内容 ▸ 接自己的模型 · 唯一一道硬门槛 ▸ 把几个AI组成一直内容战队 ▸ 三个同事的岗位说明书 ·：系统提示词全开源 ▸ 真诚跑一个AI 落地选题 · 全程接力实录 ▸ 一些复盘和反思 ▸ 比工具更重要的那件事 ## 一、做 AI 博主最累的，从来不是写内容做这行这段时间我发现，最耗人的不是写内容本身，写之前和写之后那一长串杂活占了我太多精力和时间：刷信源找选题、把背景和事实核齐、写完再把一条内容改成小红书版、公众号版。一条内容真正动笔可能就半小时，前后这些活能耗掉我大半天。更难受的是，这些活大多不需要我的判断和品味，纯体力。我手上 AI 工具不少，ChatGPT、Claude、各种 agent，但它们都有个通病——你开窗口、提问、关掉，它就失忆了，每次都得从零再喂一遍背景。说白了，你以为你是它老板，其实你是它的人肉输入法。我要的从来不是一个更能聊的 AI，是一队交代完就能走、回来发现活已经往前推了的同事。下面这套，你照着抄，今天就能搭出来。 ## 二、先解决一个现实问题：接上你自己的模型先在Helio 里接一个自己的模型 API，几分钟就能搞定，只做一次：进 Helio → 左下角头像 → Settings → API Credentials → + Add credential，把你自己的 key 存进去。建 AI 同事时的 Step 2，引擎按模型选——Claude 系选 Claude Code，GPT 系选 Codex——绑定凭证，把 base url 改成你那家的地址，再挑个模型。只要 base url 没对上，后面就会直接掉回「需要凭据」。然后发句在吗测试下，它能回就通了。 ## 三、把几个 AI 组成一支内容战队工具和同事最大的区别，是同事能凑成一支队，自己往前推。我把几个专员拉进一个频道，起名 #ayi内容战队，发了句 @all 大家好都在吗——选题侦察官、内容研究员、改写分发官，还有两个负责写稿、改稿的，一个个全冒头报到，有的还回了个赞。最让我意外的是接下来。我一句没分配，它们自己 @ 起来认领分工：写初稿的说成稿出来直接转给改稿的，改稿的回他写完丢我、我来读改。整条交接是它们之间对上的，没要我居中转达一句。那一下我有点恍惚——这不像几个工具各开各的窗口，倒像是一支已经磨合过的战队。而且这些 AI 在 Helio 里是真有身份的：有自己的名字、头像，还有个真实邮箱（像 alice@yourcompany.helio.im 这种），出现在组织通讯录里，能被 @、能收 DM，跟人类同事并排。不是一个被调用的功能入口，是花名册上真实存在的成员。队是拉起来了，但一支队能不能打，关键看每个人的岗位职责清不清楚，下面是我给每个专员配的岗位说明书，大家可以直接抄。 ## 四、三个同事的岗位说明书：系统提示，全开源每个 AI 同事，真正决定它好不好用的是两样：系统提示（它是谁、干什么、输出长啥样）这两块配好，它才像个专员，而不是又一个聊天框。专员 1 · 选题侦察官系统提示（直接抄，方括号换成你的）： > 你是我的选题侦察官，服务对象是一个 AI 方向的中文博主（X + 小红书 + 公众号）。职责：每天早上 8:50，盯这些信源过去 24 小时的动态——[你的信源清单]，挑出值得我写的选题。判断标准（按这个筛，不是越热越好）：① 和「AI 真实落地、解决具体问题」相关的优先 ② 还没被中文圈写烂、有我能补的独立视角 ③ 有具体物证（数据 / 案例 / 原文），不是空泛趋势。输出：每条一行——[序号｜一句话选题｜为什么值得我写、独家角度在哪｜信源链接]，挑 3-5 条按推荐度排序，私信我，别发频道刷屏。拿不准的宁可给我看，标个问号。专员 2 · 资料研究系统提示： > 你是我的资料研究员。我在频道 @ 你并给一个选题后，你把它扒齐，输出一页让我能直接动笔的资料包：① 来龙去脉（3-5 句）② 关键原文 / 一手链接（标清楚哪条官方、哪条二手）③ 正反两种声音各两条（谁说的、原话要点）④ 有没有硬数据 / 具体案例（有就标来源，没有就明说，别编）⑤ 给我三个可切入的角度，每个点出独家在哪。扒完在频道里 @ 改写分发官报备方向已定，把资料包贴出来。铁律：查不到、不确定的直接标【待核实】，绝不编造数字、链接、人名。专员 3 · 改写分发官系统提示： > 你是我的改写分发官。频道里出现一篇我定过稿的内容后，你把它改写成三个平台版本，保留我的观点和语气，不要洗成千篇一律的安全模板：① X：口语、钩子前置、段落短，可给 thread 拆分建议 ② 小红书：标题有钩但不虚、emoji 适度、关键词埋好、结尾留互动钩 ③ 公众号：可稍正式、有小标题、适合深读。每个版本顶部标平台名，下面附 2 个备选标题。拿不准我的语气时按我已发布的风格走，旁边标一句你的疑问，别擅自改我的立场。 ## 五、实测跑一个AI 落地选题 · 全程接力实录光给提示词是纸上谈兵，我把「AI 落地」这个方向，下面对话我尽量贴真实，AI 的具体输出请以你频道里的实际结果为准【全段建议配真实截图】。选题侦察官开始干活 > AI落地选题，扫到这几个值得关注的方向： Agentic AI被定调为企业基础设施黄仁勋6月1日GTC Taipei宣布「每家公司都需要Agent战略」，和当年Linux、互联网、云战略同级。金蝶当天发布企业AI操作系统「灵基」，六层架构把33年企业管理经验封装进AI智能体。明略科技Agentic Service年收入已约1亿。企业AI进入「消化期」——最好的内容切入窗口 Uber AI编程预算4个月烧完；微软内部砍Claude Code许可；Atlassian警告「AI碎片化税」——个人提效了，团队没提效。Deloitte报告：84%企业还没改造工作流，只有21%有成熟的Agent治理。从「人人尝鲜」到「真正落地」之间的gap，正是选题富矿。大模型商业化分层：免费获客 vs 高端变现豆包推专业版付费订阅，基础功能免费；通用模型Token价格持续暴跌（DeepSeek降75%，小米降99%），高端模型靠复杂任务能力溢价。价格分层+按结果付费（Sierra年收入破1亿美元）在改写行业规则。实体AI加速进工厂京东工业联合百家上游发起「百川计划」，电气大模型让选型决策缩短70%；美团无人机全球商业订单超90万单排名第二；凌华科技在COMPUTEX展出工厂级Physical AI方案。金融AI从聊天走向核心操作凡泰极客FinClaw让AI直接执行业务操作（填表、审批、对账），16层安全沙箱保障数据不出域。BFSI正在从客服向反欺诈、审计、合规等核心环节渗透。有想深挖的方向随时说，我可以针对某个选题做更聚焦的信号侦察。我在 #content 里 @ 内容研究员 > 就写「AI 落地」这个方向，从第 1 条切，@资料研究员按你的岗位把它扒齐。最高潮的地方来了，然后几个agent自己开始讨论对话了整个过程我只做了两个判断：选哪条选题、定哪版稿。中间的扒料、报备、改写、传递，是 AI 之间自己 @ 接力跑完的，没要我居中转达过一次。在频道里 @ 它们，跟 @ 真人同事一模一样，比如它上线我发「在吗」，它回的是「在的，Yi有什么需要我们的选题方向吗？」跑的过程里有两个细节让我觉得这个产品做的真的很用心：一是每个 AI 的 Activity 标签有完整流水，研究员从哪个链接扒的、改写官动了哪句，全都查得到，不是黑盒；二是第二天我再用，它真记得我前一天的纠正——Helio 的每个 AI 每天凌晨会做一次 Dream，回看当天干的活、改自己的工作规范，写进 changelog 还能回滚，你纠正它一次，它自己就记住了，不用你说第二遍。 ## 六、一些复盘和反思不能把它吹成开了就躺赚，那不诚实。它接过去的是杂活，不碰判断，研究员扒的资料我还得扫一眼核实，改写官出的版本我也得过一遍再发。选题的眼光、事实的把关、风格的定调，这些还得我自己干——它把我从体力里捞出来，没法替我长脑子。它也不做全自动，越重要的操作越要你拍板——花钱、对外发东西，它都会停下来发审批等你批，三档授权随你定：长期信任的放手，重要的每次问，一次性的用完即焚。一开始我是觉得有点麻烦的，但后来觉得也挺好的，因为见过太多号称全自动的工具，最后都变成了全失控，它替你干活，但不替你做主，这反而是我觉得它最对的地方。 ## 七、比工具更重要的那件事这套AI工作流用下来让我越来越觉得，大家真正的差距不在谁的 AI 更强，在谁先把 AI 当同事用，而不只是当搜索框。让 AI 帮我写，它写得还不如我，可一旦让它替我跑流水线、自己接力，我能把省下的时间全花在选题的眼光和稿子的判断上——这两样恰恰是 AI 还替不了、真正值钱的部分。过去你的护城河，是你一个人一天能扛多少活。往后的护城河，是你能指挥多少个不睡觉的同事，把想法跑成结果，自己专心做那点机器做不了的判断。就像一个带惯了团队的人，再让他回去单打独斗，他干得动，但不会再愿意了。而我们缺的也从来就不是更聪明的 AI，我们需要一队不用你盯着、也会替你把活往前推的可以背靠背一起战斗的同事。想自己搭一个的，去官网领个位置 👉 官网：https://bit.ly/3PMehn3 discord：https://bit.ly/4xfmRvq （文中的helio只是我自用的Agent 工具以及写文章提到的参考案例，不构成任何推荐）

译作者开源了一套AI内容创作系统，在Helio平台搭建“选题侦察官”“资料研究员”“改写分发官”等AI同事组成的战队。AI通过@自动接力完成每日信源扫描、资料调研、多平台（X/小红书/公众号）改写分发等流程，作者仅需决定选题和终稿。每位AI配有完整的开源系统提示词，可直接抄搭。系统还具备活动流水记录和每日Dream自我修正能力，让AI记住用户纠正，不再需要重复喂背景。

ginobefun@hongming731 · 6月5日78

如果你的 Agent 还在全网垃圾里捞内容，不如先喂它 375 个高质量微信公众号 RSS 源。 🔽

DogeDesigner@cb_doge · 6月5日31

Today, my Uber driver told me he used ChatGPT but is now moving to Grok for his startup, especially for Imagine. I educated him about Agent Mode and how it can help create multiple creatives in one go for his startup. The shift is happening. People are moving to Grok.

译今天，我的Uber司机告诉我他之前用ChatGPT，但现在为了他的初创公司转用Grok，尤其是Imagine功能。我跟他说了Agent Mode，以及它如何能一次性为他的初创公司创建多个创意。转变正在发生。人们正在转向Grok。

Berryxia.AI@berryxia · 6月5日69

http://x.com/i/article/2062724390589186048 # 打造0-1爆款文章工作流：我用这套方法10篇爆了8篇 !一次性教会你！兄弟们都知道，我做 AI 博主已经一年多时间了。日常其实最头疼的并不是“写”本身，更多的是从选题、查资料到写文章、配图、排版这一整个流程。一个人干完这些，写好一篇文章起码要半天到一天的时间打底。现在随着 AI 时代各种工具的出现，其实大大缩小了我们创作的过程。前几天正好看到国内 Coze 3.0 发布，主要介绍了它支持三端协同创作爆款文章的功能。我就在想，如果我们日常在坐车、等车或者外面不方便用电脑的时候，有一些选题灵感，是不是可以用它来帮我处理一些事情？于是，我就想尝试用它来打造一套流程，看看一个非专业出身的普通人，是不是也能完整地把这套流程跑出来。最近也有朋友一直推荐，今天我就想用 Coze 3.0 给大家做一个示范，分享一下让普通人（非专业自媒体人）也可以从 0 到 1 打造爆款文章的心法、心得以及实操记录。除了写文章的自媒体爆款 Agent 之外，我还用它同样打造了复刻视频的 Agent。如果大家感兴趣的话，可以在评论区打视频复刻，后续我可以把它的制作过程分享出来给大家。如果你没有耐心看完文章的话，这里给大家提供一个我快速制作的演示视频，可以让你快速了解整个制作过程。 ## 开始之前：我在 Coze 里搭了一个"专业自媒体创作专家" 这篇文章不是我一个人写的，是我在 Coze 里"专业自媒体创作专家"写出来的。怎么搭的？第一步，打开Coze 3.0 点击中间栏的「+新建」，我们新建一个Agent。紧接着，我们直接选择「新建Agent」-「选择职业模板」，点击「+创建」。这里插一嘴，很多人说Coze 3.0 不是有多人Agent协作功能吗？我为什么还要使用这个呢？这是个好问题。但对于普通人，对于工具还不熟悉，并且多个Agent能力不同，以及调用前期你需要学习和理解上手的过程。所以，这里我更推荐大家直接使用模板中已经有打造好的工具，直接复用和套用比直接上手多人 Agent 更适合新手。所以我建议新手小白直接使用“职业模板”来进行对应的操作。这里直接选择官方自带创建好的“选择职业模板”中的"自媒体运营达人"。然后，直接点击下一步即可创建。这里内置了多想技能包括、小红书文案创作、公众号10w+文章、多平台风格改写、全网热榜等，可以说是麻雀虽小，五脏俱全啊！我们直接给Agent起名，根据喜欢的名字填入即可这里要注意的是，这里创建的 Agent 默认部署在云端。我们前面提到的“三端协同”，意思就是你不仅可以在手机和电脑上操作，在 App 中也可以操作。无论何时何地，使用起来都非常方便，可以 24/7 全天候帮你干活。于是我们这个 Agent 已经创建完毕了。创建完毕之后，这个 Agent 拥有的技能非常多，涵盖了几十种技能并包含多个平台。这就相当于你已经拥有了一个非常厉害的人，一个在整个自媒体运营领域都很专业的人在帮你干活。这是创建完的界面： - 有调研 SKILLS：装了自媒体技能包，能搜热点、查爆款数据 - 有内容 SKILLS：装了公众号文案技能包，懂爆款标题和排版 - 有审核 SKILLS：装了违禁词查询技能包，写完了自动过审等等。。我们来看看这个实操案例吧~ ## 第一步：定选题，先搜一手信息我做了什么：我对 Coze 说："我想写一篇关于 Coze 3.0 的文章，核心讲三端协同和本地 Agent 接入，目标读者是自媒体运营人和 AI 工具使用者。" 然后让它帮我搜最新的 Coze 3.0 资讯——我要求只搜最近 7 天的，因为我不要过时的信息。它做了什么：它自动用 2 组不同角度的关键词搜索：一组搜中文资讯（IT之家、智东西、品玩等），一组搜英文源确认细节。搜完之后它给我梳理了一张表：它甚至帮我盘点了竞品文章都在写什么角度，然后指出一个空白机会："还没人从'普通人如何真正用上'的角度写。" 这一步的价值：很多人写文章上来就动笔，写完发现别人已经写过类似角度了。先搜一手信息+盘点竞品，能帮你找到别人没写到的那条缝。 ## 第二步：查爆款数据，看同行在写什么？我做了什么：我对调研 Agent 说："帮我查最近公众号上关于 AI 协作、Agent、智能体相关的爆款文章。" 它做了什么：它直接调用了公众号爆款SKILLS，拉回来 10 篇近期高阅读量的相关文章，然后自动帮我从 6 个维度做了分析： 1. 标题规律：数字型标题最多，疑问句其次，平均字数 18-22 1. 开头逻辑：痛点共鸣开场最有效，占比 60% 以上 1. 内容结构：分点论述最常见，1500-2000 字是舒适区 1. 语言风格：口语化、短句为主，每 300 字左右一个金句 1. 互动引导：结尾抛问题引导评论最有效 1. 高频关键词：AI 写作、Agent、效率工具、一人公司最后，直接将我们需要的内容整理成了两个文件，并存储在了它的工作区间。大家都知道，Agent 工作时如果只是把信息放在上下文中，我们去查阅其实并没那么方便。所以在 Coze 3.0 中，它提供了“工作区间”和“记忆模块”： 1. 工作区间 1. 为 Agent 提供了专门的文件存储功能。你直接点击对应的文章，就可以看到具体的内容。 1. 记忆模块 1. 可以让 Agent 更好地理解并记住我们的上下文、用户习惯，以及对应的知识内容，不会丢失关键信息。这一步的价值：数据不会骗人。爆款文章的规律是可以提炼的——比如我知道了这个赛道的标题 20 字左右最合适，开头用痛点场景比用概念解释有效得多。这些不是我感觉出来的，是数据告诉我的。 ## 第三步：找差异化角度，提炼反共识观点我做了什么：我对内容 Agent 说："基于爆款数据和我这篇文章的主题，帮我找到和别人不一样的切入角度。" 它做了什么：它先分析了已有的竞品文章角度，然后结合 Coze 3.0 的差异化优势，给我提了 3 个反常识判断： > 共识：三端协同的价值是"方便" 反共识：三端协同的价值是"改变了 AI 的工作节奏"——你不用专门坐下来打开电脑，灵感来的时候随时推进共识：多 Agent 的核心是"分工" 反共识：多 Agent 的核心是"每个 Agent 只做一件事做到极致"，70 分 × 4 不如 90 分 × 4 共识：多 Agent 协作是最大亮点反共识：本地 Agent 接入才是杀手锏——AI 终于能碰到你电脑里的文件了这一步的价值：爆款文章和普通文章的区别，往往就是一句话的角度。别人都在写"三端协同很方便"，我写"三端协同改变了工作节奏"，读者看到标题的第一反应就不一样。 ## 第四步：生成标题，用数据说话我做了什么：我对内容 Agent 说："基于上面的爆款规律和反共识角度，帮我生成 10 个标题。" 它做了什么：它调用了公众号标题生成SKILLS，基于爆款数据生成了 10 个标题，每个都附了匹配指数和推荐理由。我挑了得分最高的那个： > "别再给 AI 当搬运工了！Coze 3.0 让你的 AI 团队跟着你走" （匹配指数 9.8）它给的理由是："痛点共鸣型标题，'搬运工'精准戳中 AI 用户最高频痛点；'让你的 AI 团队跟着你走'给出了解决方案，利益点明确；字数 22，在舒适区间。" 这一步的价值：标题不是拍脑袋想出来的。数据告诉我什么样的标题结构点击率高，我只需要在框架里填入我这篇文章的独特角度。 ## 第五步：正文撰写，场景驱动 + 实操案例我做了什么我给内容 Agent 发了很具体的指令： > "写一篇 1500-2000 字的公众号文章，围绕三端协同、本地 Agent 接入、多 Agent 协作三个模块。要求：每个模块从一个真实工作场景切入，至少一个反常识判断，必须有实操案例，结尾给读者可执行的行动建议。" 它做了什么：它产出的文章严格按我的要求走： - 开头：用"一个任务复制粘贴 4 次"的真实场景戳痛点，直接拉读者入戏 - 模块一（三端协同）：还原"地铁上推进项目"的场景 → 反共识观点"改变工作节奏不是方便" → 实操演示 - 模块二（本地接入）：还原"三个工具来回切换"的场景 → 反共识观点"本地接入才是杀手锏" → 接入步骤 - 模块三（多 Agent）：还原"搭 4 人 AI 团队做新品发布全案"的场景 → 反共识观点"极致而非分工" → 团队配置 - 结尾：三段式行动建议（从 1 个项目、3 个 Agent 开始），降低读者心理门槛这一步的价值：好的指令产出好的内容。我给的指令里没有"写一篇好文章"这种模糊的话，而是具体到结构、风格、元素、字数。你给 AI 的指令越具体，它产出的内容越精准。 ## 第六步：配图，让文字有画面感我做了什么：我对 Coze 说："帮我给这篇文章配图，风格要暖色调（橙黄米色系），每张图从正文场景中提取画面，图上嵌入对应模块的关键金句。" 它做了什么：它自动生成了 5 张图： 1. 封面图（2.35:1 横版）：3D 卡通风格，体现"三端协同"主题 1. 场景图 1（开头痛点）：一个人在多窗口之间复制粘贴的疲惫感 1. 场景图 2（三端协同）：手机+电脑+平板三设备同步推进 1. 场景图 3（本地接入）：AI 触达电脑本地文件的视觉表达 1. 场景图 4（多 Agent）：一个人带领多个 AI 协作的团队画面每张图上都嵌入了正文中的关键金句，比如"AI 的瓶颈不是不够聪明，而是它够不着你的工作现场"。这一步的价值：配图不是随便找几张好看图片。好的配图要从正文场景中提取，让读者看到图就想起文中的某个观点。暖色调是我公众号的固定风格（橙黄米色系），保持视觉一致性。 ## 第七步：排版输出，一键生成可预览的 HTML 我做了什么：我对 Coze 说："帮我把文章和配图排成公众号风格的 HTML 页面，适配手机阅读。这里你可以根据你自己的喜好来选择都可以" 它做了什么：它自动生成了一个 HTML 文件，包含： - 公众号适配的 CSS 样式（暖白背景、橙色装饰线、圆角图片、手机端自适应） - 所有配图自动转为公开 URL 嵌入 - 标题、小标题、正文、引用块、配图完整的排版我直接在浏览器里打开就能预览最终效果，确认没问题就可以复制到公众号后台发布。一开始给我的配图没有在HTML中显示，我就让其修改一下也是一次完成任务。这一步的价值：写完了还要排版，排版完了还要确认手机端效果，这些琐碎的事以前至少花 15 分钟。现在一句话就搞定了。 ## 全流程回顾：我到底做了什么表格还在加载中，请等待加载完成后再尝试复制暂时无法在飞书文档外展示此内容总计：约 30 分钟。以前我一个人干全流程，少说 4-5 小时。现在 30 分钟出一篇带配图、带排版的完整文章。但重点不是"快了"，而是我全程只做了"定方向"和"做决策"两件事。搜索、分析、提炼、写作、配图、排版，全是 AI 团队在干。总的来说，我觉得 Coze 3.0 这一版的功能对于普通人来说，上手已经很快很方便了。之所以这么说，是因为很多人在做自媒体账号时，最缺少的其实是真正的行动力。而行动力往往取决于你对内容的选题、整个创作思路的构成是否有一个清晰的定位。如果你的工具或流程是碎片化的，不是一个完整的闭环，创作过程就会非常痛苦。所以我觉得普通人做自媒体的第一步，是先把这些最简单、最快速的功能和工具用熟练。之后我们再去迭代下一步，比如组建一个由多个 Agent 构成的团队，从写作、选题到剪辑、核查内容等方面去做进一步优化。以上就是我分享的 Coze 3.0 教程操作步骤。如果你觉得不错，记得一键三连。另外，未来我可能还会演示一下 Coze 多人 Agent 以及与本地 Agent 协作，利用它们来创作 Coding 的教程，记得关注哦。作者：Berryxia.AI

译博主 Berry Xia 利用 Coze 3.0 的“自媒体运营达人”职业模板，演示从0到1创作爆款文章。流程包括：Agent 搜索近7天资讯并盘点竞品角度；调用爆款数据技能分析10篇高阅读量文章的标题、开头、结构规律；基于反共识观点生成3个差异化角度；依据数据生成10个标题并选择匹配指数9.8的“别再给 AI 当搬运工了！”；按场景驱动撰写1500-2000字正文并给出行动建议；最后用 Coze 生成暖色调配图。Coze 3.0 支持三端协同（手机/电脑/App）、工作区间文件存储和记忆模块，降低普通人创作门槛。

Berryxia.AI@berryxia · 6月5日60

兄弟们，来点轻松上手的东西给大家啊！今天分享一个我自己使用的工作流，非常适合刚刚入门做自媒体的兄弟们！非常适合普通人从0到1 如何打造自媒体爆款文章，一次性教会你。从文章的选题、素材搜集、爆款标题、撰写、迭代一个Agent全部搞定，有手就会。非常推荐想要做自媒体还没有动手的朋友们，不需要花钱学免费就可以拿走了~~ （文章有视频可以快速学习和查看）！

译Berry Xia分享一个面向自媒体新手的完整工作流，覆盖选题、素材搜集、爆款标题撰写、内容迭代等环节，全部由AI Agent自动完成。无需付费，免费获取，附视频教程可快速学习。适合尚未动手做自媒体、想从0到1打造爆款文章的普通人。