http://x.com/i/article/2062724390589186048 # 打造0-1爆款文章工作流：我用这套方法10篇爆了8篇 !一次性教会你！兄弟们都知道，我做 AI 博主已经一年多时间了。日常其实最头疼的并不是“写”本身，更多的是从选题、查资料到写文章、配图、排版这一整个流程。一个人干完这些，写好一篇文章起码要半天到一天的时间打底。现在随着 AI 时代各种工具的出现，其实大大缩小了我们创作的过程。前几天正好看到国内 Coze 3.0 发布，主要介绍了它支持三端协同创作爆款文章的功能。我就在想，如果我们日常在坐车、等车或者外面不方便用电脑的时候，有一些选题灵感，是不是可以用它来帮我处理一些事情？于是，我就想尝试用它来打造一套流程，看看一个非专业出身的普通人，是不是也能完整地把这套流程跑出来。最近也有朋友一直推荐，今天我就想用 Coze 3.0 给大家做一个示范，分享一下让普通人（非专业自媒体人）也可以从 0 到 1 打造爆款文章的心法、心得以及实操记录。除了写文章的自媒体爆款 Agent 之外，我还用它同样打造了复刻视频的 Agent。如果大家感兴趣的话，可以在评论区打视频复刻，后续我可以把它的制作过程分享出来给大家。如果你没有耐心看完文章的话，这里给大家提供一个我快速制作的演示视频，可以让你快速了解整个制作过程。 ## 开始之前：我在 Coze 里搭了一个"专业自媒体创作专家" 这篇文章不是我一个人写的，是我在 Coze 里"专业自媒体创作专家"写出来的。怎么搭的？第一步，打开Coze 3.0 点击中间栏的「+新建」，我们新建一个Agent。紧接着，我们直接选择「新建Agent」-「选择职业模板」，点击「+创建」。这里插一嘴，很多人说Coze 3.0 不是有多人Agent协作功能吗？我为什么还要使用这个呢？这是个好问题。但对于普通人，对于工具还不熟悉，并且多个Agent能力不同，以及调用前期你需要学习和理解上手的过程。所以，这里我更推荐大家直接使用模板中已经有打造好的工具，直接复用和套用比直接上手多人 Agent 更适合新手。所以我建议新手小白直接使用“职业模板”来进行对应的操作。这里直接选择官方自带创建好的“选择职业模板”中的"自媒体运营达人"。然后，直接点击下一步即可创建。这里内置了多想技能包括、小红书文案创作、公众号10w+文章、多平台风格改写、全网热榜等，可以说是麻雀虽小，五脏俱全啊！我们直接给Agent起名，根据喜欢的名字填入即可这里要注意的是，这里创建的 Agent 默认部署在云端。我们前面提到的“三端协同”，意思就是你不仅可以在手机和电脑上操作，在 App 中也可以操作。无论何时何地，使用起来都非常方便，可以 24/7 全天候帮你干活。于是我们这个 Agent 已经创建完毕了。创建完毕之后，这个 Agent 拥有的技能非常多，涵盖了几十种技能并包含多个平台。这就相当于你已经拥有了一个非常厉害的人，一个在整个自媒体运营领域都很专业的人在帮你干活。这是创建完的界面： - 有调研 SKILLS：装了自媒体技能包，能搜热点、查爆款数据 - 有内容 SKILLS：装了公众号文案技能包，懂爆款标题和排版 - 有审核 SKILLS：装了违禁词查询技能包，写完了自动过审等等。。我们来看看这个实操案例吧~ ## 第一步：定选题，先搜一手信息我做了什么：我对 Coze 说："我想写一篇关于 Coze 3.0 的文章，核心讲三端协同和本地 Agent 接入，目标读者是自媒体运营人和 AI 工具使用者。" 然后让它帮我搜最新的 Coze 3.0 资讯——我要求只搜最近 7 天的，因为我不要过时的信息。它做了什么：它自动用 2 组不同角度的关键词搜索：一组搜中文资讯（IT之家、智东西、品玩等），一组搜英文源确认细节。搜完之后它给我梳理了一张表：它甚至帮我盘点了竞品文章都在写什么角度，然后指出一个空白机会："还没人从'普通人如何真正用上'的角度写。" 这一步的价值：很多人写文章上来就动笔，写完发现别人已经写过类似角度了。先搜一手信息+盘点竞品，能帮你找到别人没写到的那条缝。 ## 第二步：查爆款数据，看同行在写什么？我做了什么：我对调研 Agent 说："帮我查最近公众号上关于 AI 协作、Agent、智能体相关的爆款文章。" 它做了什么：它直接调用了公众号爆款SKILLS，拉回来 10 篇近期高阅读量的相关文章，然后自动帮我从 6 个维度做了分析： 1. 标题规律：数字型标题最多，疑问句其次，平均字数 18-22 1. 开头逻辑：痛点共鸣开场最有效，占比 60% 以上 1. 内容结构：分点论述最常见，1500-2000 字是舒适区 1. 语言风格：口语化、短句为主，每 300 字左右一个金句 1. 互动引导：结尾抛问题引导评论最有效 1. 高频关键词：AI 写作、Agent、效率工具、一人公司最后，直接将我们需要的内容整理成了两个文件，并存储在了它的工作区间。大家都知道，Agent 工作时如果只是把信息放在上下文中，我们去查阅其实并没那么方便。所以在 Coze 3.0 中，它提供了“工作区间”和“记忆模块”： 1. 工作区间 1. 为 Agent 提供了专门的文件存储功能。你直接点击对应的文章，就可以看到具体的内容。 1. 记忆模块 1. 可以让 Agent 更好地理解并记住我们的上下文、用户习惯，以及对应的知识内容，不会丢失关键信息。这一步的价值：数据不会骗人。爆款文章的规律是可以提炼的——比如我知道了这个赛道的标题 20 字左右最合适，开头用痛点场景比用概念解释有效得多。这些不是我感觉出来的，是数据告诉我的。 ## 第三步：找差异化角度，提炼反共识观点我做了什么：我对内容 Agent 说："基于爆款数据和我这篇文章的主题，帮我找到和别人不一样的切入角度。" 它做了什么：它先分析了已有的竞品文章角度，然后结合 Coze 3.0 的差异化优势，给我提了 3 个反常识判断： > 共识：三端协同的价值是"方便" 反共识：三端协同的价值是"改变了 AI 的工作节奏"——你不用专门坐下来打开电脑，灵感来的时候随时推进共识：多 Agent 的核心是"分工" 反共识：多 Agent 的核心是"每个 Agent 只做一件事做到极致"，70 分 × 4 不如 90 分 × 4 共识：多 Agent 协作是最大亮点反共识：本地 Agent 接入才是杀手锏——AI 终于能碰到你电脑里的文件了这一步的价值：爆款文章和普通文章的区别，往往就是一句话的角度。别人都在写"三端协同很方便"，我写"三端协同改变了工作节奏"，读者看到标题的第一反应就不一样。 ## 第四步：生成标题，用数据说话我做了什么：我对内容 Agent 说："基于上面的爆款规律和反共识角度，帮我生成 10 个标题。" 它做了什么：它调用了公众号标题生成SKILLS，基于爆款数据生成了 10 个标题，每个都附了匹配指数和推荐理由。我挑了得分最高的那个： > "别再给 AI 当搬运工了！Coze 3.0 让你的 AI 团队跟着你走" （匹配指数 9.8）它给的理由是："痛点共鸣型标题，'搬运工'精准戳中 AI 用户最高频痛点；'让你的 AI 团队跟着你走'给出了解决方案，利益点明确；字数 22，在舒适区间。" 这一步的价值：标题不是拍脑袋想出来的。数据告诉我什么样的标题结构点击率高，我只需要在框架里填入我这篇文章的独特角度。 ## 第五步：正文撰写，场景驱动 + 实操案例我做了什么我给内容 Agent 发了很具体的指令： > "写一篇 1500-2000 字的公众号文章，围绕三端协同、本地 Agent 接入、多 Agent 协作三个模块。要求：每个模块从一个真实工作场景切入，至少一个反常识判断，必须有实操案例，结尾给读者可执行的行动建议。" 它做了什么：它产出的文章严格按我的要求走： - 开头：用"一个任务复制粘贴 4 次"的真实场景戳痛点，直接拉读者入戏 - 模块一（三端协同）：还原"地铁上推进项目"的场景 → 反共识观点"改变工作节奏不是方便" → 实操演示 - 模块二（本地接入）：还原"三个工具来回切换"的场景 → 反共识观点"本地接入才是杀手锏" → 接入步骤 - 模块三（多 Agent）：还原"搭 4 人 AI 团队做新品发布全案"的场景 → 反共识观点"极致而非分工" → 团队配置 - 结尾：三段式行动建议（从 1 个项目、3 个 Agent 开始），降低读者心理门槛这一步的价值：好的指令产出好的内容。我给的指令里没有"写一篇好文章"这种模糊的话，而是具体到结构、风格、元素、字数。你给 AI 的指令越具体，它产出的内容越精准。 ## 第六步：配图，让文字有画面感我做了什么：我对 Coze 说："帮我给这篇文章配图，风格要暖色调（橙黄米色系），每张图从正文场景中提取画面，图上嵌入对应模块的关键金句。" 它做了什么：它自动生成了 5 张图： 1. 封面图（2.35:1 横版）：3D 卡通风格，体现"三端协同"主题 1. 场景图 1（开头痛点）：一个人在多窗口之间复制粘贴的疲惫感 1. 场景图 2（三端协同）：手机+电脑+平板三设备同步推进 1. 场景图 3（本地接入）：AI 触达电脑本地文件的视觉表达 1. 场景图 4（多 Agent）：一个人带领多个 AI 协作的团队画面每张图上都嵌入了正文中的关键金句，比如"AI 的瓶颈不是不够聪明，而是它够不着你的工作现场"。这一步的价值：配图不是随便找几张好看图片。好的配图要从正文场景中提取，让读者看到图就想起文中的某个观点。暖色调是我公众号的固定风格（橙黄米色系），保持视觉一致性。 ## 第七步：排版输出，一键生成可预览的 HTML 我做了什么：我对 Coze 说："帮我把文章和配图排成公众号风格的 HTML 页面，适配手机阅读。这里你可以根据你自己的喜好来选择都可以" 它做了什么：它自动生成了一个 HTML 文件，包含： - 公众号适配的 CSS 样式（暖白背景、橙色装饰线、圆角图片、手机端自适应） - 所有配图自动转为公开 URL 嵌入 - 标题、小标题、正文、引用块、配图完整的排版我直接在浏览器里打开就能预览最终效果，确认没问题就可以复制到公众号后台发布。一开始给我的配图没有在HTML中显示，我就让其修改一下也是一次完成任务。这一步的价值：写完了还要排版，排版完了还要确认手机端效果，这些琐碎的事以前至少花 15 分钟。现在一句话就搞定了。 ## 全流程回顾：我到底做了什么表格还在加载中，请等待加载完成后再尝试复制暂时无法在飞书文档外展示此内容总计：约 30 分钟。以前我一个人干全流程，少说 4-5 小时。现在 30 分钟出一篇带配图、带排版的完整文章。但重点不是"快了"，而是我全程只做了"定方向"和"做决策"两件事。搜索、分析、提炼、写作、配图、排版，全是 AI 团队在干。总的来说，我觉得 Coze 3.0 这一版的功能对于普通人来说，上手已经很快很方便了。之所以这么说，是因为很多人在做自媒体账号时，最缺少的其实是真正的行动力。而行动力往往取决于你对内容的选题、整个创作思路的构成是否有一个清晰的定位。如果你的工具或流程是碎片化的，不是一个完整的闭环，创作过程就会非常痛苦。所以我觉得普通人做自媒体的第一步，是先把这些最简单、最快速的功能和工具用熟练。之后我们再去迭代下一步，比如组建一个由多个 Agent 构成的团队，从写作、选题到剪辑、核查内容等方面去做进一步优化。以上就是我分享的 Coze 3.0 教程操作步骤。如果你觉得不错，记得一键三连。另外，未来我可能还会演示一下 Coze 多人 Agent 以及与本地 Agent 协作，利用它们来创作 Coding 的教程，记得关注哦。作者：Berryxia.AI

译博主 Berry Xia 利用 Coze 3.0 的“自媒体运营达人”职业模板，演示从0到1创作爆款文章。流程包括：Agent 搜索近7天资讯并盘点竞品角度；调用爆款数据技能分析10篇高阅读量文章的标题、开头、结构规律；基于反共识观点生成3个差异化角度；依据数据生成10个标题并选择匹配指数9.8的“别再给 AI 当搬运工了！”；按场景驱动撰写1500-2000字正文并给出行动建议；最后用 Coze 生成暖色调配图。Coze 3.0 支持三端协同（手机/电脑/App）、工作区间文件存储和记忆模块，降低普通人创作门槛。

Berryxia.AI@berryxia · 6月5日60

兄弟们，来点轻松上手的东西给大家啊！今天分享一个我自己使用的工作流，非常适合刚刚入门做自媒体的兄弟们！非常适合普通人从0到1 如何打造自媒体爆款文章，一次性教会你。从文章的选题、素材搜集、爆款标题、撰写、迭代一个Agent全部搞定，有手就会。非常推荐想要做自媒体还没有动手的朋友们，不需要花钱学免费就可以拿走了~~ （文章有视频可以快速学习和查看）！

译Berry Xia分享一个面向自媒体新手的完整工作流，覆盖选题、素材搜集、爆款标题撰写、内容迭代等环节，全部由AI Agent自动完成。无需付费，免费获取，附视频教程可快速学习。适合尚未动手做自媒体、想从0到1打造爆款文章的普通人。

Rohan Paul@rohanpaul_ai · 6月5日63

Better self-improving agents need better solvers, not bigger update-writing models. This challenges the common habit of putting the strongest model in the evolver seat. The usual intuition was: put the strongest model in the evolver seat, because a better model should write better prompts, memories, tools, and skills. This paper cuts that intuition in half. It separates two jobs that are usually blurred together: writing useful harness updates, and benefiting from those updates during task execution. The paper says the cheaper model can often write good enough prompt, memory, or skill updates. So a small Qwen3.5-9B evolver can create updates that help about as much as Claude Opus 4.6. The expensive model is more useful as the agent that actually solves the task with those updates. i.e. using the updates is very model-dependent, because weak models often fail to load the right skill or load it and then stop following it during a long task. Strong models can use the harness, but they may already be close enough to their ceiling that the update has less room to help. The sweet spot is the mid-tier model: capable enough to invoke and follow the new procedure, but not so capable that the harness has nothing left to teach. ---- Link – arxiv. org/abs/2605.30621 Title: "Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents"

译论文“Harness Updating Is Not Harness Benefit”挑战了常见直觉——把最强模型放在进化者位置以写出更好更新。实验表明，廉价模型Qwen3.5-9B即可写出与Claude Opus 4.6效果相近的提示、记忆和技能更新。昂贵模型更适合作为求解任务的智能体，因弱模型无法正确加载或遵循更新，强模型已近能力上限，收益有限。甜区在中档模型：既能调用新程序，又有足够学习空间。

歸藏(guizang.ai)@op7418 · 6月5日59

事实上，Codepilot 这种大型代码库 Vibe Coding 非常依赖于文档。自从 Claude Code 的 Plan 模式废掉以后，我连计划写的都是计划文档，整个文档体系的复杂度和占代码的比例都在快速大幅上升。所以，文档体系的管理，以及 AI 和人协作下的文档梳理，在整个大型代码库中其实是非常重要的。我让 Codex 分析了一下 CodePilot 目前的文档体系，以及它跟代码之间的关系。目前 CodePilot 里面有 26 万行代码和 5.6 万行文档，文档占代码的比例大约是 21%。说一个事实：从 CodePilot 的第一个版本到现在，我没有动过一行代码，因为现在确实看不懂了。但目前基本上所有已知的 bug 我都能修复，所有想要实现的能力也都能实现。这是当前 Vibe Coding 我自己的一个实践，也是我自己的一个上限。整个重构本来预期是两周，但实际持续了超过一个月零三周。

译@op7418 发布 CodePilot v0.55.0 正式版，新增多执行引擎（Claude Code / 自建 Native / OpenAI Codex）、上下文用量可视化及 Codex 账号原生能力。作者分享实践：当前代码库有 26 万行代码与 5.6 万行文档（占比 21%），文档体系对 bug 修复和功能实现至关重要。作者称从未手写一行代码，但能修复所有已知 bug 并实现所有想要能力。原本预期两周的重构持续超过一个月零三周。

数字生命卡兹克@Khazix0918 · 6月5日79

http://x.com/i/article/2062721652467941376 # Anthropic万字长文：当AI开始构建自己，人类该何去何从？今天这篇内容可能会比较特殊，是一篇Anthropic凌晨发的全新文章。名字叫《When AI builds itself》。翻译过来叫，《当人工智能开始自我构建》。我大概凌晨1点多读的，读完以后，我直接就分享到了所有的群里，因为感觉确实学到了很多东西。非常非常有价值。然后开始写文章，也想给大家分享一下我自己的感悟。但是写着写着，我觉得我怎么写都写不好，怎么都无法表达出原文的浩瀚。所以，写着写着，算了。这种内容，还是值得放原文。所以，我把那篇文章，进行了全文的翻译和润色，分享给大家，也希望对大家有用，一定要看到最后，它值得你花20分钟的时间。以下是《When AI builds itself》原文翻译：《当 AI 开始构建自己》在 AI 的大部分历史中，开发周期的每一步都由人类驱动。但在 Anthropic，我们正在将越来越多的 AI 开发工作交给 AI 系统自身来完成，而这正在加速我们的工作。如果把这个趋势推到极致，并给予充足的算力，它所指向的终点，是一个能够完全自主地设计和开发自己下一代的 AI 系统。这就是所谓的递归自我改进。我们还没有走到那一步，递归自我改进也并非必然发生。但它到来的速度，可能远超大多数机构的预期和准备。借助公开基准测试以及此前从未对外披露的 Anthropic 内部数据，Anthropic 研究院正在展示一个事实：AI 已经在加速 AI 系统自身的开发。仅举一例：如今 Anthropic 的工程师平均每季度交付的代码量，是 2021 年至 2025 年间的 8 倍。本文所讨论的技术趋势表明，AI 系统在未来几年将变得更加强大。这些趋势蕴含着巨大的影响。能自己构建自己的 AI，将是技术史上的重大里程碑，它可能在科学、医疗等领域为世界带来巨大的福祉。但完全的递归自我改进也可能加剧人类失去对 AI 系统控制的风险。如果系统有能力完全自主地构建自己的继任者，那么我们对它们的安全防护、监控和行为塑造就变得更加重要。来自外部世界的证据 AI 模型改进的速度正在加快，模型能够独立可靠完成的任务时长，大约每四个月翻一番，比此前每七个月翻一番的趋势明显加速。 2024 年 3 月，Claude Opus 3 能完成人类大约需要四分钟的软件任务。一年后，Claude Sonnet 3.7 能处理大约一个半小时的任务。再过一年，Claude Opus 4.6 已经能胜任 12 小时的任务。如果这个趋势持续下去，需要一个熟练工程师花几天才能完成的任务，今年内就可能落入 AI 的能力范围。到 2027 年，AI 系统可能有能力处理需要一个人花几周完成的任务。同样的模式也出现在编程和研究基准测试中。基准测试衡量模型在特定领域的表现，当模型的得分接近 100%，我们就说基准被"饱和"了。 SWE-bench 是一个标准的真实世界软件工程测试：它给模型一个真实的开源代码库和一份真实的 Bug 报告，要求模型写出修复代码，并通过该项目自己的测试。模型的得分从最初的个位数百分比到饱和整个基准，只用了两年。 CORE-Bench 测试的是模型能否复现已有研究，这是开展原创研究的前提条件。它将一篇已发表论文的代码和数据交给 AI 模型，要求它重新运行所有内容并确认能否复现论文的结果。AI 系统的成功率从 2024 年的约 20% 上升到 15 个月后饱和整个基准。运营长时任务基准测试的 METR 机构发现，Claude Mythos Preview 能够"至少"连续工作 16 小时，并且处于"METR 在不增加新任务的情况下所能测量的上限"。公开基准测试能揭示很多关于这些系统能力的信息。但它们无法展示 AI 系统在加速 AI 开发本身方面产生了多大影响。要看到这一点，我们需要来自 Anthropic 这样的 AI 公司内部的直接证据。来自 Anthropic 内部的证据构建一个前沿模型需要两大类工作。一类是工程：编写代码、搭建基础设施、监督模型训练。另一类是研究：决定运行哪些实验、解读实验结果、想清楚下一步该尝试什么方向。在工程和研究这两个方面，我们看到的图景是一致的。在工程领域，Claude 可以接手一个描述模糊的问题并自行找到解决方案；人类提供目标，但不再需要提供方法。在研究领域，对于一个定义清晰的实验，Claude 已经能够匹配甚至超越熟练人类的执行水平。然而，在运用判断力来选择目标这件事上，无论是工程还是研究，Claude 与人类之间仍然存在显著差距。这正是今天的 AI 与一个能自主设计自己继任者的未来系统之间的鸿沟。在 Anthropic，员工随着经验积累，通常会接手越来越开放、越来越重要的任务。早期阶段，你执行的是别人指定好的任务，比如"导出按钮坏了，请修一下。"积累了经验之后，你会拿到一个目标，然后自己设计实现路径，比如"排查一下网络在高负载时为什么变慢。"到了最高层级，你要决定的是哪些问题值得去解决："团队下个季度应该做什么？"我们可以用 Anthropic 的内部数据来看看，Claude 在处理这些不同层级的任务时已经走了多远。 Claude 编写了 Anthropic 代码库中相当大的比例。截至 2026 年 5 月，我们合并到 Anthropic 代码库中的代码，超过 80% 由 Claude 编写。在 Claude Code 于 2025 年 2 月以研究预览版发布之前，这个数字还在个位数的低端。这一转变也反映在每位工程师的产出上。在 Anthropic 的头四年（2021–2024），每位工程师每天合并的代码行数基本持平，然后在 2025 年开始攀升——因为 Claude 从只是建议代码，变成了可以自己运行代码。2026 年这条曲线再次变陡，因为模型开始在更长的时间跨度上自主工作。下面的图表展示了这两个拐点。在 2026 年第二季度，一名典型工程师每天合并的代码量是 2024 年的 8 倍。其原因在于，大部分代码是由 Claude 编写的，工程师的角色转向了指导和审查，而非亲手敲代码。一个需要说明的地方是：代码行数是一个不完美的衡量指标，因为它度量的是数量而非质量。所以 2026 年第二季度每位工程师每天 8 倍的代码行数，几乎可以肯定是对真实生产力提升的高估。尽管如此，它仍然指示了一种加速。在 Anthropic，我们不以代码行数来衡量员工的贡献；团队成员产出更多代码，纯粹是因为他们在使用 AI 系统来编写更多代码。代码行数的增长与主观感受到的巨大生产力提升是吻合的。2026 年 3 月，一项覆盖 Anthropic 研究团队 130 名员工的内部调查中，受访者的中位数估计是：在他们本来就会去做的那些项目上，使用 Mythos Preview 大约让他们的产出变成了不使用任何 AI 模型时的 4 倍。我们预计 3 月的真实提升幅度会略低一些。但我们认为这个整体判断是可信的，也与我们的其他观察一致：Anthropic 相当比例的技术人员，完成核心工作的速度已经是无 AI 辅助时的数倍。我们还看到，Anthropic 员工在用 Claude 做一些原本根本不会发生的工作：比如构建探索性工具、处理长期积压的清理任务。举个例子，2026 年 4 月，Claude 交付了超过 800 个修复，将一类 API 错误的发生率降低了一千倍。负责监督 Claude 的工程师估计，如果由人类来做，这项工作需要四年才能完成；修复别人的 Bug 是缓慢而痛苦的，人类很难同时在脑中持有那么多不熟悉的上下文。 Claude 写出的代码"够好"，并且还在变好。 "好代码"有两层含义：它能用，而且写法能让另一位工程师看得懂、接着往下开发。在第一个标准上，证据非常清晰。过去一年里，Anthropic 员工纠正 Claude、在任务中途接管、或将 Claude 引回正轨的频率在持续下降，即使是在最复杂、最开放的任务上也是如此。所谓开放的任务，指的是没有明确规格说明的问题，工程师自己也不确定答案长什么样。下面的图表展示了 Claude 在不同难度任务上的成功率随时间的变化。Claude 写的代码确实能用。在最开放的任务上，Claude 的成功率在 2026 年 5 月达到 76%，六个月内提高了 50 个百分点。举一个属于这个难度层级的例子：一次常规升级导致数万个训练任务崩溃。一名工程师只给了 Claude 一些文本内容和集群访问权限，就把它指向了这个正在进行中的事故。Claude 逐一检查运行中的任务、逐个测试环境配置项，最终定位到了一个导致崩溃的冷门调试标志位，稳定地复现了问题，并确认了修复方案。Claude 大约花了两小时，完成了通常需要两到三天的工作。第二个标准是写出其他工程师能看懂并在此基础上继续开发的代码。在这一点上，人类和 AI 之间的差距仍然存在，但正在快速缩小。Anthropic 内部并非完全一致，但许多人认为：2025 年末时 Claude 写的代码质量仍然不如 Anthropic 人类工程师的水平，而到了今天大致达到了同等水平。我们预计年内 Claude 的代码质量将超过人类。这已经改变了 Anthropic 审查自身代码的方式。我们对代码库的变更提交，现在会先经过一个自动化的 Claude 审查器，它会在代码合并前检查 Bug、安全漏洞和其他缺陷。我们用这个工具做了一次回溯分析，发现如果对代码库的每一次变更都做自动 Claude 审查，大约三分之一曾经在 claude.ai 上引发过事故的 Bug 本可以在进入生产环境之前就被拦截。而写出那些代码的工程师，是全世界构建这类系统最优秀的人。Claude 现在正在捕捉他们遗漏的错误。 > "2025 年末，Claude 写的代码质量还略逊于 Anthropic 人类工程师的代码，到今天大致持平，我们预计年内将明确超越。" Claude 擅长在他人设定好目标后执行实验。每次 Anthropic 发布模型，我们都会跑同一套测试：给 Claude 一段训练小型 AI 模型的代码，要求它在通过同样的正确性检查的前提下，让这段代码跑得尽可能快。目标和成功指标是预先固定的，Claude 的任务是通过重写代码、运行、计时、反复迭代来找到加速方案。这是一个微缩版的实验研究循环。 2025 年 5 月，Claude Opus 4 平均将代码速度提升了约 3 倍。到 2026 年 4 月，Claude Mythos Preview 达到了约 52 倍。作为参照，一名熟练的人类研究员需要四到八小时才能达到 4 倍。在研究工作流的这个环节，在一个清晰定义的实验框架内进行优化。 Claude 在不到一年的时间里，从"非常有帮助"变成了"超越人类"。 > "现在的格局大致是这样的：人类有想法，模型能够以比以前快一个数量级的速度去实现、测试和验证这些想法。" Claude 在自主提出实验方面也越来越强。 2026 年 4 月，Anthropic 发表了首个 Claude 端到端独立完成开放式研究项目的案例。由 Claude 驱动的智能体被交给了一个 AI 安全方向的开放问题，大致是"一个较弱的模型能否可靠地监督一个更强的模型"，然后被放手去解决。这个过程涉及提出假设、测试假设、与并行智能体共享发现、反复迭代。这项任务有一个明确的表现"下限"和"上限"：下限是弱监督器独自工作的表现，上限是强模型在正确答案上训练后的表现。两位人类研究员用了大约一周时间，弥合了大约 23% 的差距；智能体们则在累计 800 小时的工作和大约 18000 美元的算力消耗下，弥合了 97%。这项工作有一些值得注意的局限：结果没有干净地迁移到生产规模的模型上，而且问题的选择和评分标准仍然是人类制定的。但在这些边界之内，每一个实验都是智能体自行设计的。人类唯一实质性发挥的作用，只是确定研究方向。 > “这些工作 Claude 几乎在一到两天内就完成了，我几乎没怎么插手。我觉得如果一个初级同事在同样的时间里交回这样的结果，我会小有惊喜。未来已经到了。” Claude 在将研究会话引向有价值发现方面越来越出色。我们检视了 2026 年 1 月至 3 月间的真实 Claude Code 会话，这些会话中 Anthropic 研究员与 Claude 协作解决一个开放式的探索性问题——比如查明某次训练运行为何持续崩溃，或某个模型在基准测试上表现不佳的原因。在每个案例中，我们都找到了一个研究员"绕了弯路"的时刻：他们追了一个方向，导致会话偏离正轨，之后才回到正确路径上。然后我们只将偏离之前的工作内容展示给不同版本的 Claude 模型，问它下一步会怎么做。另一个能看到整个会话最终走向的 Claude 实例则负责评判：是 AI 还是人类给出了更好的下一步建议。由于我们刻意选取的（n=129）都是人类判断有改进空间的时刻，这并不是一个模型与人类判断力之间的公平对比。这些时刻给我们提供的，是一组真实的、有挑战性的情境——正确的下一步并不显而易见，而人类的选择可以作为一个有用的参照标尺来比较模型随时间推移的进步。按照这个指标，2025 年 11 月我们最好的模型（Opus 4.5）有 51% 的时间给出了比人类更好的选择；到 2026 年 4 月（Mythos Preview），这个比例增长到 64%。研究的日常工作在很大程度上就是这样一连串"下一步决策"的链条，因此这是一个衡量模型最终能否独立开展调查的相关指标。我们将这一结果视为一个早期信号：AI 系统正在越来越擅长做出 AI 研究所依赖的那种判断。 > "就目前而言，人类的比较优势仍然在于看到更大的图景，在直接任务的范围之外去思考。" 未来 Anthropic 的工作可能是什么样？证据表明，在 AI 开发流程的每一步中，人类的角色都在收窄。一旦人类和 AI 编写的代码质量达到同等水平，人类将完全停止写代码，转而只做审查。但如果他们审查代码的速度跟不上 Claude 生成代码的速度，人工审查就会成为 AI 开发的新瓶颈。同样的，当 Claude 能够自己运行实验时，问题就变成了"这些实验中哪些值得去做？" 简单来说：执行层面的工作，写代码、跑实验、产出结果，在人力时间上的成本已经趋近于零，尽管在算力层面仍然有成本。人类目前仍保有比较优势的领域是研究品味和判断力：选择哪些问题重要、哪些结果可信、什么时候一条路走不通该及时止损。 > "工作（和生活）过去运行在人与人之间小恩小惠的礼物经济上。'能帮我把这个脚本跑起来吗？'……每一次都创造一点点人情债，一点点彼此的联结。Claude 更快，它不产生任何人情债，但每一次这样的替代，都是一次人际协作的机会的失去。" > "在一切顺利的日子里，我忍不住觉得自己做的事都不重要了，一切都被自动化了，而且比我做得更好更快。但总有些日子，所有东西都在崩溃，我不知道为什么，那时候我才意识到，我已经不太清楚自己到底一直在干什么了。" 如果我们错了呢？对上述证据一个自然的反驳是：仍然掌握在人类手中的那部分工作，选择要解决哪些问题才是最关键的。没有这种判断力，Claude 只是一个能干的助手，而非一个能独立驱动 AI 进步的系统。今天的训练方法和架构能否释放这种能力，确实尚不清楚。但 AI 的进步很少依靠"灵光一现"。在 AI 的近代史上确实有过几次这样的时刻，比如 Transformer 架构和混合专家模型，但这种范式级的突破相隔数年才出现一次。在两次突破之间，大部分进展都是渐进式的：我们把某个东西做大，看看哪里会出问题，修好它，再试一次。而这恰恰是 Claude 现在最擅长的工作流。爱迪生说天才是 1% 的灵感加 99% 的汗水。但我们看到的是，那 99% 的汗水正在被越来越多地自动化。事实已经越来越清楚：推动前沿进步的工作中，相当大一部分是可自动化的。大规模研究进展在很大程度上取决于工具和资源，它们决定了你能多快地运行实验、同时运行多少个、以及多快拿到结果。即使假设 Claude 永远无法拥有良好的研究品味，对我们证据的保守解读仍然意味着一种复合式的加速。如果人类将大部分时间花在仅占个位数百分比的方向设定工作上，而 Claude 处理剩下的一切，那就意味着每位工程师或研究员所驾驭的工作规模远超从前。我们看到的证据表明，Anthropic 的员工既在更快地推进，也在覆盖更广泛的领域。实际上，这意味着 AI 已经让 Anthropic 比有效 AI 工具出现之前运转得快得多。更大胆的解读则是：Claude 在研究判断力上的早期改进信号——虽然今天还很有限，但这恰恰说明这项能力本身也在提升。所谓"研究品味"可能只是又一项 AI 能力，AI 系统会在这上面失败一段时间，然后变好。我们在其他定性技能上见过同样的模式，比如 AI 系统理解一个笑话为什么好笑、展现心智理论能力、以及解开语言谜题。可能的未来接下来会发生什么，取决于两件事：趋势是否延续，以及如果延续，我们选择如何应对。我们至少可以设想三种未来情景：情景一：趋势停滞，但当前 AI 能力已经广泛扩散本文中出现了许多指数级增长的轨迹。但这些轨迹实际上可能是 S 曲线。我们也许正在逼近曲线的拐弯处——回报递减，增长曲线先趋平、再走平。那种区分一个合格研究员和一个卓越研究员的判断力，可能是一种无法通过堆叠算力和数据等训练资源来获得的能力。如果确实如此，突破这一瓶颈将需要新的思路，比如一种取代当前所有前沿模型所使用的 Transformer 架构的全新架构范式。另一种可能是，AI 进步的约束不在模型本身，而在供应链：推进和普及前沿技术所需的能源和算力，可能超出了当前的供给能力。芯片制造、电网扩容或互联带宽的速度可能才是真正的瓶颈，而非智能本身。我们也不能排除某种外部冲击对 AI 生态系统造成严重拖累，比如算力或电力供应的突然收缩，这两者中的任何一种都会减缓进步，并使实验室的前瞻性投资变得更加昂贵。又或者存在某种我们尚未预见到的其他障碍。即使模型能力被冻结在今天的水平，我们也预期世界将发生重大变化。Project Glasswing 就是一个早期信号：在启动后的最初几周里，Mythos Preview 在全球最重要的系统中发现了超过一万个高危和严重级别的软件漏洞，以至于网络安全防御的瓶颈已经从发现漏洞转移到了能否足够快地修补它们。而当前这些模型向更广泛经济领域的扩散仍处于早期阶段，在那个世界里，一家 100 人的公司越来越有可能做出 1000 人公司的体量，因为每个员工都将坐在一个由智能体组成的金字塔的顶端。我们列出这个情景是为了完整性，但我们并不认为它的可能性很高。我们能测量到的每一项能力，包括那些感觉更"软"的，比如代码质量和开放式任务的成功率，到目前为止都遵循着同一条曲线。我们还没有看到这条曲线出现弯折。在我们考虑的三种未来中，这一种会给各国政府和社会留出最多的适应时间。我们更担心的是接下来两种，它们的推进速度更快，留给准备的窗口也小得多。情景二：AI 实验室持续获得复合效率增益在这个情景中，AI 开发被大幅自动化，但人类继续设定研究方向、评判研究结果。使用 AI 系统的组织将随着时间推移变得高效得多，因此我们可以预期每个人身上出现显著的生产力乘数效应。100 人的公司可以完成一万人甚至十万人组织的工作量。这将彻底改变知识工作的面貌，但也可能被用于有害目的，从对全体国民的威权式监控，到针对每一个个体量身定制的操纵行动，这种行动的规模远超任何人类团队的能力上限。Anthropic 这样的公司中，人类的角色将发生转变。人们将与 AI 系统搭档来扩展研究规模、产生新的洞见，并共同构建用于验证 AI 输出可信度的系统。我们呈现的证据表明，我们很可能正在进入这个情景。但加速一个流程的某个环节，往往只是把瓶颈转移到了别处：整体速度受制于那些没有被加速的部分。在计算机科学中，这被称为阿姆达尔定律，同样的逻辑也适用于组织。Anthropic 已经遭遇了阿姆达尔定律的一个典型症状：当我们在组织内部推送越来越多的代码时，人工代码审查成了新的瓶颈。我们在工程之外也遇到了同样的摩擦。由于 Anthropic 员工与高能力模型的协作，新的想法、计划、工具和模拟呈爆发式增长，远远超出了我们有能力去追踪的范围。一个组织能多快地发现并消除这些瓶颈，这本身可能是一种随时间推移会不断精进的技能，也可能成为任何组织最重要的能力。情景三：AI 系统自身具备完全的递归自我改进能力，并开始构建自己的继任者如果推动能力进步的技术趋势持续下去，并且 AI 系统能够发展出蕴含人类变革性创造力的那些能力，那么 AI 系统有可能设计和改进自身。在这个世界里，AI 发展的速度将完全取决于可用算力（或者在算法训练和推理层面发现各种效率提升的速度）。人类在 AI 开发中的角色将大幅缩减，大部分精力可能转向对一个不断扩张的 AI "虚拟实验室"进行监督、验证和确认。我们预计，一个有能力自动化 AI 研发的系统，其技能也能迁移到其他科学领域，从而开始革新更多学科。在这个未来中，对齐问题会如何被解决——或者无法被解决，是我们最不确定的部分。模型可能被证明足够对齐，也足够具备研究品味，从而发现并实施我们尚未触及的新颖解决方案。它们也可能足够审慎，在条件不成熟时选择暂停开发。另一种可能性是，今天模型中偶尔出现的对齐偏差，在模型构建自己继任者的过程中不断累积，但越来越难以被理解，直到我们失去对它们的控制。也有可能，我们根本无法构建、整合和验证那些我们需要的工具，去判断自己到底处于哪条趋势线上。我们对这个世界会是什么样子缺乏好的直觉，因为我们当前的经济体系是由人类和人类构建的工具驱动的。就其本质而言，随着其能力全面超越人类，一个由快速递归自我改进驱动的世界，可能会被那个自我改进的模型所主导，并在更广泛的经济体系中扩散。如果人类劳动不再具有竞争力，很难预测经济将呈现什么面貌。即使模型开发变得完全自动化和递归化，我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让 Machines of Loving Grace 中描绘的许多愿景得以实现，在某些领域甚至很快。我们预计具身智能（即机器人技术）可能会紧随递归智能而来，并走上一条类似的"投入递减而回报递增"的路径。更强大的智能可能帮助我们更快地在物理世界中建造事物、更高效地开展救命药物的临床试验、发展出新型的协作形式。但仅仅实现递归改进，并不意味着工业生产、社会组织或市场运行方式会立即改变。再多的智能也无法缩短一种药物在几十年使用中才能暴露的效应，无法让选举早于宪法规定的时间举行，也无法在一个周末把陌生人变成老朋友。对大多数人而言，这个未来的体感速度，仍然由瓶颈决定——即使上游的实验室已经在以算力的速度运转。这个碰撞点以越来越快速度构建自身的递归智能遭遇人类世界、人际关系和治理结构，这一切是这个未来中我们同样无法预测的另一面。我们应该怎么做？如果能有效地减缓这项技术的发展速度，从而为我们争取更多时间来应对其巨大影响，我们认为这很可能是一件好事。但如果减速只是让最不谨慎的参与者在技术上追赶上来，那最终可能让所有人都更不安全。在没有全球协调机制的情况下，企业和政府将不得不在竞争压力和地缘政治压力下做出关于安全的艰难决定。我们相信，让世界拥有减缓甚至暂时暂停前沿 AI 开发的选项，从而让社会结构和对齐研究能跟上技术前进的步伐，对世界是有益的。Anthropic 研究院与其他许多机构合作开展研究并采取行动，帮助建立一个可信的减速或暂停所需要的体系。这些体系将使前沿 AI 开发者能够核实其他参与者是否在全球范围内确实已经停止或减速，以及是否有不良行为者利用协调减速的掩护秘密抢跑。如果这样的体系存在，我们预计我们会选择减速或暂时暂停，当然前提是其他处于或接近前沿的开发者也以可验证的方式这样做。有意义的减速或暂停需要多家分处多个国家、处于或接近前沿资源充沛的实验室在相同条件下达成停止协议。它还要求各方能够验证其他方确实已经停止。由于 AI 系统的独特特性，这个军控问题中的可探测性（一个低于可验证性的标准）要素，比其他技术困难得多。训练运行比导弹发射井更容易隐藏，其投入物都是通用的，而且在别人暂停时悄悄继续的诱惑巨大，因为谁在别人停下时继续前进，谁就可能继承领先地位。一个可信的暂停还必须明确规定什么条件触发它、什么条件解除它、以及由谁来裁定。这些在原则上都未必是不可能的，世界曾经为其他复杂技术建立过核查机制（例如中导条约），但那些机制花了几十年才建立起基础设施和信任。我们没有那么多时间。相比之下，一家实验室的单方面暂停可以立即执行，但效果要有限得多：它会改变谁是领跑者，但不会创造出当前所缺少的更广泛的审议进程。在未来几个月，我们将组织政策制定者、研究者、公民社会和其他 AI 公司之间的对话，共同帮助回答本文提出的一些问题：尤其是围绕完全递归自我改进以及如何创造更好的协调与审议选项。我们会公开讨论的成果。共同探究这些问题的窗口就在眼前，而 AI 公司之外的人也应该参与这场讨论。

译Anthropic发文揭示AI系统加速自身开发的趋势。模型独立完成任务时长约每四个月翻一番：Claude Opus 4.6已能胜任12小时任务，2027年可能处理数周级任务。SWE-bench两年内从个位数饱和至100%；CORE-Bench 15个月从20%饱和。Anthropic内部数据显示，截至2026年5月，超80%合并代码由Claude编写，工程师日均合并代码量是2024年的8倍（但此指标高估真实提升）。内部调查显示使用Mythos Preview使核心工作产出约提升4倍。最开放任务成功率六个月提高50个百分点至76%，Claude代码质量接近人类，预计年内超越。文章指出递归自我改进可能加速到来，需加强安全防护。

Rohan Paul@rohanpaul_ai · 6月5日71

Bots have overtaken humans online, and the internet was never prepared for this. - bots generate 57.4% of worldwide HTML requests - humans at 42.6%. The biggest shift is economic: traffic can rise while monetizable human attention falls, which weakens CPM, CPC, conversion-rate models, and analytics built before this agent wave. Cloudflare measures bot traffic, not only agentic AI traffic, but AI agents are a major suspect because one user task can trigger thousands of machine visits. The old web assumed a human loaded a page, saw ads, clicked links, filled carts, and created signals that publishers, stores, and SaaS companies could price. AI agents break that model because they read pages on behalf of people while skipping the ad views, session time, and click behavior that funded the web.

译Cloudflare数据显示，机器人已生成全球57.4%的HTML请求，人类仅占42.6%。流量上升但可货币化的人类注意力下降，冲击基于CPM、CPC、转化率的旧经济模型。AI agent是主因：一个用户任务可触发数千次机器访问，它们替人类读取页面，却跳过广告浏览、会话时长等信号，而这些曾是定价的根基。旧模型假设人类行为产生可定价信号，AI agent正打破这一范式。

Alibaba Cloud@alibaba_cloud · 6月5日34

Dr. Feifei Li, CTO and President of International Business at Alibaba Cloud, shares insights at the Qwen Conference on how a workforce of intelligent agents is revolutionizing the future of work. Agents are always-on, highly intelligent, and action-capable, making productivity limitless and available 24/7. Get ready for a new era where technology works tirelessly at your fingertips. #AlibabaAI

译阿里云国际业务CTO兼总裁李飞飞博士在Qwen大会上分享，一支智能体员工队伍如何彻底改变未来工作方式。智能体全天候在线、高度智能且具备执行能力，让生产力毫无上限、24小时随时可用。准备好迎接技术在你指尖不停运转的新时代吧。 #AlibabaAI

Alibaba Cloud@alibaba_cloud · 6月5日56

Why do industry Agents struggle while AI Coding thrives? The bottleneck is context. 🚀 Discover how Alibaba Cloud EventHouse bridges the gap by simplifying multi-source, real-time context supply. From info completeness to knowledge reconciliation, learn to move agents from demo to production reliably. 👉🏻https://int.alibabacloud.com/m/1000414048/ #EventHouse #EventBridge #AI #Agents

译为什么行业智能体举步维艰，而AI编程却蓬勃发展？瓶颈在于上下文。🚀 了解阿里云EventHouse如何通过简化多源实时上下文供给来弥合差距。从信息完整性到知识协调，学习如何将Agent从演示可靠地迁移到生产。 👉🏻https://int.alibabacloud.com/m/1000414048/ #EventHouse #EventBridge #AI #Agents

Rohan Paul@rohanpaul_ai · 6月5日60

Harness-1 makes search agents better by moving memory work out of the model and into a helper system. Shows that intelligence performs better when the environment stops forcing it to spend cognition on bookkeeping. That search agents should stop using the LLM as the notebook and let a separate harness track the search state. The paper proved that a 20B model improved search by doing less inside its own head. The problem is that normal search agents must both think about the next search and remember every document, clue, failed path, and remaining check inside the same limited context. This formulation puts too much routine state management inside the policy. Harness-1 separates those jobs. The model keeps the hard semantic choices: what to search, what to inspect, what to verify, and when the evidence is good enough. The harness keeps the recoverable state: candidate pools, curated documents, importance tags, evidence links, verification records, deduplicated observations, and budget-aware memory rendering. That sounds minor until you look at reinforcement learning. RL works poorly when every failure looks the same, because an empty or wrong final set does not reveal whether the agent searched badly, forgot evidence, skipped verification, or curated carelessly. By externalizing state, Harness-1 gives the policy a cleaner learning problem: improve decisions over a visible search workspace. For Harness-1, its gains were larger on held-out benchmarks than on source-family tasks, suggesting the model learned reusable search moves rather than memorized domain habits. ---- Link – arxiv. org/abs/2606.02373 Title: "Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses"

译Harness-1 将大语言模型的记忆工作转移到外部辅助系统（harness），解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择，而可恢复状态（候选池、证据链接、去重记录、预算感知记忆等）由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中，外部化状态避免了失败原因混淆，有助于策略学习。Harness-1 在未见 benchmark 上提升更大，表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。

meng shao@shao__meng · 6月5日58

所以 agent 并不会替代所有程序员，只会让顶级的程序员生产力翻 20 倍，并淘汰其他程序员，且，集体主义 >>> 个人英雄主义。 -- 太难得且美好无比的经历了，这句话尤其深有同感！这就去体验 Kimi Code 去，看看这个团队一个月的时间到底创造了什么奇迹，令人期待。 https://www.kimi.com/code

译月之暗面旗下Kimi Code完成架构重构并开源。开发团队在一个月内进行封闭开发，频繁在白板前争论迭代，实现集体主义远胜个人英雄主义的工程效率。作者强调，AI Agent不会替代所有程序员，但会让顶级程序员生产力提升20倍，同时淘汰其他程序员。重构过程中，作者花数千美元token进行架构分析与验证，开源后因皮质醇过度分泌病倒。一周消耗整箱红牛，且感性上感觉时间已过一个月，实际仅开源一周多。

ginobefun@hongming731 · 6月5日60

#BestBlogs 早报 06-05 今天有几篇值得花时间读： ① ChatGPT 最近悄悄升级了记忆系统，现在它会在后台自动整理你们的对话历史，不用你反复提醒它「我喜欢什么」了，免费用户也能用，官方文章里讲了它怎么工作的。 ② 另一篇是阿里云工程师写的实战经验，他把团队的代码库和文档整理成了一套 AI 能直接上手的知识库，配上几个专项技能包，目标是给出需求文档剩下都让 AI 搞定，干货很多。 ③ 还有一篇 SpaceX 招股书解读，其中最有意思的细节是 Anthropic 每个月付 12.5 亿美元买算力，数字大到有点不真实，但背后的逻辑值得想想。

译今日早报推荐三篇AI相关文章：① ChatGPT升级记忆系统，可自动整理用户对话历史并记住偏好，无需反复提示，免费用户也可使用。② 阿里云工程师分享实战经验，将团队代码库和文档整理成AI可直接调用的知识库，搭配专项技能包，目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露，Anthropic每月支付12.5亿美元购买算力，该数字反映其大规模AI训练与推理的算力需求。

meng shao@shao__meng · 6月5日65

Anthropic 发布关于「AI 递归自我改进」的研究报告 Anthropic 内部以 Claude 为代表的 AI 系统正被越来越深地用于开发下一代 AI 系统。这种 “AI 构建 AI” 的趋势正在加速。如果继续发展，可能出现系统完全自主设计并训练自身后继版本的情形——即递归自我改进。 https://www.anthropic.com/institute/recursive-self-improvement 关键证据（“外部公开基准”和“Anthropic 内部数据”） 1. 外部能力指标 · 模型可靠完成的任务时长正以约每 4 个月翻倍的速度增长（此前是每 7 个月）。 · SWE-bench 两年内从个位数分数趋于饱和。 · CORE-Bench 15 个月内从约 20% 饱和。 · 长时任务能力已达 16 小时量级。 2. 内部工程与研发数据 · 代码产出：截至 2026 年 5 月，Anthropic 合并到主干的代码中超过 80% 由 Claude 撰写；2026 年 Q2，工程师日均合并代码量是 2024 年的 8 倍。 · 主观感知：2026 年 3 月内部调研（130 名员工）中，受访者中位数估计自身产出约为无 AI 时的 4 倍。 · 代码质量：2025 年末 Claude 代码仍略逊于人类，如今已接近持平，并预计年内反超；人类审查已形成新瓶颈（阿姆达尔定律）。 · 实验执行：在给定目标的代码加速任务中，Claude 从 2025 年 5 月的约 3x 提升至 2026 年 4 月的约 52x；同等任务人类专家通常仅达 4x。 · 自主研究：2026 年 4 月，Claude Agent 端到端完成了一项 AI 安全开放研究问题，独立提出假设、设计实验、迭代结论，恢复能力达到人类两组研究者一周工作量的 97%（人类仅约 23%）。 · 研究判断：在 129 个真实开放调研场景中，Claude 在“下一步该怎么做”上优于人类原选择的比例从 2025 年 11 月的 51% 升至 2026 年 4 月的 64%。结构性观察人类在 AI 研发流程中的角色正在逐层收缩： · 执行层（写代码、跑实验）已高度自动化； · 方向层（选择研究问题、判断结果可信度、识别死胡同）目前仍是人类比较优势，但这一优势正在收窄。即使“研究品味”永远无法被 AI 掌握，只要人类只保留极少量方向性工作，而 AI 承担其余部分，整体研发速度仍会呈复合加速。三种未来情景 · 趋势停滞：边际收益递减、算力/能源供给受限、新架构尚未出现；作者认为不太可能，但会给社会最多适应时间 · 持续自动化，人类仍掌方向：100 人公司可相当于万人组织；人类瓶颈转向审核与协调；作者认为最可能进入此情景 · 完整递归自我改进：AI 自主设计后继系统，人类角色转为监督与验证；科技进步完全由算力决定；最不确定、风险最高

译Anthropic 发布报告显示，Claude 正被深度用于开发下一代 AI，趋势加速或导致系统自主设计后继版本。外部指标：模型可靠完成任务时长约每 4 个月翻倍，SWE-bench 两年内饱和，CORE-Bench 15 个月内饱和，长时任务达 16 小时。内部数据：截至 2026 年 5 月超 80% 主干代码由 Claude 撰写；工程师日均合并代码量是 2024 年的 8 倍；员工中位数估计产出为无 AI 时的 4 倍；实验执行从约 3x 提升至约 52x；自主研究恢复能力达人类两组研究者一周工作量的 97%（人类约 23%）；研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。

meng shao@shao__meng · 6月5日57

Cursor 也发布了类似 Codex Sites 的「Canvases」这个方向就对了，Coding Agent 本来就能完全吃掉 Lovable、v0、http://bolt.new 的 AI 建站功能，再结合在 Coding 和 Design、Debug、Deploy 等方面的闭环能力，从产品定义、设计、开发、测试到部署运维，完整覆盖。

Artificial Analysis@ArtificialAnlys · 6月5日30

Open weights are reshaping coding and agentic workloads, and we’re excited to continue this conversation in person. Join us alongside @nvidia , @AWSstartups , @MiniMax_AI , @coderabbitai , and @trydaily to discuss open weight models and where the ecosystem is headed: https://luma.com/jf188vvq?tk=9QRzzY

译开放权重正在重塑编码和智能体工作负载，我们很高兴能在线下继续这场对话。请与 @nvidia 、@AWSstartups 、@MiniMax_AI 、@coderabbitai 和 @trydaily 一起，讨论开放权重模型以及生态系统的未来方向：https://luma.com/jf188vvq?tk=9QRzzY

meng shao@shao__meng · 6月5日78

ChatGPT 推出记忆合成系统 Dreaming V3，解决记忆在大规模用户与跨年时间尺度下的陈旧性、准确性与可扩展性问题，让 ChatGPT 从"记笔记"到"自主回忆" https://openai.com/index/chatgpt-memory-dreaming/ 记忆系统的三代演进路径 · Saved Memories：2024 年 4 月发布，对话中显式触发写入，依赖用户主动提醒，信息会随时间陈旧失效 · Dreaming V0：2025 年 4 月发布，后台从对话历史中自动提炼记忆，作为辅助手段，不足以独立支撑记忆系统 · Dreaming V3：2026 年 6 月发布，全量后台自动合成与更新记忆，当前版本：更高效、可扩展、覆盖所有用户层级为什么需要 "Dreaming" 机制？传统记忆系统更像"做了笔记但容易忘"的助手，存在两个根本缺陷： 1. 被动性：需要明确的"记住我……"指令才会写入； 2. 时序僵化：记忆不会随时间自动修正，导致回答基于过时信息。 Dreaming V3 通过后台持续运行，从多轮对话中自动提炼、更新用户画像，使 ChatGPT 具备跨会话连续性和时序感知能力——例如将"用户七月要去新加坡"自动更新为"用户七月已去完新加坡"。效果评估的三个维度官方围绕三个可量化的记忆目标评估效果提升： 1. 上下文承接用户无需在新对话中重新介绍设备、偏好或项目背景。例如已有水下摄影设备配置记忆后，ChatGPT 可直接推荐兼容的闪光灯配件，而非给出通用兼容性清单。 2. 偏好与约束遵守用户设定"素食""酒店需强冷气""偏好安静用餐"等约束后，后续推荐（如新加坡行程、餐厅）会持续对齐这些偏好，避免给出泛化建议。 3. 时间动态更新记忆能感知"今天"相对于用户过往描述信息的变化。当用户旅行结束返回加州后，系统会自动修正地理位置上下文，推荐当地仍在营业的外卖，而非继续给出新加坡深夜营业清单。关键技术进展 · 计算效率提升约 5 倍：降低 Dreaming 对免费用户的算力消耗，使其在 Free/Go 层级也可上线； · 统一记忆基础：为 Plus、Pro、Free 所有用户提供同一套记忆架构； · 可审阅的记忆摘要：用户可在记忆摘要页快速浏览 ChatGPT 的认知摘要，手动增删或设限。

译ChatGPT 记忆系统升级至 Dreaming V3，通过后台持续自动提炼和更新用户画像，解决传统记忆的被动性与时序僵化问题。三代演进：Saved Memories（2024年4月显式触发写入）、Dreaming V0（2025年4月后台辅助）、Dreaming V3（2026年6月全量自动合成）。关键技术进展：计算效率提升约5倍，覆盖 Free/Go/Plus/Pro 所有用户，新增可审阅的记忆摘要，用户可手动增删或设限。

Berryxia.AI@berryxia · 6月5日61

我今天刷到Firecrawl的里程碑数据，直接看傻了。短短两年，他们已经抓取了80亿+网页。同时1.25M+开发者在用，15万+家公司把他们当基础设施，GitHub星星125K+直接冲进全球前100仓库，npm和PyPI每周下载量超过250万次。我盯着这些数字，突然意识到一个反直觉的事实：两年前，大家还觉得网页抓取是老掉牙的工程活儿，要么贵、要么慢、要么数据脏得没法喂AI。真正做agent的人天天卡在“怎么稳定拿到最新网页内容”这个坑里。结果Firecrawl用行动把这个坑彻底填平了。他们不是简单做一个爬虫，而是把整个“web上下文层”做成了AI时代的基础设施。 agent想搜索、想抓取、想实时交互，现在直接调用一个API就行，干净、结构化、还能规模化。最狠的是，他们还在加速：下一波80亿已经在路上了。这其实戳破了当前AI圈最大的集体幻觉，很多人以为模型参数越大、推理越强就赢了，却忘了真正决定agent上限的，是它能不能可靠、持续、低成本地获取真实世界的最新数据。 Firecrawl用80亿页这个数字直接证明：AI的下一战场，已经从“谁的模型更聪明”转向“谁能把整个互联网变成AI可直接消费的上下文”。

译Firecrawl在两年内已抓取80亿+网页，拥有125万+开发者、15万+公司客户，GitHub星标125K+（全球前100仓库），npm和PyPI周下载量超250万。主推文指出，这一数据表明AI竞争正从模型参数转向“将互联网转化为可供AI直接消费的上下文”——Firecrawl通过API提供干净、结构化、可规模化的实时网页数据，填平了智能体获取最新内容的瓶颈，成为AI时代的基础设施层。

Chubby♨️@kimmonismus · 6月5日78

I believe the majority still doesn't understand the momentous threshold humanity is facing. Anthropic itself states quite clearly that even if development ceased entirely, if all development were frozen, they would still witness massive societal changes: "Even if model capabilities were frozen at today’s level, we would expect major changes to occur in the world. (...) And we are still early in the diffusion of today’s models into the wider economy, where a 100-person company can increasingly do the work of a 1,000-person one, because each employee will sit atop a pyramid of agents." But there's no question of stagnation. Anthropic itself still maintains that development has exceeded its own internal assumptions. Take that statement seriously for a second and consider it. Although Anthropic models internally and assumes exponential development, even this trajectory lags behind actual development, which is even faster. "It's happening faster than we thought, and the implications deserve greater attention." and "The rate at which AI models improve is accelerating. The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months. In March 2024, Claude Opus 3 could complete software tasks that take humans about four minutes to complete. A year later, Claude Sonnet 3.7 managed tasks that took about an hour and a half. A year after that, Claude Opus 4.6 managed 12-hour tasks.1 If this trend holds, tasks that take a skilled person days could come into range this year. So again: there can be no question of standing still. The models are not only getting better, they can also work autonomously for longer. Certainly numerous breakthroughs are still needed, context window is still a problem. But the most likely direction is that the models themselves will find the solutions to the underlying problems. This opens up unforeseen possibilities, and Demis Hassabi's statement that the golden age of science is not a dream, not a utopia, but a purposeful reality, is now confirmed. And finally, it's not just Anthropic, but also OpenAI, that sees this development, considers it feasible, and is moving forward. Most people don't know what's coming. But one thing is certain: it's coming even faster than expected. And it will be even bigger. Myth was just the beginning.

译Anthropic内部数据显示，AI模型可自主完成任务时长加速增长：Opus 3（2024年3月）约4分钟，Sonnet 3.7（2025年3月）约90分钟，Opus 4.6（2026年3月）12小时，翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍，Claude代码占代码库80%+，单个AI曾一次性修复800+API错误（相当于人力四年）。最难开放任务成功率6个月内从低点升至76%。Anthropic强调，即使模型能力冻结，100人公司通过智能体即可完成1000人工作；实际发展已超越自身指数假设，递归自我改进虽未实现，但可能比预期更快到来。

Rohan Paul@rohanpaul_ai · 6月5日70

Sam Altman admits AI budgets are turning into a “huge issue,” with customers burning more tokens than even OpenAI’s top in-house users. Altman said OpenAI’s top internal user spends about 100B tokens/month, while one outside customer hit 603B tokens/month. The cost problem gets worse with AI agents because they do not just answer once, they plan, call tools, read files, retry failed steps, check their own work, and create long chains of hidden token spending. Every plan, retry, code review, context window, tool call, and verification step becomes metered cognition. A human asks once; an agent may ask hundreds of times in a second. Companies are no longer asking whether AI is impressive, but whether the marginal token is producing marginal value. Jevons paradox explains part of the trap: when AI gets cheaper per token, people use far more tokens, so the total bill can still rise.

译Sam Altman 表示 AI 预算正成“巨大问题”。OpenAI 顶级内部用户月耗约 100B 模型 token，而外部客户高达 603B。AI 智能体使成本恶化：agent 不止回答一次，而是规划、调用工具、读取文件、重试失败步骤、检查自身工作，产生大量隐藏 token 消耗。人类问一次，agent 可能一秒内问数百次。公司不再问 AI 是否令人印象深刻，而是问边际 token 是否产生边际价值。杰文斯悖论解释部分陷阱：每 token 成本下降，人们使用更多 token，总账单仍可能上升。

Emad@EMostaque · 6月5日81

foom!

译Anthropic内部数据显示，Claude正在加速AI开发——这可能走向递归自我改进，即AI自主构建更强大的后继者。进展比预期更快，影响值得更多关注。主推文仅感叹：“foom!”

🚨 AI News | TestingCatalog@testingcatalog · 6月5日72

NVIDIA 🔥: Nemotron 3 Ultra has been released on Huggingface with 5x faster inference and 30% lower costs in comparison to other open models. > Nemotron-3-Ultra-550B-A55B-NVFP4 is a frontier-scale large language model (LLM) trained by NVIDIA, designed to deliver strong agentic, reasoning, and conversational capabilities.

译NVIDIA 在 Huggingface 上发布 Nemotron 3 Ultra（Nemotron-3-Ultra-550B-A55B-NVFP4），一个 550B 参数的 MoE 前沿智能开源大语言模型，专为长时间运行的 AI 智能体设计。相比其他开源前沿模型，推理速度提升 5 倍，复杂智能体任务成本降低 30%。模型具备强大的智能体、推理和对话能力。

jason@jxnlco · 6月5日74

LETS GOOO poke is the only ai agent that I've been a daily active user in since they've launched.

译Poke 成为首个经苹果批准可在 Apple Messages 上发短信的 AI 智能体。Jason Liu 表示这是他自上线以来唯一每天都在使用的 AI 智能体。

Artificial Analysis@ArtificialAnlys · 6月5日65

Nemotron 3 Ultra was launched today, including a focus on low latency agentic performance. We tested it against peers under restricted turn-usage limits on Terminal-Bench v2.1 - @NVIDIA Nemotron 3 Ultra completes tasks at a much faster pace than peers due to its high inference speed while scoring competitively on the benchmark. In this analysis each model is given a ‘turn limit’ within which it can complete tasks, inside a customized version of the Terminus 2 harness which advises it of this limit. We apply 4 increasing turn limits and trace each result’s tradeoff of task latency and performance. Time per task, on the X axis, is calculated as decode time based on token usage and measured endpoint output speeds (for Nemotron 3 Ultra, speeds were measured on a pre-release deployment on @blackboxai), plus the actual time spent executing tools to complete the benchmark. Nemotron 3 Ultra is the fastest across all turn limits and sits on the Pareto frontier for performance versus time per task for this evaluation.

译NVIDIA 今日发布 Nemotron 3 Ultra，重点优化低延迟智能体性能。在 Terminal-Bench v2.1 上，该模型与竞品在 4 个递增轮次限制下对比测试。Nemotron 3 Ultra 凭借高推理速度（基于 token 用量与 blackboxai 预部署测得的端点输出速度，以及工具执行实际耗时），在每个轮次限制下完成任务的速度均快于竞品，同时保持了有竞争力的基准分数，处于该评测性能-时间帕累托前沿的领先位置。

Replit ⠕@Replit · 6月5日78

We partnered with Shopify so you can go from idea to live store in minutes Just tell Replit Agent what you want to sell. It will: - Build a custom storefront - Create your Shopify store - Help you add products Claim it in Shopify, set up payments, and you're open for business.

译我们与 Shopify 合作，让你从想法到上线商店只需几分钟只需告诉 Replit Agent 你想卖什么。它会： - 构建自定义店铺页面 - 创建你的 Shopify 商店 - 帮你添加商品在 Shopify 中认领店铺，设置支付，即可开业。

Rohan Paul@rohanpaul_ai · 6月5日39

🗞️ Google DeepMind's paper has some great advice on how we should actually give tasks to AI. It is not just about telling an AI to do something and hoping for the best. Instead, this framework looks at delegation as a string of choices where you figure out if you should even hand the task over, how to explain it, and how to check the work afterward. Current systems rely on rigid rules that break when things fail unexpectedly. The researchers suggest building a dynamic market where agents bid on tasks using smart contracts. This requires strict monitoring and cryptographic proofs to guarantee correct work without leaking private data. Instead of trusting a simple rating, agents will use verifiable digital certificates to prove their exact skills. - Keeping things flexible when things change This new system is built to be adaptive rather than stuck in its ways. It treats the handoff as a live process where authority and responsibility can shift around in real time. If the situation changes or something breaks, the framework helps manage that failure so the whole project does not go off the rails. It works for both humans giving tasks to AI and for when AI needs to handle things on its own. - Finding the right amount of trust One of the coolest parts is how it handles trust. They made formal trust models that look at how hard a task is and how well the AI has done in the past. This stops people from "over-delegating," which is when you give an AI something it is not ready for. It also stops "under-delegating," which happens when you do all the work yourself even though the AI could have handled it easily. - Double checking the work You cannot just take an AI's word for it, so this framework has specific ways to validate the output. It sets up rules for when to accept an answer based on how confident the AI is. It also has backup plans ready to go if the AI fails. This is super important for real world jobs where trusting a machine blindly could cause a bunch of errors to pile up. - When AI agents hire other AI agents The framework also covers what happens when 1 AI agent hands a task to another AI agent. The system tracks who is actually accountable and makes sure the right authority is passed down the line so nothing gets lost in the network. - Making sure the work actually fits It is a step by step approach to make sure the AI's contribution actually makes sense for the bigger goal. By treating this as a structured process, they are making it much safer for companies to use AI in their daily operations without worrying about constant mistakes. ---- arxiv. org/abs/2602.11865 "Intelligent AI Delegation"

译Google DeepMind 论文《Intelligent AI Delegation》将任务委托视为一系列选择：是否委托、如何解释、如何验证结果。系统构建动态市场，智能体通过智能合约竞标任务，利用加密证明保证正确性与隐私。基于信任模型，避免过度委托（给 AI 难完成的任务）或不足委托（自己做 AI 能胜任的事）。输出验证规则根据 AI 置信度决定接受与否，并有备用计划处理失败。还涵盖 AI 智能体间的委托与问责追踪，确保贡献符合整体目标。该框架使企业更安全地在日常运营中使用 AI。

swyx@swyx · 6月5日50

its been such fun befriending Pari and seeing him completely reinvent his company for the agentic era, WHILE having the most insanely stacked customer base I've ever seen in the hardest engineering domain of all. Pari is creating a category that is only obvious in retrospect (the best kind of obvious) after you've had to build any complex physical things from rockets to cars, managing thousands of tiny design and supply chain details any one of which can derail your entire year. what value do you put on that?

译Flow 发布 Flow v3，定位为物理工程的 Agentic 平台。智能体可执行真实工程工作：修改需求、将更新推送到 CAD 和仿真工具、标记需重跑的测试，将原本数月的迭代周期缩短至数天。核心创新是 Systems Graph，实时记录需求、设计模型、测试、分析及其连接，为智能体提供系统完整上下文。工程师与智能体在同一系统协同，工程师聚焦架构决策，智能体负责重写报告、重跑分析与仿真、触发测试。客户包括 Rivian、Joby、Astranis、Skydio、Radiant 等硬件公司。

🚨 AI News | TestingCatalog@testingcatalog · 6月5日78

ANTHROPIC 🔥: A new internal research has been published, highlighting an accelerated AI development and a potential path to recursive self-improvement. > Claude Mythos Preview could work for “at least” 16 hours and was “at the upper end of what [METR] can measure.” > Today, Anthropic engineers on average ship 8x as much code per quarter as they did compared to 2021-2025. Do you feel it? 👀

译Anthropic 发布内部研究，称 Claude 正加速 AI 开发，可能通往递归自我改进——即 AI 自主构建更强大的继任者。研究显示，Claude Mythos Preview 可连续工作至少 16 小时，达到 METR 可测量上限。同时，Anthropic 工程师当前每季度交付的代码量是 2021-2025 年期间的 8 倍。

SemiAnalysis@SemiAnalysis_ · 6月5日81

BREAKING NEWS: according to CloudFlare Radar Data, Agentic traffic has SURPASSED human traffic across the worldwide internet for HTML webpages.

译BREAKING NEWS: 据 CloudFlare Radar 数据，全球互联网 HTML 网页的 AI 智能体流量已超过人类流量。

宝玉@dotey · 6月5日29

我知道的所有做AI Agent的团队都很拼，不是老板逼着的，是为了心中理想，所以心甘情愿加班和搞封闭开发👍 有点我好奇的是：Kimi 团队在开发 Kimi Code 的时候，是自家模型 token 用的多还是 Claude 或者 GPT 模型的 Token 用的多呢？ 🤔

译宝玉发推称所有AI Agent团队都为理想自愿加班封闭开发，并好奇Kimi团队开发Kimi Code时用自家token多还是Claude/GPT token多。@real_kai42透露，一个月前他决心重构Kimi Code，花几千刀token做架构分析与验证，确定方案后组建团队封闭开发，过程中不断吵架推翻重来，最终开源后因皮质醇过度分泌病倒。他感叹封闭开发是工程效率奇迹，集体主义远胜个人英雄主义。

jason@jxnlco · 6月5日50

insane ball knowledge in codex I just found out @wonforall has a skill called $kobe that spawns off 3 subagents to discuss / review his code, each of which is build to represent one of our principal engineers on tuned in on his past code reviews. I'm going to start doing this with @dkundel and @charlierguo for our docs...

译Codex 中疯狂的球类知识我刚发现 @wonforall 有一个名为 $kobe 的技能，它会生成 3 个子智能体来讨论 / 审查他的代码，每个子智能体都构建为代表我们的一位首席工程师其中一个专注于他过去的代码审查。我打算开始和 @dkundel 以及 @charlierguo 对我们的文档也这样做……

Chubby♨️@kimmonismus · 6月4日81

1/ NVIDIA shipped Nemotron 3 Ultra today, a fully open 550B model with 55B active params, with the weights, training data, and complete recipe all released openly. That alone is rare at this scale. The headline however actually is speed. Ultra is a hybrid Mamba-Attention MoE, an architecture built for fast decoding and a light memory footprint over long contexts, and NVIDIA clocks it at roughly 6x (!) the throughput of comparable open models on long-output agent workloads while holding the same accuracy. That's a serious engineering result, and it's aimed exactly where the industry is heading: autonomous agents that run long, multi-turn tasks where throughput per GPU is what actually costs money. It was pre-trained in 4-bit (NVFP4) across 20T tokens, the largest stable run of its kind shown to date. And the post-training introduces MOPD, where ten-plus specialist teacher models distill their skills into the student on its own rollouts, sometimes pushing it past the teachers themselves. The interesting aspect:This is a frontier-class model you can fully reproduce.

译NVIDIA 正式发布 Nemotron 3 Ultra，550B 总参数（55B 活跃）的完全开源 MoE 模型，权重、训练数据和完整配方全部公开。采用混合 Mamba-Attention 架构，专为长上下文快速解码和轻内存占用设计。在长输出智能体工作负载上，吞吐量约为可比开源模型的 6 倍（推理速度提升 5 倍），复杂智能体任务成本降低最多 30%。该模型在 4-bit（NVFP4）精度下预训练 20T tokens，后训练使用 MOPD 技术，由十余个专家教师模型蒸馏技能至学生模型。这是首个达到前沿水平且可完全复现的开源模型。

elvis@omarsar0 · 6月4日48

I am hooked on Dynamic Workflows! The idea of generating harnesses on the fly is so compelling that I reverse-engineered it for my agent orchestrator. And then I built a monitoring dashboard (as an HTML artifact) to track tasks, metrics, and reports. I can now use and monitor dynamic workflows in my agent orchestrator with coding agents like Claude Code, Codex, Pi, and even my own custom-built @dair_ai agent. This is clearly the future of working with agents to accomplish complex, long-running tasks. Some use cases I'm having success with: - Branching deep research tasks (with verification) - Parallel deep research tasks - Session mining of all my agent sessions - Bug hunting - Triaging - Fact-checking - LLM councils - AI simulations - Data synthesis - Evals generation ... and many others Dynamic workflows, like agent skills, feel like an important primitive to not only get the most out of agents but also incorporate dynamic behaviors and important components like cooperation and verification. There is so much exploration ground here. The exciting part is that this is not limited to coding tasks; it extends to business use cases and many other technical domains like science and research.

译Elvis Saravia 逆向工程了动态工作流（Dynamic Workflows）并集成到自研智能体编排器中，同时构建 HTML 监控仪表盘跟踪任务、指标和报告。该工作流可在 Claude Code、Codex、Pi 等编码智能体及自研 @dair_ai agent 上运行。成功用例包括分支深度研究、并行深度研究、会话挖掘、Bug 定位、分类、事实核查、LLM 委员会、AI 模拟、数据合成和评测生成等。他认为动态工作流与 agent 技能一样，是实现复杂长期任务的关键原语，不仅限于编码，还可扩展至商业、科学等领域。

elvis@omarsar0 · 6月4日74

NEW: NVIDIA ships 550B MoE open model for long-running agents. Very exciting times to see more open models to support local long-running coding agents.

译NVIDIA 今日发布 Nemotron 3 Ultra，一个 550B MoE 前沿智能开源模型，专为长时间运行智能体设计。相比其他开源前沿模型，推理速度提升 5 倍，复杂智能体任务成本降低 30%。

Google AI Developers@googleaidevs · 6月4日47

Join @GoogleDeepmind and @HeyGen on June 11th! Our LA event for builders working at the intersection of AI agents, creative tooling, and multimodal apps is now open for registration 👇 https://x.com/HeyGen/status/2062256762867388748

译加入 @GoogleDeepmind 和 @HeyGen，6月11日！我们面向AI智能体、创意工具和多模态应用开发者的洛杉矶活动现已开放注册 👇 https://x.com/HeyGen/status/2062256762867388748

Berryxia.AI@berryxia · 6月4日71

卧槽！老黄牛逼啊！这下直接收藏当可以直接拿html轻松制作视频了，今天正好也在拿hyperframe和remotion捣鼓视频。这下可以直接拿来用了，直接送枕头了啊！地址👇 https://github.com/nexu-io/open-design

译open-design（项目名html-video）正式开源，被形容为“html版剪映”。Agent可通过编写HTML生成世界级产品宣传、知识解说视频，成本极低。项目历时3天、3万行代码，支持20多套视频风格模板，分页编辑，可导出mp4，支持Claude Code等主流Agent接入。

Orange AI@oran_ge · 6月4日68

今天 ListenHub 的AI 视频功能正式上线啦，人类用户和 Agent 现在都可以调用 ListenHub 的服务生成视频。目前已支持 HappyHorse、Seedance 2.0 等视频模型。输入一个想法，或使用参考图、参考视频，即可一键生成视频。人类使用： ListenHub 官网： https://listenhub.ai/zh/app/ai-video Agent 使用： listenhub-cli：https://github.com/marswaveai/listenhub-cli skills： https://github.com/marswaveai/skills openapi： https://listenhub.ai/docs/zh/openapi/api-reference/ai-video

MiniMax (official)@MiniMax_AI · 6月4日57

Build your voice agent with us at the Conversational AI Hackathon @ycombinator, June 6–7 in SF. @usemoss retrieval gets the context back in time. M3 reasons over it. MiniMax Speech 2.8 Turbo gets the response out in time: sub-250ms, and in 40+ languages. Let's see what you ship 👇

译MiniMax宣布联合YC于6月6-7日在旧金山举办24小时Conversational AI Hackathon。其方案结合@usemoss检索获取上下文、M3模型进行推理，以及MiniMax Speech 2.8 Turbo实现语音响应——延迟低于250毫秒，支持40+语言。第一名将获得YC合伙人面试机会。

MiniMax (official)@MiniMax_AI · 6月4日46

Build your voice agent with us at the Conversational AI Hackathon @ YC, June 6–7 in SF. @usemoss retrieval gets the context back in time. M3 reasons over it. MiniMax Speech 2.8 Turbo gets the response out in time: sub-250ms, and in 40+ languages. Let's see what you ship 👇

译MiniMax 在 YC 办公室的 24 小时对话 AI 黑客马拉松（6 月 6–7 日）上推广其语音智能体方案。方案结合 @usemoss 的时序检索、M3 模型推理，以及 MiniMax Speech 2.8 Turbo——该语音模型实现低于 250ms 的响应延迟，支持 40 多种语言。黑客马拉松第一名将获得 YC 合伙人面试机会。

Rohan Paul@rohanpaul_ai · 6月4日66

This Illinois+ Tsinghua University and other labs study finds that LLM agents still have unreliable memory and that it can get worse when they keep rewriting their own memories. LLM agents can learn from experience, but their rewritten memories often become unreliable. The problem is that many agent systems store past work by asking an LLM to compress messy experience into neat written lessons. That sounds useful because the agent should remember what worked before, but the paper finds that repeated rewriting slowly damages the memory. The core idea is that raw episodes, meaning the actual past attempts and solutions, often stay more useful than the polished lessons made from them. The authors tested this across tasks like web shopping, simulated worlds, app use, and ARC-style puzzle problems where they could control the correct solutions. The sharpest result is that GPT-5.4 solved 100% of a small ARC-AGI set with no memory, but after memory was built from correct solutions, streaming updates dropped it to about 54%. The failures came from bad grouping, overbroad lessons, and overfitting, so the memory forgot details, mixed up task types, or learned rules that only worked on narrow examples. The big deal is that agent memory should not automatically rewrite every experience into a summary, because keeping raw evidence and only sometimes making summaries worked better. The paper is really proposing that agent memory should treat raw past episodes as important evidence, not as disposable notes to summarize away. ---- arxiv. org/abs/2605.12978 Title: "Useful Memories Become Faulty When Continuously Updated by LLMs"

译伊利诺伊大学和清华大学等实验室研究发现，LLM智能体重复重写自身记忆会导致记忆变得更不可靠。原始经历（实际过往尝试和解决方案）往往比提炼后的总结更有用。测试中，GPT-5.4在小型ARC-AGI数据集上无记忆时正确率100%，但建立记忆并持续更新后降至约54%。失败原因包括分组不当、教训过度泛化及过拟合。研究建议智能体不应自动将每个经历重写为摘要，保留原始证据并仅偶尔总结效果更好。

X.PIN@thexpin · 6月4日66

EXCLUSIVE: Sources reveal that Tencent is testing an in-app AI agent for WeChat. This has become the company's top priority. The Timeline: The development team initially aimed for a May launch, but the rollout was delayed due to unsatisfactory initial results. Some test results may be released on June 5, with the final product expected to debut later this month, barring any further setbacks. How it Works: Users simply right-swipe on the home screen to open the AI chatbox. From there, the agent can navigate millions of WeChat mini-programs to execute tasks, such as ordering food delivery or booking travel tickets. While Tencent has previously lagged behind in the AI integration race, its rivals have already made significant moves: 🔹Alibaba has integrated e-commerce, travel, and maps into its Qwen LLM. 🔹ByteDance has added dedicated shopping agents to Doubao. However, WeChat's massive, irreplaceable ecosystem, backed by 1.4 billion users, gives Tencent a massive advantage. This upcoming launch has the potential to trigger China's biggest AI agent wave yet.

译据爆料，腾讯正优先在微信内测AI智能体。开发团队原计划5月上线，因初期效果不佳推迟；6月5日可能发布部分测试结果，最终产品预计本月晚些时候亮相。用户可在首页右滑打开AI聊天框，智能体可操作数百万微信小程序，完成订外卖、订票等任务。此前阿里已将电商、旅行、地图接入通义千问，字节为豆包加入购物智能体。微信坐拥14亿用户与庞大生态，此次发布或引发国内最大AI智能体浪潮。

karminski-牙医@karminski3 · 6月4日64

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

译MiniMax-M3 实测：前端适配 KCORES2026p2，空间理解、建模精度、美学表现优秀，颜色运用佳；复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型，略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量，规划突出。使用经验：M3 偏好长推理，单次输出可达 64k token，适合嵌入带 plan 模式的 Coding Agent，需做好 prompt 编排，避免大量 tool call；执行约束不足，需增加代码级 harness 闭环。