Step 3.7 Flash now showing up on @ZenMuxAI — nice to see it plugged into more model stacks!

译阶跃星辰（Step Fun）的视觉语言模型Step 3.7 Flash已在ZenMux平台上线。该模型采用稀疏MoE架构，专为智能体、编程、搜索、多模态及长上下文工作流设计。其核心性能包括：400 TPS推理速度、约110亿激活参数、256K上下文窗口及3个推理级别。该模型能够理解UI、图表、文档和图像以编写代码或调用工具，并擅长深度网络与视觉搜索，在τ²-bench上跨难度级别取得98%+的成绩。它兼容Claude Code、MCP风格工作流等，并可本地部署于Mac Studio M4 Max、DGX Spark等硬件。

数字生命卡兹克@Khazix0918 · 5月29日72

http://x.com/i/article/2060199048204926976 # 实测Claude Opus 4.8，这可能是第一个不会偷懒的模型。大半夜的，刚准备早睡一下。然后，我的AIHOT就突然弹了个消息，Claude Opus 4.8上线了。除此之外，又发了另一个消息。完成了新一轮650亿美元的融资，估值逼近一万亿美元。。。前有港股智谱7000亿市值，后有Anthropic估值7万亿人民币。果然AI行业的造富神话，比鬼故事还要鬼故事。但是说实话，距离4月17号Opus 4.7上线，仅仅才过去42天，一个半月，又一个新模型扔出来，在Cluade的发布历史上，从来没有过。看来确实GPT-5.5和Codex给的压力确实太大了，Opus 4.7的口碑确实把自己也给拉完了，所以没办法，要最快速度把Opus 4.8拉出来救火，要不然真的可能被Codex偷家偷疯了。在模型的本身参数比如最大上下文、输出长度、知识库时间啥的，跟Opus 4.7几乎是一样。价格也没变，$5/M输入、$25/M输出。所以基本上用的也是Opus 4.7的基模上直接又调了一下。然后，我就反应过来了一件事，我靠，你Opus 4.8上了，你不会要把我的Opus 4.6给顶掉了吧。因为Opus 4.5在内容创作上是我觉得的巅峰，Opus 4.6比Opus 4.7差了一点，但是我觉得还能用，而Opus 4.7是我完全觉得不可用的状态。按照claude在过去网页端只保留两代模型的优良传统，Opus 4.6可能会被顶掉。我抱着忐忑的心情一看。 Claude我服了。。。。行吧，只能接受，说不定Opus 4.8，在内容创作上更好呢？（虽然我几乎不对这个事情抱有期待了。）说回Claude Opus 4.8。不废话，先看跑分截图吧。跑分我真的不想多聊了，很没劲，反正就是赢学。数字又高了一点，大概就是这样。唯一一个在上面穷尽洪荒之力还是没跑过GPT-5.5的类别，是Terminal-Bench 2.1。这玩意是一个Agentic基准，大概就是用来评估Agent在真实命令行环境里干活的能力，考的就是把模型直接扔进一个沙盒终端里，让它自己去查文件、敲命令、看报错、调试等等，看看能不能跨多个步骤把一个任务做完。这个是在Claude口径里，唯一一个跑不过GPT-5.5的，而且这个还挺要命的。因为Terminal-Bench基本代表着Agent开发能力的最高峰，穷尽了洪荒之力也没干过GPT-5.5，那这过两天GPT-5.6出来，那还玩个屁啊。这也从侧面说明了，GPT-5.5的开发能力，是真的强。。。然后再说一说这次更新的一些特性。 1. 思考强度给所有人开放这次 4.8 上线，同时把一个叫 effort（努力程度）的控制，开放给所有人了，也就是你在Chat模式下，也可以调整模型的努力程度了，所有套餐都有，免费用户也有。 Claude Code和Cowork用户对这个东西肯定很熟悉。位置就在模型选择那个地方旁边。上面那个从Low到Max，就是努力等级。下面那个自适应思考记得别关，还是开着，组合起来用就行。我自己其实常年喜欢默认开着Extra，然后开大活就上Max的，因为Opus 4.7只有自适应思考，不是很好用，Opus 4.8终于给弄回来了。 2. 变得更精确但也更不主动了 Opus 4.8更新以后，有一个明显的感觉，就是它更加的精确了，有一点GPT-5.5的感觉，指哪打哪。更加的遵循你的指令，这确实对于专业的开发者来说，是件好事。但是同时也带来一个弊端，就是他的主动性，会变弱。就是你让它干A，它现在就只干A，绝不会自作主张觉得诶你这意思是不是顺便也想要B然后把B也顺带手给你办了。我自己现在就遇到了，晚上测试的时候，习惯性的没跟它说一定要去看线上数据不要只看本地代码，但是在Opus 4.6和4.7的时候，他们都还是会主动的去用我的skill连接线上服务器，看生产环境的数据的，但是Opus 4.8却两次都没主动去看，给我的方案，都是基于本地的，这反而给我带来了一些麻烦，重新调整了一下文档和记忆，才好一点。对于一个设计好了自己Harness的环境的专业开发者，我觉得会感觉到非常得劲，那其实能感觉到，它的错误率和幻觉率，都在降低，很精准。但是如果把这个群体，推衍到整个Vibe Coding群体，我其实觉得，不一定是个好事。我们视频组同事今晚在用Opus 4.8来测他们的用Skill来做视频动效的工作流，发现效果反而变差的，有一个很形象的描述就是。而且你能明显的感觉到，更加自信，在过程中跟你确认的时刻变少了。比如这个，优化方案出来，直接不确认，直接就自己干了。因为我们其实很多非专业者，在用AI的时候，是靠着AI的主动性去往前走的，就是真的有的时候会用习惯了那种你懂我意思的爽感。你含含糊糊扔一句话过去，它就能猜到你心里那个完整的需求，然后问你是不是，在帮你直接搞出来，这种被理解的感觉，其实还挺上头的。当然这个爽感，是有代价的，就是模型的主观性太强，代价就是不可控。它猜对了你舒服，它猜错了呢，它就拿着一个你压根没提的需求，吭哧吭哧给你干一堆活，最后还得你来擦屁股，这种出发点是好的但是结果是拉的，在长时Agent任务中，尤其要命。所以，未来再跟Opus 4.8协同的时候，可能需要，对大家需求表达能力，要求的更高了。 3. 变得更加诚实了这个点更上面有点像，也是Anthropic自己拎出来放在博客核心位置的点。过去大家一定遇到过，就比如说Claude帮你写个功能，它噼里啪啦给你写了一大段，然后特别自信地跟你说，搞定了，没问题，可以跑了。你信了，你一跑，你才发现，另一个地方崩了。你回去问它，它又特别自信地说，哦抱歉，问题找到了，对不起我没有发现，我再改一下，这下绝对没问题了。你又信了，你又跑，然后你又报错了。很多时候经常会出现。你要知道，它每一次都那么斩钉截铁，每一次都那么言之凿凿，但每一次，它其实自己心里也没底，AI，很多时候，只是被训练得看起来很有把握而已，这个毛病，几乎是所有大模型的通病。这次Opus 4.8，就在这个问题上做了重点的优化。官方公告对外说的数字是，4.8让自己写的代码里的瑕疵蒙混过关的概率，比上一代低了大概4倍。我又去翻了下这次Opus 4.8的系统卡。然后发现了更牛逼的东西。在偷懒这个问题上，Opus 4.8，好像是唯一一个，能做到0%不良率的模型。在我夜里几个小时的测试与开发中，我也能感觉到，这是真的不偷懒啊，思考的是真细啊。。。比如我有一个AIHOT的数据分析页面，之前Opus 4.7实现的比较粗糙，最大的问题就卡，点一下反应个十几秒才动弹，问原因就说是这样的啦，改不了啦，你实时查询就是这个速度啦。之前有次都给我干生气了。 Opus 4.8明显靠谱很多，非常详细的在全面审查我的代码，找尽可能需要优化的地方。我同事的反馈也是这样。基本上大家的感觉都差不多。 Opus 4.8在开发上总体的感觉，是有大进步的。 4. 创作能力同样的Skill，同样的创作，比Opus 4.7是有进步的，但是依然比不上Opus 4.6。比如我把我我之前写的AI时代的6个人才特质给抽离出来了，让Opus 4.8用我的写作Skill去写，写出来的一些句子，是这样的。 Opus 4.6+我的Skill是绝对不会写出这种话的，不是XX、而是XX，这是明确的禁用词，直接给我改成不再是来去规避，真的是耍小聪明。还有那个奇怪的比喻，为什么要把靠谱特质的人，比喻成“高速运转的机器里那点润滑油”，我是真的有点不理解，这是有什么奇怪的癖好吗。还有这段，非要把一个人，给比喻成一个物化的锚？？？还有模型奇妙的大段的无意义的排比，把所谓的AI味的禁忌都犯了个遍。让它根据《流浪地球2》的故事，续写一个新的地下城的1000字的小故事。写的也挺刻板印象的。比4.7好，但是确实没好多少。整体的人机味还都挺重的。 5. 其他更新这次Opus 4.8还迭代了下快速模型，官方叫fast mode。之前其实就有，你再Claude Code里输入/fast就有。只是之前是Opus 4.7的fast就是比较贵，2.5倍的速度，但是是6倍的价格。普通版本价格一直是百万输入5美元、百万输出25美元，然后Opus 4.7 fast模式的价格是输入30美元、输出150美元。但是这次做了一个还不错的升级，速度直接达到了标准版的2.5倍的速度，价格却只有之前版本fast的三分之一，降到了输入10美元，输出50美元。从标准版的6倍价格，变成了标准版的2倍价格，但是速度没变。也能侧面看出来马斯克的算力确实是给到位了，Claude一下子就财大气粗了。然后还有一个东西，也挺有意思的，是Claude Code的dynamic workflows功能。翻译过来叫动态工作流。大概作用就是，让Claude自己写一套编排脚本，在一次任务里，一口气拉起几十个、甚至上百个子agent并行开干，干完它还会先自己验一遍，确认没问题了，然后把结果交给你。原话是：“有些问题过于庞大，单次单代理处理难以胜任，尤其是在复杂、遗留的代码库中：跨整个服务的缺陷排查、涉及数百个文件的迁移、或是在最终决策前需要从多角度进行压力测试的方案。动态工作流能够端到端地处理所有这些任务。” 触发方式有两种。第一种是直接跟Claude Code说，创建一个动态工作流balbalbala。第二种是，把努力级别调整成一个特殊的选项Ultracode，这个设置会自己会将努力级别调至xhigh，同时让Claude自动判断何时使用工作流来处理你的任务。这次Opus 4.8的更新总结，大概就是这样。我自己还是比较喜欢的，因为在开发上确实有不错的加成，整体确实变好用了。但是在创作上，我还是有点失落的，因为把我的Opus 4.6给顶掉了。。。未来为了适配Opus 4.8，可能我们的很多跟内容相关的Prompt和Skill全都得重写了，因为这玩意牵扯的东西太多了，调研、历史文献撰写、分镜撰写、特效生成啥的，全都是内容。。。就很烦，好不容易都在Opus 4.6上跑通了，又得全部重新来。哎。哦对了，Anthropic 这次还留了个更大的钩子。除了Opus这条线，它们手里那个还攥了很久的，比Opus智能还要更高一档的新模型，代号Mythos，说是过几周，就能给所有客户用上了。到时候，我想看看这个号称最牛逼的模型。到底是个什么光景。 AI啊，真好玩。

译Anthropic发布Claude Opus 4.8，距上代4.7发布仅42天。价格（$5/M输入、$25/M输出）与参数均不变。模型在多数基准跑分有所提升，但Terminal-Bench 2.1仍是唯一未超越GPT-5.5的类别。此次更新将思考强度（effort）控制开放给所有用户。核心变化是模型变得更精确、更遵循指令，代码瑕疵概率比上代低约4倍，且在防“偷懒”测试中达到0%不良率。然而，这带来了主动性降低的副作用，模型不再主动推测用户隐含需求。此外，其内容创作能力虽优于4.7，但被认为仍不及4.6版本。同时，快速模式（fast mode）升级，速度达标准版2.5倍，价格从标准版6倍降至2倍。Claude Code还推出了可并行调用数十至上百个子Agent的动态工作流功能。

StepFun@StepFun_ai · 5月29日71

Step 3.7 Flash is now live on @OpenRouter ! should make it easier to plug into existing workflows.

译Step 3.7 Flash现已在 @OpenRouter 上线！这应该能让它更容易地融入现有工作流。

StepFun@StepFun_ai · 5月29日72

Excited to see Step 3.7 Flash available on @ModelScope2022 🚀 Can’t wait to see what builders create with it!

译阶跃星辰发布的多模态模型 Step 3.7 Flash 已在 ModelScope 平台上线。该模型采用 198B 总参数的 MoE 架构，每个 token 激活 11B 参数，推理速度最高达 400 tok/s，支持 256K 上下文窗口，并提供低、中、高三个推理级别以平衡速度与效果。其在 ClawEval-1.1 榜单位列第一（67.1分），在 SWE-bench Pro 上排名第二（56.3分）。模型具备原生多模态能力，由语言骨干与视觉编码器组成，原生支持解析密集UI、图表及财报。该模型采用 Apache 2.0 协议开源，并兼容 vLLM 等多种推理框架。

OpenRouter@OpenRouter · 5月29日69

Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 196B params. Tuned for coding, agentic workflows, and structured outputs, with selectable reasoning levels to trade off speed, cost, and depth.

译阶跃星辰的Step 3.7 Flash已在OpenRouter上线。这是一个多模态（图像/视频/文本）MoE模型，196B参数中仅激活11B。针对编码、智能体工作流和结构化输出进行了调优，并提供可选的推理级别，以权衡速度、成本和深度。

Alibaba Cloud@alibaba_cloud · 5月29日28

🎙 ClawTalks EP5: Offload Your Admin Layer: Personal AI Agents for Compound Productivity 📅 Time: June 3, 2026 | 10:00 - 10:30 AM (UTC+8) 🔗 Register now: https://int.alibabacloud.com/m/1000413492/ Proactive AI agents can offload your administrative burden to unlock compound productivity. Join Brian Turcotte @coldopn (Developer Relations Engineer at Kilo Code @kilocode ) to explore practical workflows you can implement today: ✅ Smart Automation: From inbox triage to personal CRM ✅ Proactive Assistance: Shift from reactive tools to eliminate context switches ✅ Cognitive Relief: Reduce mental load and focus on what truly matters #AlibabaCloud #ClawTalks #Qwen #OpenClaw #KiloCode #AIAgents #Productivity #TechInnovation

译该推文预告了阿里云ClawTalks的一场网络研讨会。核心主题是探讨如何部署个人AI智能体，来分担日常行政任务，从而释放“复合生产力”。主讲人来自Kilo Code的开发者将分享实际工作流，包括通过智能自动化处理邮件与个人CRM、利用主动式辅助工具减少上下文切换，以及最终降低认知负荷，让用户能专注于更重要的事务。会议定于2026年6月3日。

歸藏(guizang.ai)@op7418 · 5月29日69

相较于 Opus 4.8，昨晚动态工作流（Dynamic Workflows）的发布，我感觉意义更重大一些。它延续了那套并发的 Subagent 逻辑，但启动的 Subagent 可能多达数百个，能帮你完成一些非常重、规模非常大的任务。比如： 1. 调研你整个代码库的问题 2. 快速收集并生成一份庞大的调研报告看起来官方并不太建议拿它直接去改动代码，而是用它处理一些比较基础但工作量巨大的任务，通过并发的形式来大幅加快处理速度。触发方式： 1. 更新以后，只要提示词里带 workflow 就会触发。 2. 启动 Ultra Code 模式。启动后，任何任务都会帮你规划一个动态工作流。注意：Ultra Code 模式启动后，仅在当前单次对话生效。如果重启，系统会退回到 X-HIGH 的推理模式。

译Claude Code 近期推出实验性动态工作流（Dynamic Workflows）功能。该功能延续并发子代理（Subagent）逻辑，可启动数百个子代理，用于处理代码库调研、生成大型报告等大规模任务。官方定位是加速处理基础但工作量巨大的任务，而非直接修改代码。触发方式有两种：在提示词中使用“workflow”一词，或启动 Ultra Code 模式（该模式仅当前对话生效）。

凡人小北@frxiaobei · 5月29日37

workflow -> agent > dynamic workflow 🤔

译工作流 -> 智能体 -> 动态工作流 🤔

meng shao@shao__meng · 5月29日75

Cursor 最新发布「开发者习惯报告」 AI Coding 已经不再只是“写代码更快”，它正在强烈改变软件开发的工作形态：开发者提交更大的变更，Agent 做更深的任务，更多 AI 代码进入代码库并保留下来，下一步会从个人辅助工具走向自动化开发基础设施。 https://cursor.com/insights # Cursor 团队报告中最重要的 5 个发现 1. 代码产出速度明显提高：每位开发者每周新增代码行从 2025 年初约 3.6K，升到 2026 年 5 月的 8.6K；PR 的 p75 新增代码行也从约 126 行升到约 345 行。 2. 开发单位变大了：1000 行以上的“大 PR”占比从约 8% 升到 13.8%。这说明 AI 不只是在补全局部代码，而是在让开发者一次处理更大的任务。 3. Agent 正在做更复杂的工作：过去两个月，单次 Agent 会话的平均工具调用数上升约 30%，说明它们在更多地读文件、改文件、搜索代码、运行命令、访问网页。 4. AI 生成代码的“留存”在提高：被接受的 AI 代码在 60 分钟后仍然存在的比例，从 2026 年初约 76% 升到约 81%。这比单纯统计生成量更有意义，因为它接近“代码是否被开发者认可并进入实际工作”的信号。 5. 少数高水平用户获得了更大的收益：AI 使用非常集中，AI 代码行、花费、token 使用的 Gini 系数分别为 0.77、0.75、0.72；P99 用户的 AI 代码行是中位数用户的 46 倍，合并 PR 数是 15 倍。

译报告显示，AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行，更大规模的PR（千行以上）占比上升。AI智能体在单次会话中的工具调用数增加约30%，正在处理更复杂的任务。同时，被接受的AI代码在60分钟后的留存率从约76%提升至约81%，表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具，演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。

meng shao@shao__meng · 5月29日65

活人开发者的注意力是整个 AI Coding 系统里最稀缺、最慢、最不能并行的资源！启动 Agent 很容易，但理解结果、判断质量、处理冲突、决定能不能合并，仍然必须由人完成。Agent 可以并行工作，但人的判断不能并行。所以真正限制产出的，不是 Agent 数量，而是人的审查与决策能力。 @addyosmani 把这个问题称为 Orchestration Tax，可以理解为“编排成本”或“调度成本”。你启动 10 个、20 个 agent，看起来很忙，界面上也有很多任务在跑。但这些任务最后都会排队等待你： · 看结果是否正确 · 判断是否符合架构 · 检查代码质量 · 处理不同 Agent 之间的冲突 · 决定哪些可以合并这一步无法完全交给机器，因为它涉及系统理解、工程判断和长期维护责任。所以，多 Agent 并不等于多了几个“你”。最后真正承担责任的，还是一个人。最关键的工程类比第一是 Python 的 GIL。线程可以很多，但真正执行关键部分时，要经过一个单线程限制。Addy 说，人就是 AI Agent 系统里的 GIL。Agent 可以同时跑，但一到需要理解、判断、合并时，都要等你。第二是 Amdahl’s Law。系统加速的上限，取决于仍然无法并行的那部分。在 AI 编程里，无法并行的部分就是人的判断。Agent 数量增加，只是让等待你审查的任务变多，不会自动提高最终交付质量。这也是文章最重要的技术含义：优化非瓶颈部分，不会提高系统吞吐量。如果瓶颈是审查和判断，继续增加 Agent，只会制造更多待处理工作。为什么“忙”不等于“高产” Addy 反复强调：现在的工具确实让人更有生产力，但也让人更累。原因是，多 agent 工作会带来大量上下文切换。你每次去看一个 agent 的结果，都要重新加载它的任务背景、改动范围、相关代码和潜在风险。CPU 的上下文切换很快，但人的上下文切换很慢，而且恢复不完整。所以 5 个 agent 不是 5 倍产出，而可能是： · 5 次重新进入不同问题 · 5 组需要审查的改动 · 持续担心哪个任务正在出错 · 更容易降低审查标准最危险的情况是，人因为太累，开始接受自己并没有真正理解的代码。短期看似推进了，长期会损害对系统的理解。所以真正成熟的 AI 编程能力，不是同时开更多 agent，而是知道： · 哪些任务适合交给 agent · 哪些任务必须自己深度参与 · 什么时候应该批量审查 · 什么时候应该停止调度，专心思考一个复杂问题 · 哪些验证可以让机器先完成，减少人的负担 Addy 给出的实践原则第一，Agent 数量要按你的审查能力来定，而不是按工具界面能开多少来定。多数人真正能认真审查的并行任务，可能只是个位数。第二，把任务分层。隔离、明确、低耦合的任务适合放给后台 Agent；复杂 bug、架构设计、关键重构，不适合同时并行太多，因为这些任务本身就需要人的判断。第三，批量审查。频繁来回查看不同 Agent，会消耗大量注意力。让 Agent 多跑一段时间，然后集中审查，比不断切换更有效。第四，把人的注意力留给真正需要判断的部分。测试、截图、格式检查、基础验证，可以要求 Agent 自己先完成。人主要看关键设计、边界条件、风险和可维护性。第五，保护深度思考时间。有些时候最高价值的动作不是继续管理 Agent，而是停止多线程工作，完整地思考一个核心问题。

译AI编程系统中，人类开发者的注意力是不可并行的稀缺资源。智能体可并行工作，但其结果必须由人审查、判断和决策，这一过程无法并行，被称为“编排成本”，类比于Python的GIL。盲目增加智能体数量不会提升最终质量，反而因大量上下文切换增加审查负担。成熟的AI编程能力在于合理分配注意力：按自身审查能力控制智能体数量，将深度思考时间留给最关键的架构与决策环节。

meng shao@shao__meng · 5月29日75

Claude Opus 4.8 发布：可靠性和执行能力进一步提升，更适合承担复杂、长期、多步骤的真实工作，尤其是编码、Agent 任务、知识工作和 Claude Code 场景。刚好，就在 Anthropic 官宣 H 轮 650 亿美金融资的当天，难怪没有阻击 Google I/O，原来是在配合自家融资官宣（也是 Gemini Flash 3.5 太不值得狙击了吗？）同时 Claude 另外两个模型：Claude Sonnet 4.6、Claude Haiku 4.5 还没有更新，还会有吗？看看 Claude Opus 4.8 几个关键变化： 1. 编码与知识工作能力进一步提升，SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6% 2. 更诚实（4x），减少误判进度、主动标注不确定性，强调「自我监控 + 如实汇报」 3. Agent 协作质量：判断更稳、工具更省、任务更能跑完 4. 计算机 / 浏览器 Agent 继续提升，OSWorld-Verified：83.4%、Online-Mind2Web：84%，对 RPA、浏览器自动化、computer-use 产品意义最大 5. Claude Code Dynamic Workflows：从单 Agent 到「规划 + 并行 + 验证」

译Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7，提升了判断力、诚实度与独立工作时长，更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍，能更准确地自我监控与汇报进度。智能体协作质量提高，判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强，OSWorld-Verified得分83.4%，Online-Mind2Web得分84%。同时，Claude Code推出Dynamic Workflows，从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。

meng shao@shao__meng · 5月29日76

Claude Code 推出 Dynamic Workflows：从「一个 agent 干到底」升级到「agent 自己当项目经理 + 调度层」，标杆案例是 Bun Zig → Rust 迁移！让 Claude Code 根据任务现场生成编排脚本，在单次会话里启动数十到数百个并行 subagent，并在结果交付前做独立验证。把原本需要多轮人工规划、分阶段推进的大型工程任务，压缩成可端到端自动跑完的长任务。 https://claude.com/blog/introducing-dynamic-workflows-in-claude-code Dynamic Workflows 解决什么问题？ · 上下文窗口有限：拆子任务，并行 fan-out · 单视角易漏检/误判：多 agent 独立探索 + 对抗性 refute · 长任务易中断丢失：进度持久化，断点续跑 · 对话上下文被协调信息污染：协调逻辑在对话外执行，主线程保持单一结论工作机制（技术逻辑）用户 prompt ↓ Claude 动态规划（非固定 pipeline） ↓ 拆分子任务 → 并行 subagents（数十~数百） ↓ 独立产出 → 验证/对抗审查 → 收敛迭代 ↓ 汇总为单一协调结果 → 交付用户几个值得注意的设计点： · 动态编排：脚本由 Claude 现场写，不是固定 workflow DSL；任务形态变化时更灵活，但也更难预测 token 消耗。 · 对抗式收敛：不只「多 agent 投票」，还有 agent 专门反驳其他 agent 的结论，迭代到答案稳定——类似 ensemble + red team。 · 长时运行：官方称可持续数小时到数天；协调在会话外，避免对话 token 被中间状态撑爆。 · 首次触发需确认：第一次启动 workflow 时会展示即将执行的内容，用户确认后才跑——成本与范围的可控闸门。和 Claude Code 现有能力的关系明确把它放在「单个 subagent」和「完整 agent team（需人工搭建）」之间： · 单个 subagent：轻量、快，但 scope 有限 · 完整 agent team：灵活、可见，但搭建成本高 · Dynamic Workflows：Claude 自动决定是否启用、如何编排，用户只需提需求或开 ultracode 这是 agent 编排层的 productization——把多 agent 协作从「高级用户自建」变成「模型自决策调用」。标杆案例：Bun Zig → Rust 迁移 Jarred Sumner 用 dynamic workflows 完成 Bun 从 Zig 到 Rust 的移植（尚未 production）： · ~75 万行 Rust · 99.8% 现有测试通过 · 首 commit 到 merge：11 天流程示意： · 一个 workflow：为 Zig 代码中每个 struct field 映射正确的 Rust lifetime · 下一个 workflow：并行 port 每个 .zig → .rs，每文件配 2 个 reviewer · Fix loop：驱动 build + test 直到全绿 · 后续 overnight workflow：优化不必要的数据拷贝，每个改动单独开 PR 这说明 workflow 不只用于「读/审」，也用于大规模写 + 验证 + 修复闭环——接近小型软件工厂的运作方式。

译Claude Code 推出 Dynamic Workflows 功能，将工作模式从单个 agent 执行升级为 agent 自主担任项目经理与调度层。该功能根据用户 prompt 动态生成编排脚本，在单次会话中启动数十至数百个并行 subagent，并对结果进行独立验证，从而将原本需要多轮人工规划的大型工程任务压缩为端到端自动化的长任务。它解决了上下文窗口有限、单视角易漏检、长任务易中断等问题。标杆案例是 Bun 从 Zig 迁移至约 75 万行 Rust 代码，99.8% 现有测试通过，从首次 commit 到 merge 仅用时 11 天。

StepFun@StepFun_ai · 5月29日64

Day-0 SGLang support. Thanks @lmsysorg for moving so fast.

译SGLang宣布其推理框架现已对阶跃星辰（StepFun AI）的新模型Step 3.7 Flash提供Day-0支持。该模型是一个专为高吞吐量智能体工作负载设计的198B稀疏MoE视觉语言模型，具备原生多模态感知能力。它在SimpleVQA评测中以79.2分排名第一，V*得分为95.3。在智能体工作流方面，它在ClawEval-1.1上以67.1分领先，展现出可靠的长期工具编排能力；在软件工程任务中，于SWE-Bench PRO上以56.3分位列第二。模型支持256K上下文，并提供3种推理级别以平衡速度、成本与深度。

StepFun@StepFun_ai · 5月29日75

⚡️ Step 3.7 Flash is here: The new frontier is agent efficiency. #1 ClawEval-1.1 (67.1), #1 SimpleVQA Search (79.2), #2 SWE-PRO (56.3), 95.3 on V* Python. Open weights under Apache 2.0. Built for agentic, coding, search, and multimodal workflows — balancing speed, cost, and reliable execution. - 400 TPS. 198B sparse MoE, ~11B active. 256K context, 3 reasoning levels. - Understands UIs, charts, docs, images — then writes code or calls tools to act on what it sees. - Web + visual search reaches further: more sources, deeper follow-up. - Reliable tool use — less drift, fewer broken toolcalls. 98%+ on τ²-bench across all difficulty levels. - Works with Claude Code, KiloCode, Hermes Agent, OpenClaw, and protocols like MCP. - Runs locally on Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395. GitHub: http://github.com/stepfun-ai/Step-3.7-Flash HuggingFace: http://huggingface.co/stepfun-ai/Step-3.7-Flash GGUF: http://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF ModelScope: http://modelscope.cn/models/stepfun-ai/Step-3.7-Flash API: http://platform.stepfun.ai Blog: http://static.stepfun.com/blog/step-3.7-flash/

译阶跃星辰（Step）发布了开源大模型 Step 3.7 Flash，主打智能体（Agent）工作流的效率。该模型在 ClawEval-1.1（67.1分）和 SimpleVQA Search（79.2分）评测中排名第一。其架构为 198B 参数的 MoE，约 11B 为活跃参数，支持 256K 上下文。模型具备多模态理解能力，能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面，它致力于高可靠性，τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链，并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

ginobefun@hongming731 · 5月29日70

http://x.com/i/article/2060134439691403264 # BestBlogs 早报 · 05-29｜Claude Opus 4.8、Anthropic H 轮融资、动态工作流发布在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-29 ## 导语 Anthropic 今天同时放出三枚重磅：旗舰模型 Claude Opus 4.8 在编程与推理基准上全面超越上代，代码诚实度提升四倍；H 轮 650 亿美元融资让估值逼近万亿美元，年化收入已超 470 亿美元；配套推出的 Claude Code 动态工作流，可在单次会话内编排数百个并行子智能体，把「一个人 + AI」能处理的任务边界再次推远。三条消息相互咬合，AI 能力、商业规模与工程基础设施同步跃升，这一天值得仔细读。除了 Anthropic 的三连发，今天还有 Neuralink 联合创始人谈脑机接口产业化路径、Cognition 与 OpenInspect 谈后台异步智能体架构、Devin 背后的技术团队对「浪费 Token 节省时间」范式的思考，以及阿里、腾讯工程师对多智能体协作与 AI 知识显形化的一手观察。此外还有 Cloudflare 构建内部数据智能体的工程实践、Slack 三年多云 AI 架构演进，以及 Meta 2026 年股东大会扎克伯格的四大 AI 战略。整份早报内容密度很高，下面我们从三篇精讲开始。 ## 精讲一：Claude Opus 4.8 发布 Anthropic 正式发布新一代旗舰模型 Claude Opus 4.8，在编程、智能体、推理、知识工作四大类基准中全面超越上代的 Opus 4.7。阅读请访问 BestBlog 这次升级最值得关注的突破来自「诚实度」层面：Opus 4.8 对自身代码缺陷视而不见的概率降低了约四倍。换句话说，当模型写出存在缺陷的代码时，它能更主动地识别问题并告知用户，而不是继续往下执行，直到系统崩溃才被发现。这听起来像是一个工程细节，但在智能体应用场景中，它实际上是整个系统稳定性的关键变量。为什么「诚实度」是这次最重要的升级在单步问答场景中，模型对自身输出的错误诊断能力还不算致命弱点——用户可以很快看到问题并反馈。但在多步骤的智能体工作流中，模型在第一步犯了错误却没有意识到，会导致后续所有步骤在错误的基础上继续推进，最终产生难以回溯的连锁失败。诚实度提升四倍，意味着这类「盲目前行」的概率大幅下降，系统整体的自我修复能力显著增强。这一特性与今天同步发布的动态工作流密切相关。当系统需要编排数十到数百个并行子智能体时，每一个子智能体都需要能够准确评估自己的输出质量，并在判断结果异常时主动终止或请求确认，而不是把错误无声地传递给下游节点。Opus 4.8 的诚实度提升，从根本上改善了这类多智能体系统的可靠性基础。三项配套新功能同步落地与 Opus 4.8 同步推出的还有三项工程层面的新能力。第一，Claude Code 动态工作流——单次会话内可以动态编写编排脚本，并行运行数十乃至数百个子智能体，专为全代码库漏洞排查、大规模迁移、独立验证等超大型任务设计。这实际上是把过去需要外部编排框架才能完成的多智能体调度，内化到了 Claude Code 自身的能力范围之内。第二，claude.ai 新增「努力控制」滑块，用户可以手动调节模型的思考深度，在响应速度和推理质量之间按需权衡。这对于不同类型的任务非常实用：快速问答可以拉低思考深度换取速度，复杂的代码审查或架构分析则可以拉满推理深度换取准确性。第三，API 新增任务执行中实时更新指令的能力，允许外部系统在运行过程中向 Claude 注入新的上下文或修改执行参数，而不必等到任务完成后重新发起请求。这对构建长周期智能体系统意义重大，尤其是那些需要根据实时环境反馈动态调整策略的场景。早期测试者的验证 Databricks 和 Devin 是本次发布的早期测试伙伴。Databricks 侧重于评估 Opus 4.8 在复杂数据工程任务上的判断力，反馈认为其在面对歧义指令时的决策质量有显著提升，尤其是在需要对数据管道中的异常情况作出判断时，模型不再轻易给出一个看起来合理但实际上错误的答案；Devin 则专注于智能体可靠性测试，验证了 Opus 4.8 在长任务链中的稳定性明显优于上代，具体体现在多步骤代码修改场景中的错误传播率显著降低。值得注意的是，这次性能全面提升的同时售价维持不变，对于已经在使用 Claude API 的工程团队来说是直接利好，不需要任何迁移或额外成本，可以立即切换。 ## 精讲二：Anthropic 完成 650 亿美元 H 轮融资，投后估值达 9650 亿美元 Anthropic 宣布完成 650 亿美元 H 轮融资，投后估值 9650 亿美元，距离万亿美元市值仅一步之遥。这是 AI 行业迄今规模最大的单轮融资之一。阅读请访问 BestBlogs。投资方构成与战略意图本轮融资由 Altimeter、Sequoia Capital 和 Dragoneer 联合领投，三家均是顶级成长期基金，领投本身即是对 Anthropic 商业化路径的高度背书。更值得关注的是投资方的结构性构成：超大规模云厂商出资共计 150 亿美元，其中亚马逊单独贡献 50 亿，进一步强化了双方在 AWS Bedrock 上的深度合作关系；Micron、三星、SK 海力士三家半导体巨头以战略投资者身份参与，意味着 AI 计算基础设施层面的供应链关系已从商务合作升级为资本层面的利益共同体。半导体厂商投资 AI 模型公司，是在押注下游需求——他们相信 Claude 将消耗越来越多的芯片资源。收入规模与商业化速度 Anthropic 披露的年化经常性收入已突破 470 亿美元。从历史数据看，这一数字意味着在不到两年的时间里，Anthropic 从一家专注安全研究的实验室演变为具备真实规模收入的商业公司，增速远超此前大多数分析师的预测。资金将主要用于三个方向：持续推进安全与可解释性研究（这是 Anthropic 区别于其他 AI 公司的核心定位）、扩充与 AWS、Google Cloud、Broadcom、SpaceX 的算力合作，以及规模化 Claude Code 和 Cowork 产品线。「首个多云前沿模型」的战略意义本次融资完成后，Claude 成为首个同时登陆 AWS、Google Cloud 和 Microsoft Azure 三大主流云平台的前沿 AI 模型。这一多云覆盖在商业层面意义深远：企业客户可以在不切换云厂商的前提下接入 Claude，大幅降低了迁移成本和采购门槛。对于已经在某一云平台深度锁定的大型企业，这意味着将 Anthropic 产品纳入技术栈的阻力几乎降为零。同时，多云部署也为 Anthropic 自身提供了更强的议价能力，避免对单一云厂商形成过度依赖。结合今天 Opus 4.8 的发布和动态工作流的推出，Anthropic 正在同步提升技术壁垒与商业覆盖面，形成正向飞轮：更强的模型吸引更多企业客户，更多企业客户产生更多收入，更多收入支撑更大规模的研究投入，更大规模的研究投入再产生更强的模型。对于关注 AI 行业格局的读者来说，今天的融资消息是观察这条飞轮转速的最新刻度。更值得关注的是，在当前主流 AI 公司中，Anthropic 是为数不多将「AI 安全」作为核心竞争定位、同时实现商业规模突破的公司，这种组合在过去一直被认为存在根本性张力，而今天的融资数字表明，市场给出了明确的答案。 ## 精讲三：动态工作流功能发布 | Claude Claude Code 正式推出动态工作流（Dynamic Workflows），这是 Claude Code 迄今最重要的架构级升级，标志着 AI 编程助手从「增强单人工作」迈向「编排多智能体系统」的新阶段。阅读请访问 BestBlogs。动态工作流解决的核心问题传统的单智能体模式存在一个根本性限制：单个上下文窗口的容量和注意力是有限的，面对需要同时处理数百个文件、跨多个系统并行验证、需要独立判断相互依赖任务的场景时，单智能体的表现会显著退化。这不是提示词工程能解决的问题，而是架构层面的约束。动态工作流的设计思路是让 Claude Code 在单次会话内自动编写编排脚本，然后将任务拆解并分发给数十至数百个并行运行的子智能体，每个子智能体负责一个具体的、边界清晰的子任务。编排脚本本身由 Claude Code 动态生成，而不是需要工程师手动定义——这是关键的差异，它意味着工程师只需要描述目标，不需要预先设计执行框架。典型应用场景官方给出的三类核心场景清楚地说明了动态工作流的适用边界：全代码库漏洞排查，需要同时分析数百个文件并保持跨文件的上下文关联，同时在多个代码路径间并行追踪安全漏洞；大规模代码迁移，将代码库从旧框架迁移到新框架时，需要对每个迁移单元进行独立的语义验证和测试；独立验证场景，用多条并行路径对同一个问题独立求解，再对比结果以提高可靠性。这三类场景的共同特征是任务总量超过单窗口容量，且子任务之间可以并行处理，不需要严格的串行依赖。「ultracode」模式与使用建议新增的「ultracode」模式让 Claude Code 可以自动判断何时启用动态工作流，无需手动指定启动参数。当前以研究预览形式上线，支持 CLI、桌面版、VS Code 扩展以及各主要云 AI 服务（包括 AWS Bedrock、Google Cloud Vertex AI 等）。官方特别提示：动态工作流的 Token 消耗远高于普通会话，因为多个子智能体并行运行会同时占用大量算力。建议从范围明确、边界清晰的任务起步，逐步摸索适合自己工作流的使用节奏，避免因任务边界不清导致子智能体无限扩张。这与 Opus 4.8 今天同步发布的「努力控制」功能形成配合：努力控制决定每个节点的推理深度，动态工作流决定是否开启多智能体并行模式，两者共同构成新一代智能体工程的核心调节机制。从更长的时间尺度来看，动态工作流代表了一个重要的范式转变：AI 系统的边界正在从「一个人能做什么」扩展到「一个人加上 AI 编排的智能体集群能做什么」。这条线的移动，会在未来几年持续重塑软件工程师的工作方式。从今天开始，衡量一个工程师或团队产能上限的，不再只是个人技能和团队规模，还包括他们编排和调度 AI 智能体集群的能力。这是动态工作流真正深远的意义所在，也是今天这篇发布值得每个从事技术工作的人认真读一遍的理由，无论你现在是否在直接使用 Claude Code。 ## 速览异步智能体时代 — Cognition 的 Walden Yan 与 OpenInspect 的 Cole Murray（Latent.Space） Cognition CPO Walden Yan（Devin 背后的核心人物）与 OpenInspect 创始人 Cole Murray 深度对话，探讨后台异步智能体的兴起与 2025 年 12 月的模型拐点。核心判断：本地编码工具只是起点，下一阶段是自主云端智能体系统，架构设计需要从「同步响应」转向「异步任务处理」。这与今天 Claude 动态工作流的方向高度吻合，值得对照阅读，了解行业视角与产品落地之间的呼应。 Dubbing v2 发布：革命性的全新配音模型（ElevenLabs Blog） ElevenLabs 推出 Dubbing v2，支持 90 多种语言，核心突破是在翻译的同时保留原说话者的情感色彩、语调起伏和发音节奏。视频本地化不再是「用另一种语言重新念一遍」，而是「用另一种语言说出同一个人的声音」。对内容团队、媒体公司和教育平台有直接的落地价值，国际化内容生产的门槛将显著降低。 Neuralink 联合创始人 DJ Seo：脑机接口与 AI 融合的竞赛内幕（Sequoia Capital） Neuralink 联合创始人 DJ Seo 亲口讲述公司如何将脑机接口从实验室研究推向真实患者——第一批瘫痪患者已通过植入设备恢复了对数字世界的控制能力。他还透露了即将推出的视觉恢复技术，并阐述了高带宽 AI-大脑融合的长期愿景。这场 Sequoia Capital 的访谈是理解脑机接口产业化现状最直接的一手视角，观看时长约一小时，信息密度很高。 Harness 的尽头不是缰绳，是镜子：AI 时代最沉默的那场革命（腾讯技术工程）文章提出「显形」这个概念：AI 的真正价值不在于替代人类工作，而在于迫使我们将长期以来只存在于脑中的隐性知识、判断标准和团队品味首次文本化。这是一场不可逆转的认知革命——一旦开始用 AI 协作，你就必须说清楚自己到底想要什么，这个过程本身就是对知识的梳理与沉淀。观点犀利，适合和工程师、产品经理一起读，会引发很多共鸣。从语言涌现到协作涌现：如何让 AI 产生高质量决策（阿里技术）阿里工程师提出 Agent Room 概念：将多个 AI 智能体置于共享上下文场中，让它们互相修正、沉淀任务、执行验证，从而实现从流程自动化到协作涌现的跨越。文章完整记录了团队从「流程自动化」到「全链路自动化」再到「协作涌现」的三阶段演进路径，是少见的有具体工程经历支撑的理论框架，与今天动态工作流的官方叙事形成很好的对照。 143. 对何小鹏的第二次访谈：更大赌注、人形机器人 Iron 诞生、那场意外、技术剧变下 CEO、GX 和缝合怪（张小珺Jùn｜商业访谈录）何小鹏详述小鹏汽车从智能电动汽车向「物理 AI 企业」的战略转型：放弃旧自动驾驶体系、all-in 人形机器人 Iron，坦言两成胜率，也谈了技术剧变中 CEO 的焦虑与决策方式。这次访谈比上一次更深入，何小鹏的坦诚程度也超出预期。想了解中国汽车加机器人赛道真实状态的读者不容错过。浪费 Token，节省时间：Naval 与三位前沿创始人谈 AI 如何重塑软件工程（Naval） Naval 与三位前沿创始人（包括 Devin 团队成员）探讨「软件工厂」范式：用 AI 智能体替代手动编码，核心逻辑是「浪费算力换人力」。他们同时质疑了纯软件护城河的未来——当任何人都能用 AI 快速复制软件功能时，差异化究竟从哪里来？结论指向数据、网络效应和品牌，而非代码本身。 ## 补充阅读推理优化、扩散模型、世界模型等前沿 AI 研究 | YC Paper Club（Y Combinator）首届 YC Paper Club 汇集顶尖创始人和研究者，集中讨论推理加速（Speculative Speculative Decoding）、机器人控制、世界建模、泛化理论和数据效率五个方向的前沿论文。对 AI 基础研究保持跟踪的读者和研究者值得看。我们如何构建 Cloudflare 的数据平台及其上的 AI 智能体（The Cloudflare Blog） Cloudflare 工程团队详述如何从数据孤岛走向统一数据平台 Town Lake，并在其上构建 AI 智能体 Skipper，让任何员工都能用自然语言查询数十亿级别的业务数据。正在构建企业内部数据智能体的团队有直接参考价值，Cloudflare 的规模与复杂度让这个案例的代表性很强。 Slack AI：通往多云之路（Slack Engineering） Slack 工程团队完整记录了从 AWS SageMaker 到 AWS Bedrock + GCP Vertex AI 多云架构的三年演进历程，动因是运营效率、模型灵活性和企业级可靠性的综合需求。是少见的多云 AI 基础设施实战案例，结合今天 Anthropic 的多云战略更有参考意义。当你的客户是 AI 智能体：B2B 企业如何在买家变成 AI 智能体时保持可见（freeCodeCamp） 96% 的 B2B 企业在 AI 驱动的采购流程中是「不可见」的——AI 智能体在为买家筛选候选供应商时，大多数企业根本不在考虑范围内。文章分析了成为「AI 可发现」所需的三项基础设施决策。适合 B2B 产品和营销负责人，这是一个正在发生的结构性变化，需要提前布局。 Skill 文档也能训练？SkillOpt：把 Agent 的经验写进一份可优化说明书（AINLP）微软论文 SkillOpt 的中文解读：把 Agent 的 Skill 文档当成可训练的外部状态，通过 rollout、反思、受限编辑和验证门控实现自动迭代优化，在 52/52 的测评项中达到全部 best 或 tied-best。正在做 Agent 工程化的团队有直接启发，这是一个低成本改善 Agent 表现的方向。 Cursor 开发者习惯报告：AI 编程趋势洞察（Cursor） Cursor 发布《开发者习惯报告》，基于其全球最完整的 AI 编程数据集分析 AI 工具采纳规律。想了解 AI 编程工具在真实开发者群体中如何传播和使用的读者，这份报告是目前数据支撑最扎实的参考之一。 SpaceX 自研 C 语言 AI 训练栈，面向 22 万块 GB300 GPU（Elon Musk） SpaceX 即将完成用 C 语言编写的定制 AI 训练栈 V1.0，精确映射 22 万块 NVIDIA GB300 GPU，声称对大规模训练任务相比 JAX 有超过一个数量级的速度提升。AI 训练基础设施向高度定制化方向演进的一个信号，关注 AI 算力投资的读者值得了解。社会科学中的编码智能体（Anthropic Research） 1260 名社会科学家调查显示：81% 用过 AI 聊天机器人，但只有 20% 使用过编码智能体，且采用率在性别、职业阶段和大学声望方面存在明显分化。早期用户发表了更多工作论文，但期刊投稿量并未增加。数据有趣，适合关注 AI 工具在非工程领域扩散规律的读者。 AI 破晓：生成式 AI 时代文化产业的重塑、跃迁与守望 | 4 万字报告（腾讯研究院）腾讯研究院联合中国传媒大学发布 4 万字研究报告，覆盖短视频、长视频、网络文学、音乐、游戏等多个内容形态，提出生成式 AI 对文化产业的全链条影响框架，包含近 1900 份有效问卷和 20 余位从业者访谈。体量大，适合对文化产业与 AI 交叉领域感兴趣的读者周末细读。一文读懂 Meta 2026 年股东大会：扎克伯格豪赌 AI 四大方向，十项股东提案全被否（腾讯科技） Meta 2026 年股东大会核心内容速览：12 名董事全部连任，10 项股东提案全被否，扎克伯格重点阐述核心应用 AI 化、个人智能体、商业智能体、AI 硬件四大方向，资本支出 1150 亿到 1350 亿美元，几乎是去年两倍。想了解 Meta AI 战略全貌的读者值得一读，结合今天 Anthropic 的融资新闻对照来看格局感更强。 ## 今日阅读路径时间有限时，建议按以下顺序读三篇： 1. Claude Opus 4.8 发布——今天最值得优先读的一篇。Opus 4.8 的「诚实度」提升不是边际改进，而是智能体工程的基础性突破。读完这篇再看动态工作流，会有更清晰的整体感：能力升级和工具升级是同步设计的，不是各自独立的公告。 1. 动态工作流功能发布 | Claude——紧接着读这篇，理解并行子智能体架构的设计逻辑和适用边界，以及「ultracode」模式的实际使用建议。这是今天三篇精讲中最有工程实操参考价值的一篇。 1. Harness 的尽头不是缰绳，是镜子——用腾讯工程师的视角把前两篇「落地」：模型能力再强，真正的价值在于迫使团队将隐性知识显形化。这篇文章是今天所有 AI 进展最好的人文注脚，读完会对「为什么我们需要更强的 AI」有更深的理解。如果还有时间，加读从语言涌现到协作涌现——阿里工程师对多智能体协作的一手实践记录，与今天的 Claude 动态工作流官方叙事形成很好的互补：一篇是工具方的视角，一篇是实践者的视角，放在一起读收获更大。再有时间的话，Anthropic H 轮融资值得完整读一遍——里面关于多云战略和投资方构成的细节，能帮助你理解 AI 行业的资本与技术如何同步运转。

译Anthropic发布旗舰模型Claude Opus 4.8，在编程、智能体、推理等基准上全面超越上代，其代码“诚实度”提升约四倍，增强了多智能体系统的可靠性。同日，Anthropic完成H轮650亿美元融资，投后估值达9650亿美元，年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体，适用于大规模代码库排查等任务。

ginobefun@hongming731 · 5月29日63

Claude Code 今天推出了一个叫「动态工作流」的新能力，专门解决单个智能体一次跑不完的大型任务问题。简单说就是，Claude 现在可以在一次会话里动态生成编排脚本，然后同时启动数十甚至数百个并行子智能体，每个子智能体独立完成一部分工作，最后由主流程汇总结果再交给用户。整个过程中 Claude 会自己检查中间产物，不需要用户全程盯着。这个功能最适合三类场景：全代码库的漏洞排查、需要大规模改动的代码迁移、以及必须经过独立交叉验证的关键任务。这些场景过去要么需要人工拆分成很多小任务逐个执行，要么干脆放弃用 AI。新版还加入了一个「ultracode」模式，可以让 Claude 自己判断什么时候该启动工作流，不需要用户手动触发。目前动态工作流以研究预览的形式上线，支持 Claude Code CLI、桌面版、VS Code 扩展，以及各主要云 AI 服务。需要注意的是，动态工作流消耗的 Token 量会比普通对话高很多，官方建议从范围比较明确的任务开始试，不要一上来就跑特别复杂的项目。最直观的案例是官方提到的 Bun 的工程团队，用动态工作流在 11 天内把 Bun 的大部分代码从 Zig 迁移到了 Rust，而且测试通过率达到 99.8%。这个数字说明并行子智能体在大型工程任务里已经开始产生真实价值。

译Claude Code 发布了名为「动态工作流」的研究预览功能，旨在解决单个智能体无法独立完成的复杂大型任务。该能力允许 Claude 在单次会话中动态生成编排脚本，同时启动数十至数百个并行子智能体协同工作，并由主流程汇总结果。它特别适用于全代码库漏洞排查、大规模代码迁移以及需独立交叉验证的关键任务。新版还包含「ultracode」模式，可由 Claude 自行判断是否启动工作流。案例显示，Bun 工程团队利用该功能在 11 天内完成了大部分代码从 Zig 到 Rust 的迁移，测试通过率达 99.8%。需要注意的是，动态工作流消耗的 Token 量会显著增加，官方建议从任务范围明确的项目开始试用。

Berryxia.AI@berryxia · 5月29日69

我最近在搭一个AI agent，专门盯一些生物类的最新论文和研究竞品，全球趋势等。以前的做法是每隔几小时就全量抓一次页面，然后把整页内容喂给LLM。 token像流水一样花出去，agent还经常被广告、时间戳这些噪声干扰，效率低得让人头疼。看到今天Firecrawl直接把这个痛点解决了。他们刚上线了/monitor功能。你只用输入一个URL，再用自然语言描述想跟踪的目标，比如“当有ADHD最新课题论文新增xxx时提醒我”。它就会按照你设定的频率去监测，页面一旦有实质变化，就通过webhook推送给你的agent。只摄取真正变动的部分，最多省下90%的LLM token。 diff里清晰列出新增、删除和修改的内容，还带permalink，方便直接分享给团队或者继续交给agent处理。支持API、CLI、MCP或者dashboard初始化，调度可以是5分钟一次、每小时、每天或者自定义。以前我们总觉得agent要保持实时，就得自己扛起监控的重担。现在Firecrawl把“聪明地感知web变化”做成了现成的基础设施，让agent真正把精力放在决策和执行上。

译Firecrawl推出/monitor监控功能，解决AI智能体追踪网页更新时消耗大量LLM token的问题。用户输入URL并用自然语言描述跟踪目标，功能即可按设定频率监测页面。一旦有实质变化，便通过webhook通知智能体，并仅推送变化部分的diff（清晰列出新增、删除和修改），最多可节省90%的LLM token，避免广告等噪声干扰。该功能支持通过API、CLI、MCP或dashboard初始化，调度频率可自定义。

Peter Steinberger 🦞@steipete · 5月29日65

Part of the work was rebuilding leaner and faster dependencies: - http://proxyline.dev - proxy layer - http://fs-safe.io - filesystem safety - http://rastermill.com - Image engine in WASM - http://libopus-wasm.dev - Opus in WASM - http://clawpdf.dev - PDF in WASM

译OpenClaw 通过重构更轻量、更快的依赖库（如 proxyline.dev、fs-safe.io 等）进行优化。根据官方数据，优化后冷启动速度快了 2.9 倍，热启动速度快了 2.5 倍，安装包体积减少了 59%，依赖项数量相比月度高点下降了 42%。核心理念是构建一个更小的核心、明确的依赖关系，并将可选功能以插件形式提供。

OpenClaw🦞@openclaw · 5月29日62

OpenClaw’s latest sweep: cold agent turns 2.9x faster, warm turns 2.5x faster, tarball 59% smaller, deps down 42% from the monthly high. Small core, explicit deps, optional power in plugins. The claws are getting sharper 🦞 https://openclaw.ai/blog/lighter-core-sharper-claws/

译OpenClaw最新优化成果：冷启动智能体速度提升2.9倍，热启动提升2.5倍，压缩包体积减小59%，依赖项较月度峰值减少42%。核心精简，依赖显式，功能可选插件化。爪子更锋利了 🦞 https://openclaw.ai/blog/lighter-core-sharper-claws/

Artificial Analysis@ArtificialAnlys · 5月29日79

Claude Opus 4.8 takes the lead on the Artificial Analysis Intelligence Index at 61.4, with Anthropic retaking the #1 spot on GDPval-AA and advancing in terminal use and scientific reasoning To reach the leading position on the Intelligence Index, @Anthropic made large improvements in both real-world agentic work and frontier academic reasoning tasks. Key takeaways: ➤ Claude Opus 4.8 is the new leader on the Artificial Analysis Intelligence Index. Opus 4.8 scores 61.4, up +4.1 points from Opus 4.7 and +1.2 points ahead of GPT-5.5 (xhigh), the previous Index leader ➤ The new release is slightly more efficient than its predecessor on agentic tasks, but token efficiency varied by task type. We saw Opus 4.8 use fewer turns and output tokens on GDPval-AA, but approximately the same number of output tokens for the overall Intelligence Index to achieve significantly higher performance. ➤ Anthropic retakes the lead on GDPval-AA, our primary evaluation for agentic performance on knowledge work tasks. Opus 4.8 scored an 1,890 Elo, reflecting an implied win rate of approximately 67% against GPT-5.5 ➤ Claude is now among the top models for scientific reasoning. Previous releases have trailed peers on complex academic reasoning tasks, but with Opus 4.8, Claude sits slightly ahead of OpenAI and Google as the leader on Humanity’s Last Exam. It also scores higher than Gemini 3.1 Pro on CritPt, a frontier physics benchmark, but remains behind GPT-5.4 and GPT-5.5 ➤ Claude Opus 4.8 reaches #2 on AA-Omniscience, slightly ahead of Opus 4.7. Opus 4.8 scores 27.4 on the AA-Omniscience Index behind only Gemini 3.1 Pro (32.9). Accuracy ticked up slightly to 46.6% and hallucination rate held roughly flat at 35.9% - Anthropic continues to demonstrate substantially lower hallucination rates than peer models from Google and OpenAI ➤ Compared with Opus 4.7, Opus 4.8 also makes material gains on Terminal-Bench Hard (+6.8 points), τ²-Bench Telecom (+5.9 points), and IFBench (+3.6 points), with relatively flat scores across AA-LCR, GPQA, and SciCode. Other key model details remain the same as Opus 4.7: Context window of 1 million tokens (equivalent to Opus 4.7) Pricing of $5/$25 per million tokens of input/output; cache pricing remains at a 25% premium for cache writes ($6.25 per million tokens) with 5-minute time to live, and 90% discount for cache hits ($0.5 per million tokens) Effort remains the recommended way of configuring model performance and latency, with the same options as Opus 4.7 - we measured the model at its ‘max’ effort setting to test peak performance

译Anthropic发布Claude Opus 4.8，在Artificial Analysis智能指数上以61.4分超越GPT-5.5（xhigh）1.2分，重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升，在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面，Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%，显著低于竞品。上下文窗口仍为100万token，定价为输入$5、输出$25每百万token。

Rohan Paul@rohanpaul_ai · 5月29日56

WallStreetPrep did a very practical AI benchmarking exercise for real-world finance. It tested financial modeling agents on a real analyst assignment, not a toy prompt with a neat answer key. The task was a serious analyst job: build Apple’s historical and forecast financial statements, cite sources, link assumptions, add schedules, and make the workbook auditable. Primer, an AI financial modeling tool, came out ahead in this test, but the more useful point is why: its output looked less like a spreadsheet patched together cell by cell and more like a connected financial system that could be audited. Primer treats Excel as the final output format, not the agent’s working language, so the AI can build a stronger 3-statement financial model first and then convert it into an auditable spreadsheet. Primer represents the workbook as structured records such as revenue, cost of sales, cash, debt, assumptions, formulas, source links, comments, and dependency checks. That means the AI can query and validate the finance logic directly, for example “show me every formula feeding cash flow” or “find balance sheet plugs,” instead of visually navigating Excel and editing fragile cell references one by one. This is what I am seeing in many areas, that professional AI agents will be judged less by chat quality and more by whether their artifacts survive audit

译测试评估了AI金融建模智能体在构建苹果公司历史与预测财务报表这一真实分析师任务中的表现。其中，工具Primer表现突出，关键在于其生成了可审计的关联财务系统，而非逐单元格拼接的表格。Primer将Excel视为最终输出格式，先构建完整的三表模型，再将其转化为结构化记录（如收入、成本、假设、公式链接等），使AI能直接查询和验证财务逻辑。这指出专业AI智能体的价值将更多取决于其产出物能否通过审计。

SemiAnalysis@SemiAnalysis_ · 5月29日54

The general direction of the codex in app browser UX is pretty good. for web dev Once the codex model itself becomes good at web dev, i would assume all web dev work gonna switch from claude terminal CLI to codex app with in app browser.

译Codex在应用内浏览器的用户体验总体方向很好。对于Web开发，一旦Codex模型本身擅长Web开发，我预计所有Web开发工作将从Claude终端CLI转向带有应用内浏览器的Codex应用。

Replit ⠕@Replit · 5月29日74

The best design work doesn't happen in a chat box. You need space to explore ideas, create variants, and iterate Meet the new Replit Canvas Your agentic design tool to build beautiful websites, apps, marketing assets and more

译最好的设计工作不会在聊天框里发生。你需要空间来探索想法、创建变体并进行迭代。认识新的 Replit Canvas。你的智能体设计工具，用于构建精美的网站、应用、营销资产等。

Ethan Mollick@emollick · 5月29日74

I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identified research files from years ago I had to use GPT-5.5 Pro as a reviewer, it spotted one major error & some minor points. Opus corrected https://embeddedness-gradient.netlify.app/

译我让 Claude Code 中的 Opus 4.8 从数百份多年前的匿名研究文件中，撰写了一篇虽小但复杂的学术论文。我不得不使用 GPT-5.5 Pro 作为审稿人，它发现了一个主要错误和一些次要问题。Opus 已修正。

MiniMax (official)@MiniMax_AI · 5月29日76

Free agentic coding with MiniMax M2.7 on @OpenHandsDev? Yes, please! Available for a limited time ⚡👀

译在 @OpenHandsDev 上使用 MiniMax M2.7 进行免费智能体编程？是的，请给我！限时提供 ⚡👀

Peter Steinberger 🦞@steipete · 5月29日30

build the thing that builds the thing. https://openclaw.ai/ecosystem

译构建构建事物的工具。 https://openclaw.ai/ecosystem

Rohan Paul@rohanpaul_ai · 5月29日81

Big release - Open Source Recursive Self Improvement from @hexoai Shows AI agent can improve both how it works and what it internally knows after seeing its own task results. i.e. by repeatedly training on its own task feedback, not by relying on a human to hand-code every strategy. Most agents today are frozen workers: you can give them better prompts, better tools, better retry rules, and better code, but the actual model usually stays the same. SIA (Self Improving AI framework) changes the outer workflow, called the harness, and also changes the model’s weights, which are the internal settings that store learned patterns. which means task feedback changes the model’s internal parameters, pushing it toward domain knowledge. The paper reports a 56.6% gain on LawBench, 91.9% runtime reduction on GPU kernels, and 502% improvement on single-cell RNA denoising over baseline.

译hexoai开源了SIA（自我改进AI）框架。该框架展示了AI智能体不仅能优化其外部工作流（harness），还能通过任务反馈直接更新自身的模型权重，从而在领域知识和能力上实现自主提升，而非仅依赖人类提供的提示或工具改进。论文报告显示，SIA在LawBench基准上性能提升56.6%，在GPU kernels运行上耗时减少91.9%，在单细胞RNA去噪任务中相比基线提升502%。

elvis@omarsar0 · 5月29日65

This is an idea I have been using for like 4 months now. Very easy to do with -p or Agent SDK. I doubt I will use CC for it, but great to see a native implementation of dynamic workflows. Agent-to-agent interactions are super effective, but also watch out for token use.

译Claude Code 新增“动态工作流”研究预览功能，可动态编写编排脚本并行启动大量协同子代理，处理复杂任务。提示词中使用“workflow”即可触发。有用户表示已通过 -p 或 Agent SDK 实现类似想法约四个月，认为代理间交互效果显著，但也提醒需注意 token 消耗。

Rohan Paul@rohanpaul_ai · 5月29日76

Claude Opus 4.8 dropped. - 2.5x faster fast mode, which is also 3x cheaper - has a new “dynamic workflows” feature that allows it to tackle very large-scale problems. - 74.6% on agentic terminal coding is the biggest benchmark jump over Opus 4.7, rising from 66.1% - New “dynamic workflows” feature that allows it to tackle very large-scale problems. - The new leader on our GDPval-AA benchmark for agentic real-world work tasks The dynamic workflows in Claude Code will break a massive engineering task into many smaller jobs, run them through tens to hundreds of parallel subagents, and check the results before handing anything back. A normal coding agent works like one developer reading, editing, and testing in sequence, but dynamic workflows behave more like a temporary engineering team coordinated by Claude. Claude first writes an orchestration plan, which is basically a task map that says what needs to be inspected, rewritten, tested, reviewed, or challenged. Separate subagents then work on different parts of the repo at the same time, so one agent might inspect authentication code, another might port files, another might search for unsafe patterns, and another might try to break the proposed fix. The major change is verification, because Claude does not just collect answers from subagents, but compares them, refutes weak findings, runs checks, and keeps iterating until the results converge.

译Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍，同时成本降低3倍。在agentic终端编码基准测试上，性能从66.1%大幅提升至74.6%，成为GDPval-AA基准的新领导者。新推出“动态工作流”功能，可通过Claude Code将大型工程任务分解为数十至数百个并行子任务，由多个AI智能体协同处理并互相验证。官方介绍称，该版本在判断力、诚实度以及独立工作能力上均有提升，今日起以相同价格提供服务。

宝玉@dotey · 5月29日76

Anthropic 今天发布了 Claude Opus 4.8，价格和上一代 4.7 持平。https://x.com/claudeai/status/2060042709209928018/video/1 它最大的变化是更诚实了：更愿意承认自己不确定，更少为了凑个答案而硬编，对自己干到哪一步也能做出更真实的判断。跑长时间的 agent 任务时，它更像一个靠谱的工程师，不用你时时盯着。同时上线的还有 fast mode【快速模式】，同一个模型，速度大约快 2.5 倍，价格比以前便宜了三倍。在 Claude Code 里用 /fast 打开，API 用户得找客户经理申请或排队。【重头戏是 dynamic workflows】跟着 Opus 4.8 一起放出来的，是 Claude Code 的新功能 dynamic workflows（动态工作流），目前是研究预览。你给它一个大任务，它自己拆解，一次性派出几十到几百个并行的 subagent（子智能体）去干，干完会让另一批 agent 去验证，甚至专门派 agent 去挑刺，反复迭代到结果收敛，最后给你一个整合好的答案。整个过程能跑几小时甚至几天，中途断了还能接着跑。适合的活：整个代码仓库的 bug 排查、安全审计、性能优化，以及最常见的大规模迁移，框架升级、API 替换、跨语言移植，一次涉及上千个文件那种。 Anthropic 把 Bun 用 Rust 重写当做了宣传安利。Bun 是个跑得很快的 JavaScript 运行时，创始人 Jarred Sumner 用 dynamic workflows 把整个项目从 Zig 移植到 Rust，官方说写了约 75 万行 Rust 代码，通过 99.8% 的原有测试，从第一次提交到合并只花了 11 天。【代价：它很烧 token】 Anthropic 罕见地主动警告：dynamic workflows 消耗的 token 比普通 Claude Code 会话多得多，建议先拿小任务试水。第一次触发时，Claude Code 会先把要跑的东西摆给你看、让你确认，企业管理员也可以直接禁用。目前 Max、Team 套餐和 API 用户默认开启，Enterprise 套餐默认关闭，要管理员手动打开。开启方式是直接让 Claude"建个 workflow"，或者打开一个叫 ultracode 的开关。

译Anthropic 发布 Claude Opus 4.8，价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实，能更真实地判断自身进度并承认不确定性，更适合长时间独立运行。同步推出 fast mode，在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows（动态工作流），它能将大型任务拆解，并行派出大量子智能体执行与验证，适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意，该功能消耗的 token 远多于普通会话。

OpenRouter@OpenRouter · 5月29日80

Opus 4.8 is live on OpenRouter! Same price as 4.7 with gains across agentic coding, reasoning, and computer use. Around 4x less likely than 4.7 to let code flaws pass unremarked. Opus 4.8 Fast Mode is also live - now only 2x the cost for 2.5x the speed.

译Opus 4.8 已在 OpenRouter 上线！价格与 4.7 相同，在智能体编码、推理和计算机使用方面均有提升。代码缺陷未被发现的概率比 4.7 低约 4 倍。 Opus 4.8 Fast Mode 也已上线——现在只需 2 倍价格，即可获得 2.5 倍速度。

ClaudeDevs@ClaudeDevs · 5月29日68

New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins up a large fleet of coordinated subagents in parallel to take on your most complex tasks. Use the word "workflow" in a prompt to get started.

译Claude Code 新功能（研究预览）：动态工作流。 Claude 会即时编写一个编排脚本，然后并行启动大量协调的子智能体来处理你最复杂的任务。在提示词中使用“workflow”一词即可开始使用。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日73

ANTHROPIC 🔥: Claude Code now supports "Dynamic Workflows", allowing Claude to complete challenging tasks end-to-end. > Claude dynamically writes orchestration scripts that run tens to hundreds of parallel subagents in a single session, checking its work before anything reaches you. > Some problems are too big for one pass by a single agent, especially in complex, legacy codebases: a bug hunt across an entire service, a migration that touches hundreds of files, a plan you want stress-tested from every angle before you commit to it.

译Anthropic 为 Claude Code 新增“动态工作流”功能。面对复杂任务，Claude 能动态编写编排脚本，在单个会话中并行运行数十到数百个子智能体，并在结果呈现给用户前进行自我核查。该功能适用于传统单一智能体难以一次处理的挑战，例如整个服务的 bug 排查、涉及数百个文件的代码库迁移等场景。引用内容指出，Claude 会先制定计划，然后运行数百个并行子智能体并验证其工作。

Artificial Analysis@ArtificialAnlys · 5月29日80

Anthropic just launched Claude Opus 4.8, and it is the new leader on our GDPval-AA benchmark for agentic real-world work tasks Opus 4.8 scored 1890 on GDPval-AA at launch with its 'max' effort setting, +137 points from Opus 4.7 and +121 points ahead of the next-best model, GPT-5.5 xhigh. Compared head-to-head on the GDPval task set, this implies a ~67% win rate against GPT-5.5 xhigh. @AnthropicAI shared access with us ahead of the public release to benchmark this model and we’re glad to see our benchmarks referenced in today’s launch. The rest of the Artificial Analysis Intelligence Index is in progress - we’ll share final results soon!

译Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准（专注于智能体的现实工作任务）上，以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分，并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中，这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前，为人工智能分析公司提供了早期访问权限以进行评测。

Chubby♨️@kimmonismus · 5月29日83

Opus 4.8 is live. Benchmarks especially significant jump in Agentic coding, but more important: „Fast mode is available for Opus 4.8. It's the same model at roughly 2.5x the speed, and we've made it three times cheaper than before.“

译Opus 4.8 已上线。基准测试显示其在智能体编码方面有显著提升，但更重要的是： “Opus 4.8 现已提供快速模式。这是同一个模型，速度提升约 2.5 倍，且价格比之前降低了三倍。”

Yuchen Jin@Yuchenj_UW · 5月29日72

Opus 4.8 scores 69.2% on SWE-Bench Pro, 10 points higher than GPT-5.5. Most interesting part of the release blog is “Dynamic Workflows”: “This new feature, available in research preview, allows Claude to take on even bigger tasks in Claude Code. Claude can plan the work and then run hundreds of parallel subagents in a single session (and with Opus 4.8, the agents can run for even longer). It then verifies its outputs before reporting back to the user.”

译Opus 4.8在SWE-Bench Pro上得分69.2%，比GPT-5.5高出10分。发布博客中最有趣的部分是“动态工作流”： “这项新功能（目前处于研究预览阶段）允许Claude在Claude Code中承担更大的任务。Claude可以规划工作，然后在单个会话中运行数百个并行子智能体（使用Opus 4.8时，智能体可以运行更长时间）。它在向用户报告之前会先验证其输出。”

Ethan Mollick@emollick · 5月29日64

Here Opus 4.8 built and play-tested a new RPG in Claude Code, including 3 PDF manuals and adventures, playtest notes, a website, and a playable solo adventure - then put it all on Netlify. No feedback from me at all. https://stillpoint-osr.netlify.app

译Opus 4.8 在 Claude Code 中构建并测试了一款新的 RPG 游戏，包括 3 本 PDF 手册和冒险内容、测试笔记、一个网站，以及一个可玩的单人冒险——然后将其全部部署到 Netlify。全程没有我的任何反馈。 https://stillpoint-osr.netlify.app

Microsoft Research@MSFTResearch · 5月29日63

Data Formulator introduces AI-powered analytics for enterprise data workflows. Data teams can easily bring enterprise data into an AI-ready workspace where users can explore, analyze, and visualize data with AI agents to turn raw data into actionable insights: https://msft.it/6013vZzUl

译Data Formulator 为企业数据工作流引入了 AI 驱动的分析功能。数据团队可以轻松将企业数据带入一个 AI 就绪的工作空间，用户可以使用 AI 智能体来探索、分析和可视化数据，将原始数据转化为可操作的洞察：https://msft.it/6013vZzUl

elvis@omarsar0 · 5月29日63

// Memory as Connectivity // One of the cleaner reframings of agent memory I have seen this month. FluxMem treats memory as the continuously evolving topology of a heterogeneous graph. Three stages run together: initial connection formation, feedback-driven refinement, and long-term consolidation of recurrent successful trajectories into reusable procedural circuits. During execution, it repairs missing links, prunes interference, and aligns abstraction granularity. SOTA on LoCoMo, Mind2Web, and GAIA across three distinct memory regimes. Paper: https://arxiv.org/abs/2605.28773 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译提出了一种名为FluxMem的AI智能体记忆架构，其核心理念是将记忆视为一个持续演化的异构图拓扑。该框架通过三个并行阶段运行：初始连接形成、基于反馈的精炼，以及将反复成功的轨迹长期整合为可复用的程序性回路。执行过程中，它会修复缺失链接、剪枝干扰信息并调整抽象粒度。该方法在LoCoMo、Mind2Web和GAIA三个不同的记忆任务基准测试上均达到了SOTA水平。

向阳乔木@vista8 · 5月29日62

Anthropic 出了一篇Computer Use的最佳实践，总结学习下，评论区有原文。 1. 原图分辨率太高，超 API 限制时，系统自动降采样，会导致画面和代码坐标系不匹配，就会点偏。 Claude 4.6 系列上限：最长边 1568 像素，总像素 1.15 mp。 Claude Opus 4.7 上限：最长边 2576 像素，总像素 3.75 mp。最佳实践：4.6 系列推荐默认 1280x720；Opus 4.7 推荐默认 1080p。 2. 构建 API 请求时，文本指令必须放在图片之前。推荐：[ {文本: "点击提交按钮"}, {图片: base64} ] 让AI先看到文本，知道要找啥，找的更准。 3. 每张截图大约消耗 1000–1800 个 token，200k 的上下文很快就会满，文章给了三种解法，感兴趣的可以看。反常识内容： 1. 截图切块发送不会提升精度，画坐标网格也没用。 2. 开 Low thinking 比不开还省 token，因为犯错少。 3. 开到Max Thinking 完全没必要，开到medium性价比更高，比Max便宜一半。因为视觉操作是“感知和机械任务”，不是逻辑任务。

译Anthropic发布最佳实践指南，核心包括：控制图像分辨率以避免降采样导致坐标偏移，Claude 4.6系列推荐1280x720，Opus 4.7推荐1080p。构建API请求时，文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token，200k上下文窗口会较快用尽。文中指出：截图切块或画网格无益精度；开启Low thinking比不设更省token（因减少错误）；而Max thinking在视觉任务中性价比低，Medium设置更优且更便宜。