BestBlogs 早报 · 05-22|Agent 记忆原语、Qwen3.7-Max、自动化与人类专家 · AI HOT
ginobefun @hongming731 63
2026-05-22 07:19 ·42天前
AI 摘要 本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。
ginobefun @hongming731 · X 2026-05-22 07:19 · 42天前
在 X 看原推 · x.com AI 摘要 本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。
如果说 Memory 是 Agent 的「知识存储」,那么 Dreaming 就是 Agent 的「夜间整理」。
Dreaming 原语在后台异步运行,对碎片化的记忆进行整合与去重,消除多 Agent 团队的重复学习。它类似于人类睡眠中大脑对白天经验的整理与固化,帮助整个 Agent 组织在不中断任务的情况下持续优化共享知识库。
这两项原语的意义不只在于技术层面。它们标志着 Agent 基础设施从「单次任务工具」向「持续学习系统」的关键跃升。当 Rakuten 的数字从 97% 这个量级给出时,它提示了一件事:Agent 的真正价值边界,可能不在于单次任务的表现,而在于是否能从每次执行中积累并共享经验。
Memory 与 Dreaming 这两项原语,和今天精讲二中 Qwen3.7-Max 的「长程策略连贯性」指向了同一个问题的两个层面:一个是在基础设施层解决 Agent 的跨会话记忆问题,另一个是在模型层解决长程执行中的策略稳定性问题。这两个方向的进展,共同构成了「AI Agent 从工具到协作者」这一演化的基础条件。
从今天精讲三 Dan Shipper 的视角来看,Memory 与 Dreaming 的意义还不止于此:当 Agent 具备了持久化学习能力,它们在特定领域的执行质量会随时间不断提升,这进一步强化了「人类评委」在整个系统中的战略价值--因为需要有人来判断 Agent 积累的「经验」是否正确、是否值得保留。
如果你正在构建企业级 Agent 或多 Agent 协作系统,这篇内容值得深读。
精讲二:Qwen3.7-Max 重新定义 AI Agent 基座 来源: 通义大模型 阅读链接: 在 BestBlogs 阅
很多开发者对 AI Agent 的真实体验是:任务稍长就丢上下文,换个框架就性能暴跌,跑几轮就开始「自我循环」。Qwen3.7-Max 试图正面回应这个痛点。
极限压力测试:35 小时、1158 次工具调用零中断
通义实验室为 Qwen3.7-Max 设计了一场极限压力测试:在训练期从未见过的硬件平台(平头哥真武 M890 PPUs)上,自主优化 SGLang 的 Extend Attention 生产级 Kernel。
没有硬件文档,没有性能分析数据,起点只有任务描述、官方 Triton 参考实现和一个评估脚本。
在约 35 小时的连续运行中,模型共产出 432 次 Kernel 评估,跨越 1158 次工具调用,完全自主地:
最终,在多个工作负载上相对 Triton 参考实现几何平均加速 10.0x,而对比同期测试的其他模型最高仅 7.3x,且多数因连续 5 轮无行动而主动退出。
更关键的数据是:模型在 30 小时后仍在持续发现实质性改进点,证明了它的「长程策略连贯性」。
Qwen3.7-Max 的训练架构采用了「任务 - 运行框架 - 验证器」正交解耦设计。在强化学习阶段,模型被强制在不同框架、不同验证器组合下处理同源任务,学到的是通用的解题策略与工具调用范式,而非「某个框架的快捷键」。
这意味着:无论使用 Claude Code、OpenClaw、Qwen Code,还是自研 Tool Use 框架,Qwen3.7-Max 都能即插即用,性能表现高度一致。在 QwenClawBench 与长链路 CoWorkBench 评测中,无论切换何种运行环境,性能均稳定领先上一代。
这次发布的真正意义在于:它把国内大模型的竞争焦点,从「问答分数」拉向了「长程 Agent 稳定性」。在综合 Agent 评测中,Qwen3.7-Max 位列前三,性能逼近行业顶尖水平,在长程 Agentic 稳定性上超越了 Claude 3.7 Sonnet 与 GPT-4.1。
Qwen3.7-Max 已经在三类真实场景中展示了能力:
编程 Agent - 从一条 prompt 生成包含 Three.js 3D 场景、Canvas 动画的交互式 Web 应用。
MCP 办公助手 - 通过 MCP 工具集成,读取高校学位论文格式规范,自动修复排版混乱的论文,包括页面布局、标题样式、字体字号、页边距、目录生成和参考文献格式,全程通过 office-cli 工具自主完成。
多智能体协作 - 支持主 Agent 规划调度、子 Agent 垂直执行的多智能体编排,同时基于 Tool Use 可直接操控具身设备完成物理环境中的理解、规划与决策。
如果你需要在生产环境中部署长程 Agent,Qwen3.7-Max 即将通过阿里云百炼提供服务,完整兼容 OpenAI 与 Anthropic API 协议。
精讲三:自动化之后 来源: Every 阅读链接: 在 BestBlogs 阅读
Every CEO Dan Shipper 在这篇文章里记录了一个令他本人也感到困惑的现象:公司已经把所有能自动化的工作都交给了 AI--用 Codex 和 Claude Code 写代码、设计、客服--但他们没有裁员,反而还在扩张。团队接近 30 人,人类工作似乎比以前更多了。
这和主流叙事截然相反。Dario Amodei 警告过 AI 可能消灭一半入门级白领工作,Meta 裁员 8000 人,GDPVal 评测显示前沿模型在真实经济任务上已经达到 85% 的人类水平。但 Shipper 的实地经验是:「越自动化,需要做的人类工作越多。」
Shipper 的解释是:AI 商品化的是人类专业知识中「能被显式表达并训练的部分」。一旦某个技能被大量自动化,这类技能的「默认产出」价值就崩塌了,但「与众不同」的需求反而上升了。
而「与众不同」的需求,本质上是对人类专家的需求--即使我们已经接近 AGI。
举个具体例子:Codex 可以写代码,但能评判「这段代码写得对不对」的工程师变得更值钱,因为 AI 产出了大量同质化的代码需要被审查。AI 批量制造内容,「评估哪篇更好」就成了新稀缺。
Kieran(Every 的作者)把这种新工作模式称为「人类三明治」:人类设定任务框架 → AI 执行任务 → 人类评判并延伸结果。在 Every 内部,AI 已经回复了 Shipper 95% 的工作邮件,但他仍然在审阅每一封。管理者开始写代码,工程师开始直接接触客户。
Shipper 的结论是反直觉但有据可查的:不会有一个「临界点」让所有工作都消失。真正的新常态是:自动化越多,对专家判断力的需求越高。自动化的终点不是消灭工作,而是把人类角色推向「评委与压舱石」这个最后被商品化的层级。
Qwen3.7-Max 的极限测试,恰好印证了 Shipper 的逻辑:1158 次工具调用之后,仍然需要工程师来评判最终的 10x 加速是否真的「正确」--模型没有硬件文档、没有先验知识,但评估脚本由人类设计,验证标准由人类设定。AI 做了 35 小时的执行工作,而「定义什么是成功」的工作依然是人类的。
Memory 与 Dreaming 的案例同样如此:Rakuten 的 97% 错误率下降,需要人类来确认「错误」的定义、设计评估标准、判断哪些经验值得被 Dreaming 保留。专家判断力不是 AI 自动化的副产品,而是前提条件。
如果你在思考「AI 会不会取代我」,这篇文章提供了一个不同的分析框架,值得仔细阅读。
速览 为智能体配备计算机 - Ivan Burazin,Daytona(来源:Latent Space)
Daytona CEO Ivan Burazin 的核心论点是:AI 智能体需要的不仅仅是可丢弃的代码执行沙箱,而是可组合、有状态的「计算机」。他将公司从人类开发环境转型为 Agent 基础设施提供商的历程,以及「localhost 的终结」这一长期判断,对理解 Agent 基础设施赛道的产品逻辑很有帮助。Daytona 不是在构建另一个 sandbox,而是在重新定义 Agent 与计算环境之间的关系。开发者和基础设施产品经理适合阅读。
Railway:面向智能体的原生云平台 - Jake Cooper(来源:Latent Space)
Railway 创始人 Jake Cooper 分享了从「零激活能量上线」的产品哲学,到构建裸金属数据中心、实现 70% 利润率的商业路径,再到为 AI Agent 时代重新设计基础设施的全过程。值得关注的是,Railway 在 2026 年 5 月经历了一次 GCP 大规模故障(即使采用了多 AZ、多 zone 架构),其事后复盘对理解 Agent 基础设施的高可用挑战很有参考价值。适合关注云基础设施和 Agent 平台建设的读者。
腾讯混元全新翻译模型 Hy-MT2 开源,小程序「腾讯 Hy 翻译」开放体验(来源:腾讯混元)
Hy-MT2 支持 33 种语言互译,7B 和 30B-A3B 模型达到开源最佳效果,超越几十倍参数量的模型。最有意思的是 1.8B 轻量版:得益于 AngelSlim 1.25-bit 极端量化,仅需 440MB 存储空间,可在手机芯片上本地推理,比 Hy-MT1.5 推理速度提升 1.5 倍,同时翻译质量超越微软等主流商业 API。已上线「腾讯 Hy 翻译」小程序,iOS 和安卓 APP 即将发布。
选择正确模型:LLM Evals 与优化的数据驱动指南(来源:Claude)
Anthropic 的 Lucas 分享了一套生产级 LLM 选型框架:核心包括自定义 eval 而非依赖公开 benchmark、过程级评分(不只看最终结果)、prompt caching、context hygiene,以及按「成功结果成本」而非「单次调用成本」来优化选型决策。对在生产环境做模型选型的工程师有直接参考价值。
Google 推出 Android CLI,让 Android 工具链对 AI 智能体更友好(来源:InfoQ)
Google 重新设计了 Android CLI,引入了结构化 Skills(SKILL.md 格式的模块化指令集)和集成知识库,使 AI 智能体能够更高效地访问 Android 工具链。声称与 Android Studio 内的 Agent 相比,构建速度提升 3 倍,Token 使用量减少 70%。兼容 Claude Code、Codex 等第三方 Agent。这个设计思路与 BestBlogs 自身的 skill 体系颇为相似,值得关注。
下一代大模型推理网络架构:ZCube 如何有效破解网络瓶颈?(来源:智谱)
智谱、驭驯网络与清华大学联合提出的 ZCube 组网架构,在 GLM-5.1 coding 生产环境中实现了成本降低 33%、吞吐提升 15%、TTFT P99 降低 40.6%。核心思路是用全网扁平化拓扑 + 单/多轨混合接入,替代传统 ROFT 架构,从结构层面解决 PD 分离推理中的不对称流量拥塞问题。GPU、软件栈和应用均未改动,纯粹靠架构调优实现跨越。运行大规模推理集群的工程团队值得参考。
苏姿丰上海开讲:AI 正在重新定义计算的每一层(来源:量子位)
AMD CEO 苏姿丰在 AMD AI 开发者大会上海站的核心判断:AI 竞争正从模型能力转向系统工程与全栈优化,Agent 时代的成本结构是指数级而非线性的,开发者需要的是「可落地、可优化、可持续演进的工程体系」。AMD 以开放生态和 ROCm 平台应对这一趋势。量子位现场报道,信息密度较高。
补充阅读 OpenAI 模型推翻 80 年数学猜想,AI 首次实现科学发现(来源:Wes Roth) OpenAI 内部推理模型自主推翻了 Paul Erdős 于 1946 年提出的平面单位距离猜想,通过桥接代数数论与初等几何构造出完整的反例族。这是 AI 驱动原创科学发现的一个里程碑时刻。关注 AI 在数学研究领域能力边界的读者值得一看。
OpenAI 单位距离问题突破:完整技术报告(来源:OpenAI Blog) 上一条 Twitter 所对应的 OpenAI 官方完整技术报告。模型构造的点集配置在多项式级别上超越了此前最优的方格构造,顶级数学家 Noga Alon 参与了同行评审。想了解技术细节的读者可以直接读原报告。
QQ 音乐 Harness Engineering 实践(来源:腾讯云开发者) 把 AI 协作从不可控的对话式编码升级为可控、可审计、可复用工程化过程的实践分享。在大仓多服务场景下,如何让 AI 具备自主验证能力是核心挑战。配合下面两篇「Harness Engineering」相关内容一起读效果更好。
构建最强 Agentic Analytics Harness:由 Claude 驱动,用 Claude Code 打造(来源:Claude) Omni CTO 讲解如何构建 Blobby 智能分析系统,涵盖语义层设计、evals 框架、split-brain agent 与直接 SQL 生成等架构经验。关注 AI 数据分析 Agent 工程化落地的读者适合观看。
A2I2 的讽刺性悖论(来源:InfoQ) 探讨自动化和 AI 在事件响应中的结构性困境:AI 提供了自主性和权威性,但缺乏定向注意力、可重定向性和可互预测性--而这些恰恰是人类协调最关键的特质。在高压情境下,这种缺失可能导致严重失败。对 SRE 和运维工程师有现实意义。
提示工程还不够--我构建了一个可在生产环境中运行的控制层(来源:Towards Data Science) 作者在第三次调试同一个崩溃后意识到:问题不在模型,在系统。他构建了一个包含 InputGuard、TokenBudget、PromptBuilder、ResponseValidator、CircuitBreaker、RetryEngine、FallbackRouter、AuditLogger 八个组件的控制层,将结构化输出基准测试通过率从 0% 提升到 100%。69 个测试、5 个可运行 demo,有完整代码。
都是 AI Coding,为什么 Java 体验差了一个量级?五条方法论帮你构建自己的 Harness 环境(来源:阿里云开发者) 深入分析了 Java 微服务项目在 AI Coding 中体验差的根本原因(本地跑不起来,AI 无法自主验证),并提出了通过 Harness Engineering 构建本地可运行环境的五条方法论。有 Checklist 和具体工程方案,对 Java 后端开发者非常实用。
发布 ADK for Kotlin 和 ADK for Android 0.1.0(来源:Google Developers Blog) Google 发布 Agent Development Kit for Kotlin 和 ADK for Android,使开发者可以构建混合 AI Agent,在云端模型(如 Gemini)和设备端 LLM(如 Gemini Nano)之间协调任务。Android 开发者和移动端 AI 应用方向值得关注。
合成人格预训练:从零标记开始的对齐(来源:LessWrong) 通过在预训练文档中附加带有价值判断的道德反思,从训练伊始就植入所需的 AI 助手人格,实现了攻击成功率降低 63%。这是一项 AI 安全领域的早期研究,证明预训练阶段植入的价值观能够在后训练阶段泛化到未见过的安全场景。关注 AI 对齐研究的读者适合阅读。
编码智能体的可维护性传感器(来源:Martin Fowler) Martin Fowler 通过实验多种传感器--从静态分析到 AI 驱动的模块化审查--帮助编码 Agent 自我修正并维护代码库的可维护性。当 Agent 生成代码的速度越来越快时,如何确保长期可维护性是一个值得认真对待的工程问题。
来自 Codex 官方团队的分享:如何把 Codex 用到极致(来源:宝玉的分享) 系统介绍如何利用 Codex 的持久对话流、语音输入、任务干预、自动化、目标设定和侧边栏等高级功能,将其从编程助手升级为全能工作流引擎。Jason 原文的中文翻译版,内容实用。
Ramp 工程师如何借助 Codex 加速代码审查(来源:OpenAI Blog) Ramp 使用 GPT-5.5 驱动的 Codex 将 PR 代码审查时间从数小时缩短至数分钟,核心价值在于「能捕捉人类和其他 AI 工具都遗漏的问题」。配合上一条 Codex 使用指南一起看效果更佳。
当 Agent 真正走进复杂数据分析场景:DataClawBench(来源:AI 前线) 基于 492 个真实金融智库任务的数据分析评测基准,通过保留未清洗数据和隐藏数据源先验,对前沿大模型进行过程级评估。结论是:当前 Agent 在开放式真实数据分析场景中的能力边界,远比 demo 演示的要窄。
LLM 主题并非观察结果(来源:Towards Data Science) LLM 从文本中提取的主题是「生成的变量」而非直接观察结果。在因果分析中,若未解决选择偏差、测量误差等问题而直接用作协变量,会引入严重偏差。对做数据分析和因果推断的研究者有直接警示意义。
在 VS Code 中烹饪 Agents(来源:AI Engineer) Microsoft 的 Liam Hampton 讲解 VS Code 如何成为 local、background 和 cloud agents 的统一控制平面,把 multi-agent workflow、安全边界、MCP 上下文和开发者监督结合起来。VS Code 用户和 Agent 开发者适合观看。
会自动交易的交易信号:在系统化投资中规模化受治理的 AI(来源:Claude) Man Group 数据与 AI 负责人讲解一家管理超过 2000 亿美元资产的受监管投资机构,如何在系统化交易中构建可治理的 AI--包括生产级 AI 交易信号、skills 治理框架,以及「组织上下文作为 AI 护城河」的战略视角。高度监管行业的 AI 落地案例,视角独特。
今日阅读路径 今天内容量偏大,如果你时间有限,建议按照以下路径选读:
先读「精讲三:自动化之后」。Dan Shipper 的文章是今天最具思想冲击力的一篇,它提供了一个反直觉但有大量实地数据支撑的分析框架--关于 AI 与人类工作的关系,这是比大多数预测文章都更诚实的一个视角。
读「精讲一:Memory 与 Dreaming」,然后搭配速览中的 Daytona 和 ZCube 两篇。这三篇合在一起,覆盖了 Agent 的记忆层(Anthropic 原语)、计算环境层(Daytona)和网络基础设施层(ZCube),是一条完整的 Agent 基础设施视角。
读「精讲二:Qwen3.7-Max」。35 小时 1158 次工具调用零中断这个数字,已经足够说明问题的性质--这不是 benchmark 刷分,而是真实硬件上的生产级验证,代表着国内大模型竞争正式进入了一个新的阶段。
补充:如果你是开发者,在用 AI Coding 工具
补充阅读中的 Java Harness Engineering、Codex 官方使用指南、QQ 音乐 Harness 实践这三篇可以组合成一个「AI Coding 工程化」专题,非常实用,适合在上下班通勤时集中阅读。
精讲一:用于自学习自主 Agents 的 Memory 与 Dreaming 来源: Claude(Anthropic 官方频道) 阅读链接: 在 BestBlogs 观看
在 AI Agent 承担越来越复杂的企业任务时,最大的工程障碍之一是「历史执行上下文的管理」。没有持久化的记忆基础设施,Agent 每次收到新指令时几乎都是「空白状态」--频繁重复错误、重复工作,无法在多 Agent 团队之间共享领域知识。
Anthropic 的 Ravi 在一场公开演讲中首次披露了两项专为云端托管 Agent 设计的基础设施原语:Memory 与 Dreaming。这是 Anthropic 在「长程自主智能体」方向上迄今最具体的架构路径。
Memory 系统的设计出发点很务实:不强迫模型使用限制性的内部 API,而是把知识显式建模为标准虚拟文件系统,暴露给 AI 模型。
现代大语言模型(如 Opus 4.7)在操作文件路径和目录结构方面具备相当强的原生能力。通过把过去的经验和共享知识表示为标准目录,Agent 可以使用熟悉的 bash、grep 等终端工具来检查、修改和组织历史记录。这消除了不必要的软件层,让模型自己决定哪些会话内容值得保存。
在大型企业环境中部署共享记忆时,读写冲突是一个现实风险。Anthropic 通过三项架构约束来解决这个问题:
作用域层级(Scoped Hierarchies): Agent 同时访问不同层次的记忆空间--包括只读的企业知识库(如 SLO 策略、运行指南)和可读写的本地任务存储。 乐观并发控制(OCC): 防止多个并发 Agent 在同时写入时互相覆盖状态。 独立 REST API: 使外部工程团队可以方便地执行 CRUD 操作、触发数据导出或进行合规删除。 Rakuten 的早期部署数据非常惊人:引入生产级 Memory 后,首次执行错误率下降了 97%。Wise Docs 也消除了文档验证流程中的跨会话处理瓶颈。
如果说 Memory 是 Agent 的「知识存储」,那么 Dreaming 就是 Agent 的「夜间整理」。
Dreaming 原语在后台异步运行,对碎片化的记忆进行整合与去重,消除多 Agent 团队的重复学习。它类似于人类睡眠中大脑对白天经验的整理与固化,帮助整个 Agent 组织在不中断任务的情况下持续优化共享知识库。
这两项原语的意义不只在于技术层面。它们标志着 Agent 基础设施从「单次任务工具」向「持续学习系统」的关键跃升。当 Rakuten 的数字从 97% 这个量级给出时,它提示了一件事:Agent 的真正价值边界,可能不在于单次任务的表现,而在于是否能从每次执行中积累并共享经验。
Memory 与 Dreaming 这两项原语,和今天精讲二中 Qwen3.7-Max 的「长程策略连贯性」指向了同一个问题的两个层面:一个是在基础设施层解决 Agent 的跨会话记忆问题,另一个是在模型层解决长程执行中的策略稳定性问题。这两个方向的进展,共同构成了「AI Agent 从工具到协作者」这一演化的基础条件。
从今天精讲三 Dan Shipper 的视角来看,Memory 与 Dreaming 的意义还不止于此:当 Agent 具备了持久化学习能力,它们在特定领域的执行质量会随时间不断提升,这进一步强化了「人类评委」在整个系统中的战略价值--因为需要有人来判断 Agent 积累的「经验」是否正确、是否值得保留。
如果你正在构建企业级 Agent 或多 Agent 协作系统,这篇内容值得深读。
精讲二:Qwen3.7-Max 重新定义 AI Agent 基座 来源: 通义大模型 阅读链接: 在 BestBlogs 阅
很多开发者对 AI Agent 的真实体验是:任务稍长就丢上下文,换个框架就性能暴跌,跑几轮就开始「自我循环」。Qwen3.7-Max 试图正面回应这个痛点。
极限压力测试:35 小时、1158 次工具调用零中断
通义实验室为 Qwen3.7-Max 设计了一场极限压力测试:在训练期从未见过的硬件平台(平头哥真武 M890 PPUs)上,自主优化 SGLang 的 Extend Attention 生产级 Kernel。
没有硬件文档,没有性能分析数据,起点只有任务描述、官方 Triton 参考实现和一个评估脚本。
在约 35 小时的连续运行中,模型共产出 432 次 Kernel 评估,跨越 1158 次工具调用,完全自主地:
最终,在多个工作负载上相对 Triton 参考实现几何平均加速 10.0x,而对比同期测试的其他模型最高仅 7.3x,且多数因连续 5 轮无行动而主动退出。
更关键的数据是:模型在 30 小时后仍在持续发现实质性改进点,证明了它的「长程策略连贯性」。
Qwen3.7-Max 的训练架构采用了「任务 - 运行框架 - 验证器」正交解耦设计。在强化学习阶段,模型被强制在不同框架、不同验证器组合下处理同源任务,学到的是通用的解题策略与工具调用范式,而非「某个框架的快捷键」。
这意味着:无论使用 Claude Code、OpenClaw、Qwen Code,还是自研 Tool Use 框架,Qwen3.7-Max 都能即插即用,性能表现高度一致。在 QwenClawBench 与长链路 CoWorkBench 评测中,无论切换何种运行环境,性能均稳定领先上一代。
这次发布的真正意义在于:它把国内大模型的竞争焦点,从「问答分数」拉向了「长程 Agent 稳定性」。在综合 Agent 评测中,Qwen3.7-Max 位列前三,性能逼近行业顶尖水平,在长程 Agentic 稳定性上超越了 Claude 3.7 Sonnet 与 GPT-4.1。
Qwen3.7-Max 已经在三类真实场景中展示了能力:
编程 Agent - 从一条 prompt 生成包含 Three.js 3D 场景、Canvas 动画的交互式 Web 应用。
MCP 办公助手 - 通过 MCP 工具集成,读取高校学位论文格式规范,自动修复排版混乱的论文,包括页面布局、标题样式、字体字号、页边距、目录生成和参考文献格式,全程通过 office-cli 工具自主完成。
多智能体协作 - 支持主 Agent 规划调度、子 Agent 垂直执行的多智能体编排,同时基于 Tool Use 可直接操控具身设备完成物理环境中的理解、规划与决策。
如果你需要在生产环境中部署长程 Agent,Qwen3.7-Max 即将通过阿里云百炼提供服务,完整兼容 OpenAI 与 Anthropic API 协议。
精讲三:自动化之后 来源: Every 阅读链接: 在 BestBlogs 阅读
Every CEO Dan Shipper 在这篇文章里记录了一个令他本人也感到困惑的现象:公司已经把所有能自动化的工作都交给了 AI--用 Codex 和 Claude Code 写代码、设计、客服--但他们没有裁员,反而还在扩张。团队接近 30 人,人类工作似乎比以前更多了。
这和主流叙事截然相反。Dario Amodei 警告过 AI 可能消灭一半入门级白领工作,Meta 裁员 8000 人,GDPVal 评测显示前沿模型在真实经济任务上已经达到 85% 的人类水平。但 Shipper 的实地经验是:「越自动化,需要做的人类工作越多。」
Shipper 的解释是:AI 商品化的是人类专业知识中「能被显式表达并训练的部分」。一旦某个技能被大量自动化,这类技能的「默认产出」价值就崩塌了,但「与众不同」的需求反而上升了。
而「与众不同」的需求,本质上是对人类专家的需求--即使我们已经接近 AGI。
举个具体例子:Codex 可以写代码,但能评判「这段代码写得对不对」的工程师变得更值钱,因为 AI 产出了大量同质化的代码需要被审查。AI 批量制造内容,「评估哪篇更好」就成了新稀缺。
Kieran(Every 的作者)把这种新工作模式称为「人类三明治」:人类设定任务框架 → AI 执行任务 → 人类评判并延伸结果。在 Every 内部,AI 已经回复了 Shipper 95% 的工作邮件,但他仍然在审阅每一封。管理者开始写代码,工程师开始直接接触客户。
Shipper 的结论是反直觉但有据可查的:不会有一个「临界点」让所有工作都消失。真正的新常态是:自动化越多,对专家判断力的需求越高。自动化的终点不是消灭工作,而是把人类角色推向「评委与压舱石」这个最后被商品化的层级。
Qwen3.7-Max 的极限测试,恰好印证了 Shipper 的逻辑:1158 次工具调用之后,仍然需要工程师来评判最终的 10x 加速是否真的「正确」--模型没有硬件文档、没有先验知识,但评估脚本由人类设计,验证标准由人类设定。AI 做了 35 小时的执行工作,而「定义什么是成功」的工作依然是人类的。
Memory 与 Dreaming 的案例同样如此:Rakuten 的 97% 错误率下降,需要人类来确认「错误」的定义、设计评估标准、判断哪些经验值得被 Dreaming 保留。专家判断力不是 AI 自动化的副产品,而是前提条件。
如果你在思考「AI 会不会取代我」,这篇文章提供了一个不同的分析框架,值得仔细阅读。
速览 为智能体配备计算机 - Ivan Burazin,Daytona(来源:Latent Space)
Daytona CEO Ivan Burazin 的核心论点是:AI 智能体需要的不仅仅是可丢弃的代码执行沙箱,而是可组合、有状态的「计算机」。他将公司从人类开发环境转型为 Agent 基础设施提供商的历程,以及「localhost 的终结」这一长期判断,对理解 Agent 基础设施赛道的产品逻辑很有帮助。Daytona 不是在构建另一个 sandbox,而是在重新定义 Agent 与计算环境之间的关系。开发者和基础设施产品经理适合阅读。
Railway:面向智能体的原生云平台 - Jake Cooper(来源:Latent Space)
Railway 创始人 Jake Cooper 分享了从「零激活能量上线」的产品哲学,到构建裸金属数据中心、实现 70% 利润率的商业路径,再到为 AI Agent 时代重新设计基础设施的全过程。值得关注的是,Railway 在 2026 年 5 月经历了一次 GCP 大规模故障(即使采用了多 AZ、多 zone 架构),其事后复盘对理解 Agent 基础设施的高可用挑战很有参考价值。适合关注云基础设施和 Agent 平台建设的读者。
腾讯混元全新翻译模型 Hy-MT2 开源,小程序「腾讯 Hy 翻译」开放体验(来源:腾讯混元)
Hy-MT2 支持 33 种语言互译,7B 和 30B-A3B 模型达到开源最佳效果,超越几十倍参数量的模型。最有意思的是 1.8B 轻量版:得益于 AngelSlim 1.25-bit 极端量化,仅需 440MB 存储空间,可在手机芯片上本地推理,比 Hy-MT1.5 推理速度提升 1.5 倍,同时翻译质量超越微软等主流商业 API。已上线「腾讯 Hy 翻译」小程序,iOS 和安卓 APP 即将发布。
选择正确模型:LLM Evals 与优化的数据驱动指南(来源:Claude)
Anthropic 的 Lucas 分享了一套生产级 LLM 选型框架:核心包括自定义 eval 而非依赖公开 benchmark、过程级评分(不只看最终结果)、prompt caching、context hygiene,以及按「成功结果成本」而非「单次调用成本」来优化选型决策。对在生产环境做模型选型的工程师有直接参考价值。
Google 推出 Android CLI,让 Android 工具链对 AI 智能体更友好(来源:InfoQ)
Google 重新设计了 Android CLI,引入了结构化 Skills(SKILL.md 格式的模块化指令集)和集成知识库,使 AI 智能体能够更高效地访问 Android 工具链。声称与 Android Studio 内的 Agent 相比,构建速度提升 3 倍,Token 使用量减少 70%。兼容 Claude Code、Codex 等第三方 Agent。这个设计思路与 BestBlogs 自身的 skill 体系颇为相似,值得关注。
下一代大模型推理网络架构:ZCube 如何有效破解网络瓶颈?(来源:智谱)
智谱、驭驯网络与清华大学联合提出的 ZCube 组网架构,在 GLM-5.1 coding 生产环境中实现了成本降低 33%、吞吐提升 15%、TTFT P99 降低 40.6%。核心思路是用全网扁平化拓扑 + 单/多轨混合接入,替代传统 ROFT 架构,从结构层面解决 PD 分离推理中的不对称流量拥塞问题。GPU、软件栈和应用均未改动,纯粹靠架构调优实现跨越。运行大规模推理集群的工程团队值得参考。
苏姿丰上海开讲:AI 正在重新定义计算的每一层(来源:量子位)
AMD CEO 苏姿丰在 AMD AI 开发者大会上海站的核心判断:AI 竞争正从模型能力转向系统工程与全栈优化,Agent 时代的成本结构是指数级而非线性的,开发者需要的是「可落地、可优化、可持续演进的工程体系」。AMD 以开放生态和 ROCm 平台应对这一趋势。量子位现场报道,信息密度较高。
补充阅读 OpenAI 模型推翻 80 年数学猜想,AI 首次实现科学发现(来源:Wes Roth) OpenAI 内部推理模型自主推翻了 Paul Erdős 于 1946 年提出的平面单位距离猜想,通过桥接代数数论与初等几何构造出完整的反例族。这是 AI 驱动原创科学发现的一个里程碑时刻。关注 AI 在数学研究领域能力边界的读者值得一看。
OpenAI 单位距离问题突破:完整技术报告(来源:OpenAI Blog) 上一条 Twitter 所对应的 OpenAI 官方完整技术报告。模型构造的点集配置在多项式级别上超越了此前最优的方格构造,顶级数学家 Noga Alon 参与了同行评审。想了解技术细节的读者可以直接读原报告。
QQ 音乐 Harness Engineering 实践(来源:腾讯云开发者) 把 AI 协作从不可控的对话式编码升级为可控、可审计、可复用工程化过程的实践分享。在大仓多服务场景下,如何让 AI 具备自主验证能力是核心挑战。配合下面两篇「Harness Engineering」相关内容一起读效果更好。
构建最强 Agentic Analytics Harness:由 Claude 驱动,用 Claude Code 打造(来源:Claude) Omni CTO 讲解如何构建 Blobby 智能分析系统,涵盖语义层设计、evals 框架、split-brain agent 与直接 SQL 生成等架构经验。关注 AI 数据分析 Agent 工程化落地的读者适合观看。
A2I2 的讽刺性悖论(来源:InfoQ) 探讨自动化和 AI 在事件响应中的结构性困境:AI 提供了自主性和权威性,但缺乏定向注意力、可重定向性和可互预测性--而这些恰恰是人类协调最关键的特质。在高压情境下,这种缺失可能导致严重失败。对 SRE 和运维工程师有现实意义。
提示工程还不够--我构建了一个可在生产环境中运行的控制层(来源:Towards Data Science) 作者在第三次调试同一个崩溃后意识到:问题不在模型,在系统。他构建了一个包含 InputGuard、TokenBudget、PromptBuilder、ResponseValidator、CircuitBreaker、RetryEngine、FallbackRouter、AuditLogger 八个组件的控制层,将结构化输出基准测试通过率从 0% 提升到 100%。69 个测试、5 个可运行 demo,有完整代码。
都是 AI Coding,为什么 Java 体验差了一个量级?五条方法论帮你构建自己的 Harness 环境(来源:阿里云开发者) 深入分析了 Java 微服务项目在 AI Coding 中体验差的根本原因(本地跑不起来,AI 无法自主验证),并提出了通过 Harness Engineering 构建本地可运行环境的五条方法论。有 Checklist 和具体工程方案,对 Java 后端开发者非常实用。
发布 ADK for Kotlin 和 ADK for Android 0.1.0(来源:Google Developers Blog) Google 发布 Agent Development Kit for Kotlin 和 ADK for Android,使开发者可以构建混合 AI Agent,在云端模型(如 Gemini)和设备端 LLM(如 Gemini Nano)之间协调任务。Android 开发者和移动端 AI 应用方向值得关注。
合成人格预训练:从零标记开始的对齐(来源:LessWrong) 通过在预训练文档中附加带有价值判断的道德反思,从训练伊始就植入所需的 AI 助手人格,实现了攻击成功率降低 63%。这是一项 AI 安全领域的早期研究,证明预训练阶段植入的价值观能够在后训练阶段泛化到未见过的安全场景。关注 AI 对齐研究的读者适合阅读。
编码智能体的可维护性传感器(来源:Martin Fowler) Martin Fowler 通过实验多种传感器--从静态分析到 AI 驱动的模块化审查--帮助编码 Agent 自我修正并维护代码库的可维护性。当 Agent 生成代码的速度越来越快时,如何确保长期可维护性是一个值得认真对待的工程问题。
来自 Codex 官方团队的分享:如何把 Codex 用到极致(来源:宝玉的分享) 系统介绍如何利用 Codex 的持久对话流、语音输入、任务干预、自动化、目标设定和侧边栏等高级功能,将其从编程助手升级为全能工作流引擎。Jason 原文的中文翻译版,内容实用。
Ramp 工程师如何借助 Codex 加速代码审查(来源:OpenAI Blog) Ramp 使用 GPT-5.5 驱动的 Codex 将 PR 代码审查时间从数小时缩短至数分钟,核心价值在于「能捕捉人类和其他 AI 工具都遗漏的问题」。配合上一条 Codex 使用指南一起看效果更佳。
当 Agent 真正走进复杂数据分析场景:DataClawBench(来源:AI 前线) 基于 492 个真实金融智库任务的数据分析评测基准,通过保留未清洗数据和隐藏数据源先验,对前沿大模型进行过程级评估。结论是:当前 Agent 在开放式真实数据分析场景中的能力边界,远比 demo 演示的要窄。
LLM 主题并非观察结果(来源:Towards Data Science) LLM 从文本中提取的主题是「生成的变量」而非直接观察结果。在因果分析中,若未解决选择偏差、测量误差等问题而直接用作协变量,会引入严重偏差。对做数据分析和因果推断的研究者有直接警示意义。
在 VS Code 中烹饪 Agents(来源:AI Engineer) Microsoft 的 Liam Hampton 讲解 VS Code 如何成为 local、background 和 cloud agents 的统一控制平面,把 multi-agent workflow、安全边界、MCP 上下文和开发者监督结合起来。VS Code 用户和 Agent 开发者适合观看。
会自动交易的交易信号:在系统化投资中规模化受治理的 AI(来源:Claude) Man Group 数据与 AI 负责人讲解一家管理超过 2000 亿美元资产的受监管投资机构,如何在系统化交易中构建可治理的 AI--包括生产级 AI 交易信号、skills 治理框架,以及「组织上下文作为 AI 护城河」的战略视角。高度监管行业的 AI 落地案例,视角独特。
今日阅读路径 今天内容量偏大,如果你时间有限,建议按照以下路径选读:
先读「精讲三:自动化之后」。Dan Shipper 的文章是今天最具思想冲击力的一篇,它提供了一个反直觉但有大量实地数据支撑的分析框架--关于 AI 与人类工作的关系,这是比大多数预测文章都更诚实的一个视角。
读「精讲一:Memory 与 Dreaming」,然后搭配速览中的 Daytona 和 ZCube 两篇。这三篇合在一起,覆盖了 Agent 的记忆层(Anthropic 原语)、计算环境层(Daytona)和网络基础设施层(ZCube),是一条完整的 Agent 基础设施视角。
读「精讲二:Qwen3.7-Max」。35 小时 1158 次工具调用零中断这个数字,已经足够说明问题的性质--这不是 benchmark 刷分,而是真实硬件上的生产级验证,代表着国内大模型竞争正式进入了一个新的阶段。
补充:如果你是开发者,在用 AI Coding 工具
补充阅读中的 Java Harness Engineering、Codex 官方使用指南、QQ 音乐 Harness 实践这三篇可以组合成一个「AI Coding 工程化」专题,非常实用,适合在上下班通勤时集中阅读。