# GLM-5.2 开源、AI 化学家、对话闫俊杰

- 来源：ginobefun (@hongming731)
- 发布时间：2026-06-18 07:23
- AIHOT 分数：54
- AIHOT 链接：https://aihot.virxact.com/items/cmqiqjc6l03cisl5wveorhdby
- 原文链接：https://x.com/hongming731/status/2067387766993035321

## AI 摘要

智谱开源 GLM-5.2，Code Arena 全球可用模型第一，Solid 1M 无损上下文，FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria，近乎自主优化 Chan-Lam 偶联反应，平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍，M3 目标让用户无限使用 Sonnet/Opus 级别模型。

## 正文

http://x.com/i/article/2067387524339929088

# BestBlogs 早报 · 06-18|GLM-5.2 开源、AI 化学家、对话闫俊杰

在线阅读本期早报

## 导语

智谱 GLM-5.2 今天上线并开源，凭 Solid 1M 上下文把长程编程能力拉进开源模型第一梯队；OpenAI 让 GPT-5.4 与化学实验室协作，近乎自主跑通了一个药物合成关键反应的优化；MiniMax 创始人闫俊杰则在一场访谈里谈到 M3、10X 计划、10T 模型路线图，以及他眼中智能的终局形态。三条主线问的其实是同一个问题：模型到底能不能独立把一件复杂的事情做完，而不只是给出建议--无论是软件工程里的一整个长程任务，还是真实实验室里的一轮科研协作，衡量标准都正在从"说得对"转向"做得完"。除此之外，OpenAI 2025 年财报曝光、Claude Design 品牌一致性升级、淘宝主播 Agent 的 Harness 工程实战、NVIDIA 机器人自主科研系统、A2UI 与 MCP Apps 的融合方案，以及字节跳动 AI 业务的真实账本，共同构成了今天值得关注的全景。

## 精讲一：GLM-5.2 上线并开源：专注 Coding 与长程任务

智谱今天正式上线并开源 GLM-5.2，在全球百万用户参与盲测的前端开发评估系统 Code Arena 上，拿到了全球可用模型第一的成绩。这不是一次普通的版本迭代：从 2025 年初开始，智谱几乎把全部力量投入 Coding 攻关，先有 GLM-4.5 打下代码基座，再到 GLM-4.7 成为效果最好的国产 Coding 模型，如今 GLM-5.2 把目标对准了比写代码更难的能力--长程任务，也就是连续数天、数周甚至数月不间断地推进一项工程。

支撑长程任务的关键是 Solid 1M 无损上下文。此前业界的 1M 上下文方案大多在超过数百 K 之后就开始劣化，原因是只扩展上下文长度，却没有同步增强 Coding Agent 的训练环境与数据。智谱花了几个月时间专门扩展面向 1M 长度的 Coding Agent 训练环境，覆盖自动化研究、性能优化等多个领域，使 GLM-5.2 在 1M 上下文下的表现保持稳定，部分场景甚至超过 Claude Opus。在 FrontierSWE（衡量 AI 能否像软件工程师一样在数小时尺度完成复杂技术项目）上，GLM-5.2 仅比 Opus 4.8 低 1%，超过了 GPT-5.5 与 Opus 4.7；不过在考察超长自主工程能力的 SWE-Marathon 上，与 Opus 4.8 还有 13% 的差距，说明长程任务的"持久力"仍是下一阶段的重点。

最直观的例子是一次实测：GLM-5.2 完成了从开发、联调、测试到打包上线的全流程，独立交付了一个覆盖 Web、移动端与小程序的多端应用，累计处理了近 88 万 tokens，几乎用满整个 1M 上下文窗口。过去这种规模的工程往往需要一支团队协作数周，现在压缩进了一次长程任务里。能力提升背后是架构、推理系统与训练基础设施的协同优化：IndexShare 让相邻稀疏注意力层复用同一个索引器，在 1M 上下文下把单位 token 的 FLOPs 降低到 2.9 倍；改进后的投机解码层把接受长度最多提升 20%。模型 Day 0 就完成了对华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯等多家国产算力平台的推理适配，并以 MIT 协议全开源、无地域限制，开发者可以自由下载、部署和商用。

在主流编程基准上，GLM-5.2 同样保持开源 SOTA，与 Claude Opus 4.8 处于可比区间：Terminal-Bench 2.1（评测 AI Agent 完成各类计算机终端任务）上比 Opus 4.8 低 4%，但相比上一代 GLM-5.1 提升了 17.5%；在大规模工具调用评测 MCP-Atlas 上，与 Opus 4.8 的差距只有 0.8%。智谱在正式发布前，已经把模型提前开放给数十万 GLM Coding Plan 开发者实测，反馈集中在四点：项目级上下文承载更强，能把完整工程放进同一条推理链路；长程任务执行更稳定，复杂任务不容易跑偏；生产级工程规范遵循更可靠；客户端与移动端工程能力更扎实，能完成真机调试闭环。模型还引入了 effort level（思考档位）控制，方便开发者在能力、速度与成本之间自己取舍。智谱也把目标摆在了 GLM-5.2 之后：下一座要翻越的山是完全自治的智能体系统，让 AI 能够自主驱动、协同作业、7×24 小时运转，团队称之为从"智能助手"走向"数字员工"的转变，但 Memory、持续学习、自我评判等核心技术还需要继续攻关。

这条新闻和今天另外两条深读放在一起看会更清楚：当 GLM-5.2 在用长上下文死磕"能不能把一整个工程独立跑完"，OpenAI 的 AI 化学家在用真实实验室验证"能不能独立把一项科研任务跑完"，闫俊杰在访谈里谈的则是"模型变强之后，行业要往哪走"。如果你关心国产大模型在长程任务上的真实进度，这条值得通读全文，尤其是关于 1M 上下文训练方法和 SWE-Marathon 差距的部分。详见：GLM-5.2 上线并开源：专注 Coding 与长程任务。

## 精讲二：近乎自主的 AI 化学家改进药物化学中的一项挑战性反应

OpenAI 这次把 GPT-5.4 接入了 Molecule.one 旗下的智能化学 AI Maria，以及与之配套的高通量实验室，给了它一个开放式目标：改进药物合成中常用的几类关键反应之一。系统自己提出研究方案、设计并执行实验、分析数据，再提出下一轮实验建议；人类化学家的角色是设计引导与评分提示、挑选要测试的方案、对实验计划做有限修正，并独立验证最终结果--OpenAI 把这种模式称为"近乎自主"，而不是"完全自主"。

最有价值的方案聚焦在 Chan-Lam 偶联反应的一个高难度版本上，这是化学家用来构建碳氮键的常用反应。GPT-5.4 从"改进 Chan-Lam 偶联反应"这个开放目标出发，自己识别出原代磺胺类底物是一类难度高但价值大的反应对象，并提出用 TEMPO 等温和氧化剂来提升反应表现。在 Maria 实验室的两轮实验中，这个想法被验证有效：优化条件下，88% 的硼酸底物和 83% 的磺胺底物产率都有提升，平均产率从 16.6% 升至 25.2%，产率超过 30% 的反应占比从 15.6% 提高到 37.5%。这一轮实验总共跑了 10080 次反应，相当于一名化学家每天做三个实验、连续十年才能积累的实验量。

更关键的是，这个结果没有止步于微升级实验室的筛选数据。人类化学家随后在台架规模上重复了具有代表性的反应，结果证实了微升级实验的结论：14 组底物对中有 11 组产率提升，大多数还翻了一倍以上。这一点很重要，因为药物化学家需要的是能在真实实验室工作流程中复现的反应，而不只是在微升筛选里好看的数字。磺胺基团出现在抗癌药、抗菌药、利尿剂等多个治疗领域的药物里，但原代磺胺与硼酸的 Chan-Lam 偶联历史上产率一直偏低，这次的改进有机会让药物化学家获得一条更可靠、更实用的分子合成路径。

这次合作也延续了 OpenAI 在科学领域的一条长期主线：此前模型已经在数学（单位距离问题的反例）、理论物理（胶子振幅的新结果）和生物学（GPT-5 帮助降低无细胞蛋白合成成本）上贡献过具体成果，OpenAI 还推出过专门面向生命科学研究与药物发现流程的模型 GPT-Rosalind。这次和 Molecule.one 的合作把这条主线延伸到了药物化学这个特别依赖实验验证、而不能只靠推理的领域--一个假设必须真的在分子、仪器和实验噪声构成的真实世界里站得住才算数。整个项目历时三个月，期间四位外部化学专家审阅了描述这一结果的预印本，认为结论新颖、值得与科学界分享，同时也指出更强的检验将来自后续在更大规模合成中的复现。OpenAI 也坦言这只是一个早期结果，但它为"AI 能不能成为科研全流程的真正合作者"提供了一个具体例证。

把这条新闻和精讲一放在一起读会有意思的对照：GLM-5.2 验证的是模型在软件工程领域的长程自主能力，AI 化学家验证的则是模型在物理世界、需要真实实验验证的科研场景里的自主能力--后者更难，因为假设必须在分子、仪器和实验噪声构成的真实世界里站得住。如果你对 AI 与科学发现的结合感兴趣，这篇值得细看实验规模与产率数据部分。详见：近乎自主的 AI 化学家改进药物化学中的一项挑战性反应。

## 精讲三：对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

上周六的 MiniMax Dev Meetup 上，创始人兼 CEO 闫俊杰（IO）参加了一场圆桌对话，同台的还有 Multica 创始人张佳圆、DeerFlow 核心负责人何涛，以及一家上市金融公司的技术负责人虞扬。这篇文章是现场对话的完整实录，信息密度很高，但最值得抓住的是闫俊杰关于模型路线和智能终局的几段判断。

谈到从 M1 到 M3 的进展，闫俊杰用通用消耗量作为客观指标回顾：M1 效果其实不够好，但团队在那时第一次跑通强化学习，体验到了"后背发凉"的震撼；M2 原计划做到日消耗一亿 token 就满意，结果在 M2.7 跑出了超出预期 10 倍的消耗量。到了 M3，目标更激进--让用户可以无限制、不计成本地用上 Sonnet 和 Opus 级别的模型，闫俊杰说团队"现在已经非常接近这个临界点了"。一旦达成，叠加行业大盘的增长，通用消耗量会进入一个全新量级。他也坦言 M2 阶段两个没达预期的目标：多模态没做成、模型没能在编程场景里直接充当主引擎；但 M2 后来意外地在 OpenClaw 等各种 Agent 生态里找到了自己的位置，这也是闫俊杰反复强调"行业生态比单点能力更重要"的一个例证。

座谈中提到的上月启动的 10X 计划，邀请网络安全、金融、法律等垂直领域专家深度参与模型打磨，目的是让模型能力真正贴合专业场景的实际需求，而不是停留在通用对话层面。再往后看，闫俊杰提到下一步要攻克 10T 参数规模的模型--他直言国内模型的规模比美国同类模型小一个数量级，需要先把 3T 规模做实，再向 10T 迈进，而最大的卡点不是物理瓶颈，是工程积累。这与精讲一里 GLM-5.2 强调的"训练基础设施协同优化"形成呼应：扩规模和提升长程任务能力，本质上都在比拼同一类工程硬功夫。

同台嘉宾的发言也很有参考价值。Multica 创始人张佳圆谈到，团队不再寄希望于单一模型的完美，而是尝试设计一个系统，把不同模型、不同 Agent 的能力聚合起来，比如让 M3 做 Coding，同时引入 Opus 或 GPT 这类模型做 Review 或当"导师"，在 token 消耗和产出质量之间找平衡--这其实和今天补充阅读里 OpenRouter Fusion 的多模型合议思路是同一个方向。DeerFlow 核心负责人何涛分享了开源项目如何用中国模型把 Deep Research 这类原本昂贵的能力价格打下来，目前已有超过 1000 名贡献者参与。金融公司技术负责人虞扬则谈到，AI 在金融场景里真正的价值不只是帮用户过滤信息，更要降低专业理解的门槛--不仅要告诉用户一个指标是多少，还要告诉用户这个数字对其投资决策意味着什么。对智能的终局，闫俊杰的判断是端到端交付结果，而不是给出建议--让模型直接修复漏洞、直接做出金融决策，这与精讲二里 AI 化学家"近乎自主"地跑完一整轮研究流程，方向是一致的。如果你只有时间挑一段精读，建议读到闫俊杰谈 M3 临界点和 10T 模型卡点的部分。详见：对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局。

## 速览

独家：OpenAI 2025 年财报显示收入 130 亿美元，成本 340 亿美元。Ed Zitron 拿到了 OpenAI 2024 与 2025 年的审计财报，披露 2025 年收入为 130.7 亿美元，成本却高达 340 亿美元，其中 8.67 亿美元来自软银投资、3.03 亿美元来自微软。这组数字第一次把 OpenAI 真实的盈亏结构摆在公开视野里，和今天关于字节 AI 账本的报道放在一起看，能感受到整个行业在算力成本和商业化之间的紧张关系。详见：独家：OpenAI 2025 年财报显示收入 130 亿美元，成本 340 亿美元。

Claude Design 日常工作中更稳定地保持品牌一致性。Claude Design 现在能跟项目里的设计系统保持一致，可以从 GitHub 仓库、设计文件或原始上传中导入一个或多个设计系统，与 Claude Code 之间的协作也更顺畅，支持直接在画布上编辑，并新增了管理员角色来锁定团队设计规范，方便大团队统一品牌标准。官方数据显示上线第一周就有超过一百万人使用 Claude Design，这次更新主要是把早期反馈转化为更稳的日常使用体验。详见：Claude Design 日常工作中更稳定地保持品牌一致性。

更可靠的主播助理：淘宝主播 Agent 的 Harness 工程实战。文章系统拆解了在直播这种高压力场景下，如何用执行循环、工具注册、上下文管理、状态存储、生命周期钩子和评估接口这六个维度，把不确定的模型能力工程化成一个真正可用、可控、能持续演化的生产系统。直播场景的特殊之处在于操作即时生效且面向公众、主播注意力极度稀缺、多话题高频交织、会话动辄持续数小时还要支持中断后精确续连，这让 Harness 工程的要求比"个人助手"形态严苛得多。文章还提出框架层与业务层要划清责任边界：业务方只需要以 Skill 的形式声明能力和风险等级，剩下的安全防护、状态持久化、可观测性全部由框架兜底，是一篇少见的来自真实高压业务场景的工程实践总结。详见：更可靠的主播助理：淘宝主播 Agent 的 Harness 工程实战。

NVIDIA GEAR 实验室发布 ENPIRE：AI 编程 Agent 自主操控真实机器人做实验。由 Jim Fan 联合领导的 NVIDIA GEAR 实验室联合 CMU、UC Berkeley 推出 ENPIRE 系统，首次在物理世界里实现了 AI 自主科研的完整闭环：一组 AI 编程 Agent 自主管理机器人集群、GPU 资源和 token 预算，自动完成环境搭建、策略改进、真实机器人实验和失败分析迭代，人类只需要看报告。项目测试了 OpenAI Codex、Anthropic Claude Code 和月之暗面 Kimi Code 三款 Agent，并发现了"物理 scaling law"：8 台机器人并行探索的效率明显高于 1 台或 4 台。详见：NVIDIA GEAR 实验室发布 ENPIRE：AI 编程 Agent 自主操控真实机器人做实验。

A2UI + MCP Apps：融合声明式与自定义智能体 UI 的最佳实践。来自 Google Developers Blog 的文章提出三种架构模式，把 A2UI 的声明式原生渲染界面和 MCP Apps 基于 iframe 的自定义界面结合起来，试图同时拿到安全性、性能与视觉一致性。文章详细给出了实现指南和示例代码，是目前少见的把两套智能体 UI 范式系统对比并融合的实践方案。详见：A2UI + MCP Apps：融合声明式与自定义智能体 UI 的最佳实践。

当你的 AI 智能体扩展互相争斗时。这是 Microsoft for Developers 一个系列的第四篇，讨论一个容易被忽视的问题：单独测试时表现良好的 AI 编程智能体扩展，装在一起之后反而会让整体效果变差，因为扩展之间会争夺上下文窗口空间和模型注意力，引发语义冲突或资源竞争。文章提供了一套衡量和缓解这类组合问题的实用框架，对正在开发或维护多个 Agent 扩展的团队很有参考价值。详见：当你的 AI 智能体扩展互相争斗时。

字节跳动的 AI 账本：豆包每天不足百万收入、Seedance 毛利 70%。《晚点 LatePost》独家披露字节跳动 AI 业务的真实财务数据：日活超 2 亿的豆包每天收入不足百万元，主要靠电商佣金，但豆包应用每天消耗的算力成本已达数千万元，仅维持豆包正常运行的花费就超过了整个 Bilibili 的经营成本。相比之下，视频生成模型 Seedance 年化收入已达 20 亿美元、毛利率 70%，单月收入超 10 亿元，几乎抵消了豆包的算力成本。文章透露字节高层两个月前到访 Anthropic 后，开始把 AI 资源重心从豆包这类大众产品转向服务企业的产品，大模型数据审核团队今年也从约 1500 人扩到 3000 多人，专门为编程模型清洗训练数据。详见：字节跳动的 AI 账本：豆包每天不足百万收入、Seedance 毛利 70%。

## 补充阅读

面向 Skills 编程：淘宝企业购端对端研发提效实践--提出把领域知识、工作流和约束规则封装成可版本化的 Skills 单元，让 LLM 在确定性框架内生成代码，实测交付周期缩短 65%。适合关注企业级 Agent 工程化落地的读者。详见：面向 Skills 编程-淘宝企业购端对端研发提效实践。

OpenRouter Fusion：从模型路由到复合智能栈--分析 OpenRouter Fusion 如何把多模型合议封装成 API 原语：同一个问题并行发送给一组模型面板，每个模型独立分析，再由 judge 模型产出共识、分歧、覆盖盲区等结构化审议结果，外层模型基于这份报告写出最终答案。这标志着 LLM 应用架构从单模型调用走向复合推理编排，核心价值不是更便宜地调用最强模型，而是用额外的推理时计算换取更高质量和更强的分歧诊断能力。适合关心多模型协同架构设计的读者，也可以和精讲三里张佳圆谈到的多模型系统拟合实践对照着读。详见：OpenRouter Fusion：从模型路由到复合智能栈。

大疆还能低空飞多久？--深度拆解大疆如何靠无人机和云台相机两大品类定义实现年利润超 200 亿，从产品矩阵、第二增长曲线、全球化能力和组织风险几个角度分析它在地缘政治、新品类拓展和人才流失上面临的挑战。适合关注中国硬件出海与品类竞争的读者。详见：大疆还能低空飞多久？。

Cursor，为什么上了马斯克的飞船？--报道 SpaceX 以 600 亿美元全股票交易收购 AI 编程公司 Cursor 母公司 Anysphere，梳理交易背景、Cursor 的创业历程及其与 Anthropic 的竞合关系。适合关注 AI 编程赛道格局变化的读者。详见：Cursor，为什么上了马斯克的飞船？。

## 今日阅读路径

如果今天时间有限，建议按这个顺序读：第一，精讲一的 GLM-5.2，了解开源模型在长程编程任务上能做到什么程度，重点看 1M 上下文的训练方法和实测中独立交付多端应用的例子；第二，精讲三对话闫俊杰，理解头部大模型公司怎么看待规模、生态与智能终局，重点看 M3 临界点、10X 计划和 10T 模型卡点这几段判断；第三，精讲二的 AI 化学家，看看自主智能从代码世界延伸到真实实验室之后是什么样子，重点看产率数据和台架验证部分。三篇连起来读，正好是今天"模型能不能独立把事情做完"这条主线在软件工程、行业生态、科学发现三个领域的不同切片。

如果还有余力，再补两篇：一篇是字节跳动的 AI 账本，从商业化的角度回看这条主线背后的真实代价--豆包的算力成本有多高、Seedance 的企业服务有多赚钱；另一篇是淘宝主播 Agent 的 Harness 工程实战，从工程落地的角度看一个真实高压场景里，模型能力是怎样被一步步约束成可控、可观测的生产系统的。这五篇加在一起，基本能拼出今天 AI 行业从模型能力、行业生态、商业化到工程落地的完整链路。

BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂，并逐渐理解你关注什么。
