BestBlogs 早报 · 06-18|GLM-5.2 开源、AI 化学家、对话闫俊杰

在线阅读本期早报

导语

智谱 GLM-5.2 今天上线并开源，凭 Solid 1M 上下文把长程编程能力拉进开源模型第一梯队；OpenAI 让 GPT-5.4 与化学实验室协作，近乎自主跑通了一个药物合成关键反应的优化；MiniMax 创始人闫俊杰则在一场访谈里谈到 M3、10X 计划、10T 模型路线图，以及他眼中智能的终局形态。三条主线问的其实是同一个问题：模型到底能不能独立把一件复杂的事情做完，而不只是给出建议--无论是软件工程里的一整个长程任务，还是真实实验室里的一轮科研协作，衡量标准都正在从"说得对"转向"做得完"。除此之外，OpenAI 2025 年财报曝光、Claude Design 品牌一致性升级、淘宝主播 Agent 的 Harness 工程实战、NVIDIA 机器人自主科研系统、A2UI 与 MCP Apps 的融合方案，以及字节跳动 AI 业务的真实账本，共同构成了今天值得关注的全景。

精讲一：GLM-5.2 上线并开源：专注 Coding 与长程任务

智谱今天正式上线并开源 GLM-5.2，在全球百万用户参与盲测的前端开发评估系统 Code Arena 上，拿到了全球可用模型第一的成绩。这不是一次普通的版本迭代：从 2025 年初开始，智谱几乎把全部力量投入 Coding 攻关，先有 GLM-4.5 打下代码基座，再到 GLM-4.7 成为效果最好的国产 Coding 模型，如今 GLM-5.2 把目标对准了比写代码更难的能力--长程任务，也就是连续数天、数周甚至数月不间断地推进一项工程。

支撑长程任务的关键是 Solid 1M 无损上下文。此前业界的 1M 上下文方案大多在超过数百 K 之后就开始劣化，原因是只扩展上下文长度，却没有同步增强 Coding Agent 的训练环境与数据。智谱花了几个月时间专门扩展面向 1M 长度的 Coding Agent 训练环境，覆盖自动化研究、性能优化等多个领域，使 GLM-5.2 在 1M 上下文下的表现保持稳定，部分场景甚至超过 Claude Opus。在 FrontierSWE（衡量 AI 能否像软件工程师一样在数小时尺度完成复杂技术项目）上，GLM-5.2 仅比 Opus 4.8 低 1%，超过了 GPT-5.5 与 Opus 4.7；不过在考察超长自主工程能力的 SWE-Marathon 上，与 Opus 4.8 还有 13% 的差距，说明长程任务的"持久力"仍是下一阶段的重点。

最直观的例子是一次实测：GLM-5.2 完成了从开发、联调、测试到打包上线的全流程，独立交付了一个覆盖 Web、移动端与小程序的多端应用，累计处理了近 88 万 tokens，几乎用满整个 1M 上下文窗口。过去这种规模的工程往往需要一支团队协作数周，现在压缩进了一次长程任务里。能力提升背后是架构、推理系统与训练基础设施的协同优化：IndexShare 让相邻稀疏注意力层复用同一个索引器，在 1M 上下文下把单位 token 的 FLOPs 降低到 2.9 倍；改进后的投机解码层把接受长度最多提升 20%。模型 Day 0 就完成了对华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯等多家国产算力平台的推理适配，并以 MIT 协议全开源、无地域限制，开发者可以自由下载、部署和商用。

在主流编程基准上，GLM-5.2 同样保持开源 SOTA，与 Claude Opus 4.8 处于可比区间：Terminal-Bench 2.1（评测 AI Agent 完成各类计算机终端任务）上比 Opus 4.8 低 4%，但相比上一代 GLM-5.1 提升了 17.5%；在大规模工具调用评测 MCP-Atlas 上，与 Opus 4.8 的差距只有 0.8%。智谱在正式发布前，已经把模型提前开放给数十万 GLM Coding Plan 开发者实测，反馈集中在四点：项目级上下文承载更强，能把完整工程放进同一条推理链路；长程任务执行更稳定，复杂任务不容易跑偏；生产级工程规范遵循更可靠；客户端与移动端工程能力更扎实，能完成真机调试闭环。模型还引入了 effort level（思考档位）控制，方便开发者在能力、速度与成本之间自己取舍。智谱也把目标摆在了 GLM-5.2 之后：下一座要翻越的山是完全自治的智能体系统，让 AI 能够自主驱动、协同作业、7×24 小时运转，团队称之为从"智能助手"走向"数字员工"的转变，但 Memory、持续学习、自我评判等核心技术还需要继续攻关。

ginobefun@hongming731 · X

54导出 Markdown

2026-06-18 07:23·15天前

在 X 看原推· x.com

AI 摘要

智谱开源 GLM-5.2，Code Arena 全球可用模型第一，Solid 1M 无损上下文，FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria，近乎自主优化 Chan-Lam 偶联反应，平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍，M3 目标让用户无限使用 Sonnet/Opus 级别模型。

http://x.com/i/article/2067387524339929088

BestBlogs 早报 · 06-18|GLM-5.2 开源、AI 化学家、对话闫俊杰

在线阅读本期早报

BestBlogs 早报 · 06-18|GLM-5.2 开源、AI 化学家、对话闫俊杰

导语

精讲一：GLM-5.2 上线并开源：专注 Coding 与长程任务

BestBlogs 早报 · 06-18|GLM-5.2 开源、AI 化学家、对话闫俊杰

导语

精讲一：GLM-5.2 上线并开源：专注 Coding 与长程任务

精讲二：近乎自主的 AI 化学家改进药物化学中的一项挑战性反应

精讲三：对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

速览

补充阅读

今日阅读路径

精讲二：近乎自主的 AI 化学家改进药物化学中的一项挑战性反应

精讲三：对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局

速览

补充阅读

今日阅读路径