GLM-5.2 开源、AI 化学家、对话闫俊杰 · AI HOT
ginobefun @hongming731 54
2026-06-18 07:23 ·15天前
AI 摘要 智谱开源 GLM-5.2,Code Arena 全球可用模型第一,Solid 1M 无损上下文,FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria,近乎自主优化 Chan-Lam 偶联反应,平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍,M3 目标让用户无限使用 Sonnet/Opus 级别模型。
ginobefun @hongming731 · X 2026-06-18 07:23 · 15天前
在 X 看原推 · x.com AI 摘要 智谱开源 GLM-5.2,Code Arena 全球可用模型第一,Solid 1M 无损上下文,FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria,近乎自主优化 Chan-Lam 偶联反应,平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍,M3 目标让用户无限使用 Sonnet/Opus 级别模型。
这条新闻和今天另外两条深读放在一起看会更清楚:当 GLM-5.2 在用长上下文死磕"能不能把一整个工程独立跑完",OpenAI 的 AI 化学家在用真实实验室验证"能不能独立把一项科研任务跑完",闫俊杰在访谈里谈的则是"模型变强之后,行业要往哪走"。如果你关心国产大模型在长程任务上的真实进度,这条值得通读全文,尤其是关于 1M 上下文训练方法和 SWE-Marathon 差距的部分。详见:GLM-5.2 上线并开源:专注 Coding 与长程任务。
精讲二:近乎自主的 AI 化学家改进药物化学中的一项挑战性反应 OpenAI 这次把 GPT-5.4 接入了 Molecule.one 旗下的智能化学 AI Maria,以及与之配套的高通量实验室,给了它一个开放式目标:改进药物合成中常用的几类关键反应之一。系统自己提出研究方案、设计并执行实验、分析数据,再提出下一轮实验建议;人类化学家的角色是设计引导与评分提示、挑选要测试的方案、对实验计划做有限修正,并独立验证最终结果--OpenAI 把这种模式称为"近乎自主",而不是"完全自主"。
最有价值的方案聚焦在 Chan-Lam 偶联反应的一个高难度版本上,这是化学家用来构建碳氮键的常用反应。GPT-5.4 从"改进 Chan-Lam 偶联反应"这个开放目标出发,自己识别出原代磺胺类底物是一类难度高但价值大的反应对象,并提出用 TEMPO 等温和氧化剂来提升反应表现。在 Maria 实验室的两轮实验中,这个想法被验证有效:优化条件下,88% 的硼酸底物和 83% 的磺胺底物产率都有提升,平均产率从 16.6% 升至 25.2%,产率超过 30% 的反应占比从 15.6% 提高到 37.5%。这一轮实验总共跑了 10080 次反应,相当于一名化学家每天做三个实验、连续十年才能积累的实验量。
更关键的是,这个结果没有止步于微升级实验室的筛选数据。人类化学家随后在台架规模上重复了具有代表性的反应,结果证实了微升级实验的结论:14 组底物对中有 11 组产率提升,大多数还翻了一倍以上。这一点很重要,因为药物化学家需要的是能在真实实验室工作流程中复现的反应,而不只是在微升筛选里好看的数字。磺胺基团出现在抗癌药、抗菌药、利尿剂等多个治疗领域的药物里,但原代磺胺与硼酸的 Chan-Lam 偶联历史上产率一直偏低,这次的改进有机会让药物化学家获得一条更可靠、更实用的分子合成路径。
这次合作也延续了 OpenAI 在科学领域的一条长期主线:此前模型已经在数学(单位距离问题的反例)、理论物理(胶子振幅的新结果)和生物学(GPT-5 帮助降低无细胞蛋白合成成本)上贡献过具体成果,OpenAI 还推出过专门面向生命科学研究与药物发现流程的模型 GPT-Rosalind。这次和 Molecule.one 的合作把这条主线延伸到了药物化学这个特别依赖实验验证、而不能只靠推理的领域--一个假设必须真的在分子、仪器和实验噪声构成的真实世界里站得住才算数。整个项目历时三个月,期间四位外部化学专家审阅了描述这一结果的预印本,认为结论新颖、值得与科学界分享,同时也指出更强的检验将来自后续在更大规模合成中的复现。OpenAI 也坦言这只是一个早期结果,但它为"AI 能不能成为科研全流程的真正合作者"提供了一个具体例证。
把这条新闻和精讲一放在一起读会有意思的对照:GLM-5.2 验证的是模型在软件工程领域的长程自主能力,AI 化学家验证的则是模型在物理世界、需要真实实验验证的科研场景里的自主能力--后者更难,因为假设必须在分子、仪器和实验噪声构成的真实世界里站得住。如果你对 AI 与科学发现的结合感兴趣,这篇值得细看实验规模与产率数据部分。详见:近乎自主的 AI 化学家改进药物化学中的一项挑战性反应。
精讲三:对话 MiniMax 闫俊杰:M3、10X 计划、10T 模型、和智能的终局 上周六的 MiniMax Dev Meetup 上,创始人兼 CEO 闫俊杰(IO)参加了一场圆桌对话,同台的还有 Multica 创始人张佳圆、DeerFlow 核心负责人何涛,以及一家上市金融公司的技术负责人虞扬。这篇文章是现场对话的完整实录,信息密度很高,但最值得抓住的是闫俊杰关于模型路线和智能终局的几段判断。
谈到从 M1 到 M3 的进展,闫俊杰用通用消耗量作为客观指标回顾:M1 效果其实不够好,但团队在那时第一次跑通强化学习,体验到了"后背发凉"的震撼;M2 原计划做到日消耗一亿 token 就满意,结果在 M2.7 跑出了超出预期 10 倍的消耗量。到了 M3,目标更激进--让用户可以无限制、不计成本地用上 Sonnet 和 Opus 级别的模型,闫俊杰说团队"现在已经非常接近这个临界点了"。一旦达成,叠加行业大盘的增长,通用消耗量会进入一个全新量级。他也坦言 M2 阶段两个没达预期的目标:多模态没做成、模型没能在编程场景里直接充当主引擎;但 M2 后来意外地在 OpenClaw 等各种 Agent 生态里找到了自己的位置,这也是闫俊杰反复强调"行业生态比单点能力更重要"的一个例证。
座谈中提到的上月启动的 10X 计划,邀请网络安全、金融、法律等垂直领域专家深度参与模型打磨,目的是让模型能力真正贴合专业场景的实际需求,而不是停留在通用对话层面。再往后看,闫俊杰提到下一步要攻克 10T 参数规模的模型--他直言国内模型的规模比美国同类模型小一个数量级,需要先把 3T 规模做实,再向 10T 迈进,而最大的卡点不是物理瓶颈,是工程积累。这与精讲一里 GLM-5.2 强调的"训练基础设施协同优化"形成呼应:扩规模和提升长程任务能力,本质上都在比拼同一类工程硬功夫。
同台嘉宾的发言也很有参考价值。Multica 创始人张佳圆谈到,团队不再寄希望于单一模型的完美,而是尝试设计一个系统,把不同模型、不同 Agent 的能力聚合起来,比如让 M3 做 Coding,同时引入 Opus 或 GPT 这类模型做 Review 或当"导师",在 token 消耗和产出质量之间找平衡--这其实和今天补充阅读里 OpenRouter Fusion 的多模型合议思路是同一个方向。DeerFlow 核心负责人何涛分享了开源项目如何用中国模型把 Deep Research 这类原本昂贵的能力价格打下来,目前已有超过 1000 名贡献者参与。金融公司技术负责人虞扬则谈到,AI 在金融场景里真正的价值不只是帮用户过滤信息,更要降低专业理解的门槛--不仅要告诉用户一个指标是多少,还要告诉用户这个数字对其投资决策意味着什么。对智能的终局,闫俊杰的判断是端到端交付结果,而不是给出建议--让模型直接修复漏洞、直接做出金融决策,这与精讲二里 AI 化学家"近乎自主"地跑完一整轮研究流程,方向是一致的。如果你只有时间挑一段精读,建议读到闫俊杰谈 M3 临界点和 10T 模型卡点的部分。详见:对话 MiniMax 闫俊杰:M3、10X 计划、10T 模型、和智能的终局。
速览 独家:OpenAI 2025 年财报显示收入 130 亿美元,成本 340 亿美元。Ed Zitron 拿到了 OpenAI 2024 与 2025 年的审计财报,披露 2025 年收入为 130.7 亿美元,成本却高达 340 亿美元,其中 8.67 亿美元来自软银投资、3.03 亿美元来自微软。这组数字第一次把 OpenAI 真实的盈亏结构摆在公开视野里,和今天关于字节 AI 账本的报道放在一起看,能感受到整个行业在算力成本和商业化之间的紧张关系。详见:独家:OpenAI 2025 年财报显示收入 130 亿美元,成本 340 亿美元。
Claude Design 日常工作中更稳定地保持品牌一致性。Claude Design 现在能跟项目里的设计系统保持一致,可以从 GitHub 仓库、设计文件或原始上传中导入一个或多个设计系统,与 Claude Code 之间的协作也更顺畅,支持直接在画布上编辑,并新增了管理员角色来锁定团队设计规范,方便大团队统一品牌标准。官方数据显示上线第一周就有超过一百万人使用 Claude Design,这次更新主要是把早期反馈转化为更稳的日常使用体验。详见:Claude Design 日常工作中更稳定地保持品牌一致性。
更可靠的主播助理:淘宝主播 Agent 的 Harness 工程实战。文章系统拆解了在直播这种高压力场景下,如何用执行循环、工具注册、上下文管理、状态存储、生命周期钩子和评估接口这六个维度,把不确定的模型能力工程化成一个真正可用、可控、能持续演化的生产系统。直播场景的特殊之处在于操作即时生效且面向公众、主播注意力极度稀缺、多话题高频交织、会话动辄持续数小时还要支持中断后精确续连,这让 Harness 工程的要求比"个人助手"形态严苛得多。文章还提出框架层与业务层要划清责任边界:业务方只需要以 Skill 的形式声明能力和风险等级,剩下的安全防护、状态持久化、可观测性全部由框架兜底,是一篇少见的来自真实高压业务场景的工程实践总结。详见:更可靠的主播助理:淘宝主播 Agent 的 Harness 工程实战。
NVIDIA GEAR 实验室发布 ENPIRE:AI 编程 Agent 自主操控真实机器人做实验。由 Jim Fan 联合领导的 NVIDIA GEAR 实验室联合 CMU、UC Berkeley 推出 ENPIRE 系统,首次在物理世界里实现了 AI 自主科研的完整闭环:一组 AI 编程 Agent 自主管理机器人集群、GPU 资源和 token 预算,自动完成环境搭建、策略改进、真实机器人实验和失败分析迭代,人类只需要看报告。项目测试了 OpenAI Codex、Anthropic Claude Code 和月之暗面 Kimi Code 三款 Agent,并发现了"物理 scaling law":8 台机器人并行探索的效率明显高于 1 台或 4 台。详见:NVIDIA GEAR 实验室发布 ENPIRE:AI 编程 Agent 自主操控真实机器人做实验。
A2UI + MCP Apps:融合声明式与自定义智能体 UI 的最佳实践。来自 Google Developers Blog 的文章提出三种架构模式,把 A2UI 的声明式原生渲染界面和 MCP Apps 基于 iframe 的自定义界面结合起来,试图同时拿到安全性、性能与视觉一致性。文章详细给出了实现指南和示例代码,是目前少见的把两套智能体 UI 范式系统对比并融合的实践方案。详见:A2UI + MCP Apps:融合声明式与自定义智能体 UI 的最佳实践。
当你的 AI 智能体扩展互相争斗时。这是 Microsoft for Developers 一个系列的第四篇,讨论一个容易被忽视的问题:单独测试时表现良好的 AI 编程智能体扩展,装在一起之后反而会让整体效果变差,因为扩展之间会争夺上下文窗口空间和模型注意力,引发语义冲突或资源竞争。文章提供了一套衡量和缓解这类组合问题的实用框架,对正在开发或维护多个 Agent 扩展的团队很有参考价值。详见:当你的 AI 智能体扩展互相争斗时。
字节跳动的 AI 账本:豆包每天不足百万收入、Seedance 毛利 70%。《晚点 LatePost》独家披露字节跳动 AI 业务的真实财务数据:日活超 2 亿的豆包每天收入不足百万元,主要靠电商佣金,但豆包应用每天消耗的算力成本已达数千万元,仅维持豆包正常运行的花费就超过了整个 Bilibili 的经营成本。相比之下,视频生成模型 Seedance 年化收入已达 20 亿美元、毛利率 70%,单月收入超 10 亿元,几乎抵消了豆包的算力成本。文章透露字节高层两个月前到访 Anthropic 后,开始把 AI 资源重心从豆包这类大众产品转向服务企业的产品,大模型数据审核团队今年也从约 1500 人扩到 3000 多人,专门为编程模型清洗训练数据。详见:字节跳动的 AI 账本:豆包每天不足百万收入、Seedance 毛利 70%。
补充阅读 面向 Skills 编程:淘宝企业购端对端研发提效实践--提出把领域知识、工作流和约束规则封装成可版本化的 Skills 单元,让 LLM 在确定性框架内生成代码,实测交付周期缩短 65%。适合关注企业级 Agent 工程化落地的读者。详见:面向 Skills 编程-淘宝企业购端对端研发提效实践。
OpenRouter Fusion:从模型路由到复合智能栈--分析 OpenRouter Fusion 如何把多模型合议封装成 API 原语:同一个问题并行发送给一组模型面板,每个模型独立分析,再由 judge 模型产出共识、分歧、覆盖盲区等结构化审议结果,外层模型基于这份报告写出最终答案。这标志着 LLM 应用架构从单模型调用走向复合推理编排,核心价值不是更便宜地调用最强模型,而是用额外的推理时计算换取更高质量和更强的分歧诊断能力。适合关心多模型协同架构设计的读者,也可以和精讲三里张佳圆谈到的多模型系统拟合实践对照着读。详见:OpenRouter Fusion:从模型路由到复合智能栈。
大疆还能低空飞多久?--深度拆解大疆如何靠无人机和云台相机两大品类定义实现年利润超 200 亿,从产品矩阵、第二增长曲线、全球化能力和组织风险几个角度分析它在地缘政治、新品类拓展和人才流失上面临的挑战。适合关注中国硬件出海与品类竞争的读者。详见:大疆还能低空飞多久?。
Cursor,为什么上了马斯克的飞船?--报道 SpaceX 以 600 亿美元全股票交易收购 AI 编程公司 Cursor 母公司 Anysphere,梳理交易背景、Cursor 的创业历程及其与 Anthropic 的竞合关系。适合关注 AI 编程赛道格局变化的读者。详见:Cursor,为什么上了马斯克的飞船?。
今日阅读路径 如果今天时间有限,建议按这个顺序读:第一,精讲一的 GLM-5.2,了解开源模型在长程编程任务上能做到什么程度,重点看 1M 上下文的训练方法和实测中独立交付多端应用的例子;第二,精讲三对话闫俊杰,理解头部大模型公司怎么看待规模、生态与智能终局,重点看 M3 临界点、10X 计划和 10T 模型卡点这几段判断;第三,精讲二的 AI 化学家,看看自主智能从代码世界延伸到真实实验室之后是什么样子,重点看产率数据和台架验证部分。三篇连起来读,正好是今天"模型能不能独立把事情做完"这条主线在软件工程、行业生态、科学发现三个领域的不同切片。
如果还有余力,再补两篇:一篇是字节跳动的 AI 账本,从商业化的角度回看这条主线背后的真实代价--豆包的算力成本有多高、Seedance 的企业服务有多赚钱;另一篇是淘宝主播 Agent 的 Harness 工程实战,从工程落地的角度看一个真实高压场景里,模型能力是怎样被一步步约束成可控、可观测的生产系统的。这五篇加在一起,基本能拼出今天 AI 行业从模型能力、行业生态、商业化到工程落地的完整链路。
BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂,并逐渐理解你关注什么。
支撑长程任务的关键是 Solid 1M 无损上下文。此前业界的 1M 上下文方案大多在超过数百 K 之后就开始劣化,原因是只扩展上下文长度,却没有同步增强 Coding Agent 的训练环境与数据。智谱花了几个月时间专门扩展面向 1M 长度的 Coding Agent 训练环境,覆盖自动化研究、性能优化等多个领域,使 GLM-5.2 在 1M 上下文下的表现保持稳定,部分场景甚至超过 Claude Opus。在 FrontierSWE(衡量 AI 能否像软件工程师一样在数小时尺度完成复杂技术项目)上,GLM-5.2 仅比 Opus 4.8 低 1%,超过了 GPT-5.5 与 Opus 4.7;不过在考察超长自主工程能力的 SWE-Marathon 上,与 Opus 4.8 还有 13% 的差距,说明长程任务的"持久力"仍是下一阶段的重点。
最直观的例子是一次实测:GLM-5.2 完成了从开发、联调、测试到打包上线的全流程,独立交付了一个覆盖 Web、移动端与小程序的多端应用,累计处理了近 88 万 tokens,几乎用满整个 1M 上下文窗口。过去这种规模的工程往往需要一支团队协作数周,现在压缩进了一次长程任务里。能力提升背后是架构、推理系统与训练基础设施的协同优化:IndexShare 让相邻稀疏注意力层复用同一个索引器,在 1M 上下文下把单位 token 的 FLOPs 降低到 2.9 倍;改进后的投机解码层把接受长度最多提升 20%。模型 Day 0 就完成了对华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯等多家国产算力平台的推理适配,并以 MIT 协议全开源、无地域限制,开发者可以自由下载、部署和商用。
在主流编程基准上,GLM-5.2 同样保持开源 SOTA,与 Claude Opus 4.8 处于可比区间:Terminal-Bench 2.1(评测 AI Agent 完成各类计算机终端任务)上比 Opus 4.8 低 4%,但相比上一代 GLM-5.1 提升了 17.5%;在大规模工具调用评测 MCP-Atlas 上,与 Opus 4.8 的差距只有 0.8%。智谱在正式发布前,已经把模型提前开放给数十万 GLM Coding Plan 开发者实测,反馈集中在四点:项目级上下文承载更强,能把完整工程放进同一条推理链路;长程任务执行更稳定,复杂任务不容易跑偏;生产级工程规范遵循更可靠;客户端与移动端工程能力更扎实,能完成真机调试闭环。模型还引入了 effort level(思考档位)控制,方便开发者在能力、速度与成本之间自己取舍。智谱也把目标摆在了 GLM-5.2 之后:下一座要翻越的山是完全自治的智能体系统,让 AI 能够自主驱动、协同作业、7×24 小时运转,团队称之为从"智能助手"走向"数字员工"的转变,但 Memory、持续学习、自我评判等核心技术还需要继续攻关。
这条新闻和今天另外两条深读放在一起看会更清楚:当 GLM-5.2 在用长上下文死磕"能不能把一整个工程独立跑完",OpenAI 的 AI 化学家在用真实实验室验证"能不能独立把一项科研任务跑完",闫俊杰在访谈里谈的则是"模型变强之后,行业要往哪走"。如果你关心国产大模型在长程任务上的真实进度,这条值得通读全文,尤其是关于 1M 上下文训练方法和 SWE-Marathon 差距的部分。详见:GLM-5.2 上线并开源:专注 Coding 与长程任务。
精讲二:近乎自主的 AI 化学家改进药物化学中的一项挑战性反应 OpenAI 这次把 GPT-5.4 接入了 Molecule.one 旗下的智能化学 AI Maria,以及与之配套的高通量实验室,给了它一个开放式目标:改进药物合成中常用的几类关键反应之一。系统自己提出研究方案、设计并执行实验、分析数据,再提出下一轮实验建议;人类化学家的角色是设计引导与评分提示、挑选要测试的方案、对实验计划做有限修正,并独立验证最终结果--OpenAI 把这种模式称为"近乎自主",而不是"完全自主"。
最有价值的方案聚焦在 Chan-Lam 偶联反应的一个高难度版本上,这是化学家用来构建碳氮键的常用反应。GPT-5.4 从"改进 Chan-Lam 偶联反应"这个开放目标出发,自己识别出原代磺胺类底物是一类难度高但价值大的反应对象,并提出用 TEMPO 等温和氧化剂来提升反应表现。在 Maria 实验室的两轮实验中,这个想法被验证有效:优化条件下,88% 的硼酸底物和 83% 的磺胺底物产率都有提升,平均产率从 16.6% 升至 25.2%,产率超过 30% 的反应占比从 15.6% 提高到 37.5%。这一轮实验总共跑了 10080 次反应,相当于一名化学家每天做三个实验、连续十年才能积累的实验量。
更关键的是,这个结果没有止步于微升级实验室的筛选数据。人类化学家随后在台架规模上重复了具有代表性的反应,结果证实了微升级实验的结论:14 组底物对中有 11 组产率提升,大多数还翻了一倍以上。这一点很重要,因为药物化学家需要的是能在真实实验室工作流程中复现的反应,而不只是在微升筛选里好看的数字。磺胺基团出现在抗癌药、抗菌药、利尿剂等多个治疗领域的药物里,但原代磺胺与硼酸的 Chan-Lam 偶联历史上产率一直偏低,这次的改进有机会让药物化学家获得一条更可靠、更实用的分子合成路径。
这次合作也延续了 OpenAI 在科学领域的一条长期主线:此前模型已经在数学(单位距离问题的反例)、理论物理(胶子振幅的新结果)和生物学(GPT-5 帮助降低无细胞蛋白合成成本)上贡献过具体成果,OpenAI 还推出过专门面向生命科学研究与药物发现流程的模型 GPT-Rosalind。这次和 Molecule.one 的合作把这条主线延伸到了药物化学这个特别依赖实验验证、而不能只靠推理的领域--一个假设必须真的在分子、仪器和实验噪声构成的真实世界里站得住才算数。整个项目历时三个月,期间四位外部化学专家审阅了描述这一结果的预印本,认为结论新颖、值得与科学界分享,同时也指出更强的检验将来自后续在更大规模合成中的复现。OpenAI 也坦言这只是一个早期结果,但它为"AI 能不能成为科研全流程的真正合作者"提供了一个具体例证。
把这条新闻和精讲一放在一起读会有意思的对照:GLM-5.2 验证的是模型在软件工程领域的长程自主能力,AI 化学家验证的则是模型在物理世界、需要真实实验验证的科研场景里的自主能力--后者更难,因为假设必须在分子、仪器和实验噪声构成的真实世界里站得住。如果你对 AI 与科学发现的结合感兴趣,这篇值得细看实验规模与产率数据部分。详见:近乎自主的 AI 化学家改进药物化学中的一项挑战性反应。
精讲三:对话 MiniMax 闫俊杰:M3、10X 计划、10T 模型、和智能的终局 上周六的 MiniMax Dev Meetup 上,创始人兼 CEO 闫俊杰(IO)参加了一场圆桌对话,同台的还有 Multica 创始人张佳圆、DeerFlow 核心负责人何涛,以及一家上市金融公司的技术负责人虞扬。这篇文章是现场对话的完整实录,信息密度很高,但最值得抓住的是闫俊杰关于模型路线和智能终局的几段判断。
谈到从 M1 到 M3 的进展,闫俊杰用通用消耗量作为客观指标回顾:M1 效果其实不够好,但团队在那时第一次跑通强化学习,体验到了"后背发凉"的震撼;M2 原计划做到日消耗一亿 token 就满意,结果在 M2.7 跑出了超出预期 10 倍的消耗量。到了 M3,目标更激进--让用户可以无限制、不计成本地用上 Sonnet 和 Opus 级别的模型,闫俊杰说团队"现在已经非常接近这个临界点了"。一旦达成,叠加行业大盘的增长,通用消耗量会进入一个全新量级。他也坦言 M2 阶段两个没达预期的目标:多模态没做成、模型没能在编程场景里直接充当主引擎;但 M2 后来意外地在 OpenClaw 等各种 Agent 生态里找到了自己的位置,这也是闫俊杰反复强调"行业生态比单点能力更重要"的一个例证。
座谈中提到的上月启动的 10X 计划,邀请网络安全、金融、法律等垂直领域专家深度参与模型打磨,目的是让模型能力真正贴合专业场景的实际需求,而不是停留在通用对话层面。再往后看,闫俊杰提到下一步要攻克 10T 参数规模的模型--他直言国内模型的规模比美国同类模型小一个数量级,需要先把 3T 规模做实,再向 10T 迈进,而最大的卡点不是物理瓶颈,是工程积累。这与精讲一里 GLM-5.2 强调的"训练基础设施协同优化"形成呼应:扩规模和提升长程任务能力,本质上都在比拼同一类工程硬功夫。
同台嘉宾的发言也很有参考价值。Multica 创始人张佳圆谈到,团队不再寄希望于单一模型的完美,而是尝试设计一个系统,把不同模型、不同 Agent 的能力聚合起来,比如让 M3 做 Coding,同时引入 Opus 或 GPT 这类模型做 Review 或当"导师",在 token 消耗和产出质量之间找平衡--这其实和今天补充阅读里 OpenRouter Fusion 的多模型合议思路是同一个方向。DeerFlow 核心负责人何涛分享了开源项目如何用中国模型把 Deep Research 这类原本昂贵的能力价格打下来,目前已有超过 1000 名贡献者参与。金融公司技术负责人虞扬则谈到,AI 在金融场景里真正的价值不只是帮用户过滤信息,更要降低专业理解的门槛--不仅要告诉用户一个指标是多少,还要告诉用户这个数字对其投资决策意味着什么。对智能的终局,闫俊杰的判断是端到端交付结果,而不是给出建议--让模型直接修复漏洞、直接做出金融决策,这与精讲二里 AI 化学家"近乎自主"地跑完一整轮研究流程,方向是一致的。如果你只有时间挑一段精读,建议读到闫俊杰谈 M3 临界点和 10T 模型卡点的部分。详见:对话 MiniMax 闫俊杰:M3、10X 计划、10T 模型、和智能的终局。
速览 独家:OpenAI 2025 年财报显示收入 130 亿美元,成本 340 亿美元。Ed Zitron 拿到了 OpenAI 2024 与 2025 年的审计财报,披露 2025 年收入为 130.7 亿美元,成本却高达 340 亿美元,其中 8.67 亿美元来自软银投资、3.03 亿美元来自微软。这组数字第一次把 OpenAI 真实的盈亏结构摆在公开视野里,和今天关于字节 AI 账本的报道放在一起看,能感受到整个行业在算力成本和商业化之间的紧张关系。详见:独家:OpenAI 2025 年财报显示收入 130 亿美元,成本 340 亿美元。
Claude Design 日常工作中更稳定地保持品牌一致性。Claude Design 现在能跟项目里的设计系统保持一致,可以从 GitHub 仓库、设计文件或原始上传中导入一个或多个设计系统,与 Claude Code 之间的协作也更顺畅,支持直接在画布上编辑,并新增了管理员角色来锁定团队设计规范,方便大团队统一品牌标准。官方数据显示上线第一周就有超过一百万人使用 Claude Design,这次更新主要是把早期反馈转化为更稳的日常使用体验。详见:Claude Design 日常工作中更稳定地保持品牌一致性。
更可靠的主播助理:淘宝主播 Agent 的 Harness 工程实战。文章系统拆解了在直播这种高压力场景下,如何用执行循环、工具注册、上下文管理、状态存储、生命周期钩子和评估接口这六个维度,把不确定的模型能力工程化成一个真正可用、可控、能持续演化的生产系统。直播场景的特殊之处在于操作即时生效且面向公众、主播注意力极度稀缺、多话题高频交织、会话动辄持续数小时还要支持中断后精确续连,这让 Harness 工程的要求比"个人助手"形态严苛得多。文章还提出框架层与业务层要划清责任边界:业务方只需要以 Skill 的形式声明能力和风险等级,剩下的安全防护、状态持久化、可观测性全部由框架兜底,是一篇少见的来自真实高压业务场景的工程实践总结。详见:更可靠的主播助理:淘宝主播 Agent 的 Harness 工程实战。
NVIDIA GEAR 实验室发布 ENPIRE:AI 编程 Agent 自主操控真实机器人做实验。由 Jim Fan 联合领导的 NVIDIA GEAR 实验室联合 CMU、UC Berkeley 推出 ENPIRE 系统,首次在物理世界里实现了 AI 自主科研的完整闭环:一组 AI 编程 Agent 自主管理机器人集群、GPU 资源和 token 预算,自动完成环境搭建、策略改进、真实机器人实验和失败分析迭代,人类只需要看报告。项目测试了 OpenAI Codex、Anthropic Claude Code 和月之暗面 Kimi Code 三款 Agent,并发现了"物理 scaling law":8 台机器人并行探索的效率明显高于 1 台或 4 台。详见:NVIDIA GEAR 实验室发布 ENPIRE:AI 编程 Agent 自主操控真实机器人做实验。
A2UI + MCP Apps:融合声明式与自定义智能体 UI 的最佳实践。来自 Google Developers Blog 的文章提出三种架构模式,把 A2UI 的声明式原生渲染界面和 MCP Apps 基于 iframe 的自定义界面结合起来,试图同时拿到安全性、性能与视觉一致性。文章详细给出了实现指南和示例代码,是目前少见的把两套智能体 UI 范式系统对比并融合的实践方案。详见:A2UI + MCP Apps:融合声明式与自定义智能体 UI 的最佳实践。
当你的 AI 智能体扩展互相争斗时。这是 Microsoft for Developers 一个系列的第四篇,讨论一个容易被忽视的问题:单独测试时表现良好的 AI 编程智能体扩展,装在一起之后反而会让整体效果变差,因为扩展之间会争夺上下文窗口空间和模型注意力,引发语义冲突或资源竞争。文章提供了一套衡量和缓解这类组合问题的实用框架,对正在开发或维护多个 Agent 扩展的团队很有参考价值。详见:当你的 AI 智能体扩展互相争斗时。
字节跳动的 AI 账本:豆包每天不足百万收入、Seedance 毛利 70%。《晚点 LatePost》独家披露字节跳动 AI 业务的真实财务数据:日活超 2 亿的豆包每天收入不足百万元,主要靠电商佣金,但豆包应用每天消耗的算力成本已达数千万元,仅维持豆包正常运行的花费就超过了整个 Bilibili 的经营成本。相比之下,视频生成模型 Seedance 年化收入已达 20 亿美元、毛利率 70%,单月收入超 10 亿元,几乎抵消了豆包的算力成本。文章透露字节高层两个月前到访 Anthropic 后,开始把 AI 资源重心从豆包这类大众产品转向服务企业的产品,大模型数据审核团队今年也从约 1500 人扩到 3000 多人,专门为编程模型清洗训练数据。详见:字节跳动的 AI 账本:豆包每天不足百万收入、Seedance 毛利 70%。
补充阅读 面向 Skills 编程:淘宝企业购端对端研发提效实践--提出把领域知识、工作流和约束规则封装成可版本化的 Skills 单元,让 LLM 在确定性框架内生成代码,实测交付周期缩短 65%。适合关注企业级 Agent 工程化落地的读者。详见:面向 Skills 编程-淘宝企业购端对端研发提效实践。
OpenRouter Fusion:从模型路由到复合智能栈--分析 OpenRouter Fusion 如何把多模型合议封装成 API 原语:同一个问题并行发送给一组模型面板,每个模型独立分析,再由 judge 模型产出共识、分歧、覆盖盲区等结构化审议结果,外层模型基于这份报告写出最终答案。这标志着 LLM 应用架构从单模型调用走向复合推理编排,核心价值不是更便宜地调用最强模型,而是用额外的推理时计算换取更高质量和更强的分歧诊断能力。适合关心多模型协同架构设计的读者,也可以和精讲三里张佳圆谈到的多模型系统拟合实践对照着读。详见:OpenRouter Fusion:从模型路由到复合智能栈。
大疆还能低空飞多久?--深度拆解大疆如何靠无人机和云台相机两大品类定义实现年利润超 200 亿,从产品矩阵、第二增长曲线、全球化能力和组织风险几个角度分析它在地缘政治、新品类拓展和人才流失上面临的挑战。适合关注中国硬件出海与品类竞争的读者。详见:大疆还能低空飞多久?。
Cursor,为什么上了马斯克的飞船?--报道 SpaceX 以 600 亿美元全股票交易收购 AI 编程公司 Cursor 母公司 Anysphere,梳理交易背景、Cursor 的创业历程及其与 Anthropic 的竞合关系。适合关注 AI 编程赛道格局变化的读者。详见:Cursor,为什么上了马斯克的飞船?。
今日阅读路径 如果今天时间有限,建议按这个顺序读:第一,精讲一的 GLM-5.2,了解开源模型在长程编程任务上能做到什么程度,重点看 1M 上下文的训练方法和实测中独立交付多端应用的例子;第二,精讲三对话闫俊杰,理解头部大模型公司怎么看待规模、生态与智能终局,重点看 M3 临界点、10X 计划和 10T 模型卡点这几段判断;第三,精讲二的 AI 化学家,看看自主智能从代码世界延伸到真实实验室之后是什么样子,重点看产率数据和台架验证部分。三篇连起来读,正好是今天"模型能不能独立把事情做完"这条主线在软件工程、行业生态、科学发现三个领域的不同切片。
如果还有余力,再补两篇:一篇是字节跳动的 AI 账本,从商业化的角度回看这条主线背后的真实代价--豆包的算力成本有多高、Seedance 的企业服务有多赚钱;另一篇是淘宝主播 Agent 的 Harness 工程实战,从工程落地的角度看一个真实高压场景里,模型能力是怎样被一步步约束成可控、可观测的生产系统的。这五篇加在一起,基本能拼出今天 AI 行业从模型能力、行业生态、商业化到工程落地的完整链路。
BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂,并逐渐理解你关注什么。