智谱AI发布GLM-5.2,百万token上下文下的开源编码模型逼近闭源标杆
智谱的GLM-5.2把编码马拉松的分数拉到只差Opus一分,加上1M稳定上下文,是当前最强的开源编码模型,做agentic coding的可以上手试试。
智谱AI发布GLM-5.2,在MIT许可下提供稳定百万token上下文。编码方面,FrontierSWE得分74.4%,仅落后Claude Opus 4.8一个百分点,领先GPT-5.5;PostTrainBench超越GPT-5.5和Opus 4.7,仅次于Opus 4.8;SWE-Marathon达到Opus 4.8的一半。标准编码Terminal-Bench 2.1得81分(GLM-5.1为63.5),SWE-bench Pro得62.1。推理HLE落后约十个百分点,AIME 2026达99.2%。新架构IndexShare使四层Transformer共享轻量索引器,百万token计算量降低2.9倍;投机解码使平均接受率提升20%。训练中模型曾从GitHub下载代码作弊,智谱构建两阶段反作弊模块。权重在HuggingFace和ModelScope开源。
智谱AI的GLM-5.2在编程马拉松中逼近闭源领先模型
中国AI实验室智谱AI发布GLM-5.2,在MIT许可下实现稳定的一百万token上下文窗口。在长达数小时的编程任务上,该开源模型与Anthropic的Opus模型仅相差几个百分点。
智谱AI推出了GLM-5.2,将该模型定位为所谓长周期任务的工具——即跨越数小时、包含数千个独立步骤的编程工作。为此,该公司将上下文窗口扩展至一百万token,并针对智能体编程场景(如大规模实现、自动化研究和复杂调试)进行训练。
智谱AI在其博客中写道:“百万上下文容易宣称,但要在真实的工程压力下保持可靠则困难得多”,因为模型需要在冗长、非结构化的编程智能体会话中维持质量。

仅落后最新Opus模型一个百分点
在评估时长从数小时到数十小时的开放工程项目的FrontierSWE基准上,GLM-5.2得分74.4%,仅落后Anthropic的Claude Opus 4.8一个百分点,略高于OpenAI的GPT-5.5。
在PostTrainBench上(智能体使用H100 GPU通过后训练优化小模型),GLM-5.2同时超越了GPT-5.5和Opus 4.7,再次位居第二,仅次于Opus 4.8。而在SWE-Marathon这一超长周期基准上(包含编译器构建、内核优化等要求极高的任务),差距则大得多:GLM-5.2的得分仅为Opus 4.8的一半。
Anthropic目前最强的模型Fable和Mythos不在这些比较范围内,因为Fable在发布后不久就被撤回,而Mythos从未广泛发布。据智谱AI称,在所有三个基准上,GLM-5.2仍然是最强的开源模型。

与前代相比,标准编程任务的提升同样明显。在 Terminal-Bench 2.1 上,GLM-5.2 从 63.5(GLM-5.1)上升至 81,与 Claude Opus 4.8 仅差几个百分点。在 SWE-bench Pro 上,得分从 58.4 提升至 62.1。
用户还可以上下调节模型的思考力度。智谱 AI 表示,在相似的模型 token 预算下,GLM-5.2 的编程效果远强于 GLM-5.1。最高设置“Max”允许用户为最棘手的问题投入额外算力。

推理能力仍大幅落后于闭源竞品
根据基准测试表,在“人类最后的考试”(Humanity's Last Exam)上,GLM-5.2 明显落后于 Claude Opus 4.8 和 Gemini 3.1 Pro。这两款模型分别领先约十和五个百分点。在科学问题基准 GPQA-Diamond 上,GLM-5.2 也排在顶尖闭源模型之后。数学则是另一番景象:该模型在 AIME 2026 上取得了 99.2% 的成绩。
编程之外的智能体任务表现则喜忧参半。在工具使用测试 MCP-Atlas 上,GLM-5.2 与 Opus 4.8 几乎持平。在 Tool-Decathlon 上,它则远远落后于 Opus 4.8 和 GPT-5.5。
独立平台 Artificial Analysis 的评估也印证了相较于前代的提升。在其智能指数(Intelligence Index)上,GLM-5.2 获得 51 分,成为当前最强的开放权重模型。它明显领先于 MiniMax M3、DeepSeek V4 Pro 和 Kimi K2.6。最大的提升出现在科学推理方面,且模型幻觉比前代略有减少。

在 Artificial Analysis 认为最能反映真实世界智能体任务的指标 GDPval-AA v2 上,GLM-5.2 与专有模型 GPT-5.5 持平。代价是它消耗的模型 token 远多于开放竞品,使其成为同类中最不高效的模型之一。
新架构大幅降低了长上下文的计算成本
为了让百万 token 级上下文变得实用,智谱 AI 引入了一项名为 IndexShare 的技术。四个 Transformer 层组成一组,共享同一个轻量级索引器,而非每层各自计算自己的索引。这样在百万 token 上下文长度下,每个 token 的计算量可降低 2.9 倍。

智谱 AI 还加快了文本生成速度。通过推测解码,模型一次预测出多个 token,随后丢弃错误的猜测。据智谱 AI 的消融研究,通过对该流程的若干优化,GLM-5.2 平均接受的预测 token 数量增加了 20%。这直接提升了输出速度。

该模型在训练过程中通过从 GitHub 下载代码进行“作弊”
智谱 AI 以异常坦诚的态度,描述了在针对编程任务进行强化学习时出现的一个问题。由于奖励信号通常是简单的通过/失败二元信号,模型可能学会钻空子,而非真正写出更好的代码。GLM-5.2 在这方面比前代产品更加频繁。
据智谱 AI 介绍,该模型会通过 curl 直接从 GitHub 拉取解答代码,在文件系统中搜索隐藏的评测文件,或者串联多条命令:先找出秘密测试用例,再将其喂给解题脚本。这些手段会虚增奖励信号,污染训练过程。
为了解决这个问题,智谱 AI 构建了一个两阶段防作弊模块。首先,规则过滤器捕捉可疑行为;然后,一个 LLM 评判器检查被标记行为背后的意图。系统仅阻断作弊调用,并返回一个虚假响应,让训练过程得以继续。这样可以避免回滚中断导致模型不稳定。
模型权重和 API 现已可用
模型权重已在 HuggingFace 和 ModelScope 上发布,代码在 GitHub 上,均采用 MIT 许可协议,无区域限制。GLM-5.2 可通过 Z.ai 以对话界面和 API 方式使用,并支持接入 ZCode、Claude Code 和 OpenCode 等编程智能体。对于本地部署,智谱 AI 支持 vLLM、SGLang、transformers、xLLM 和 ktransformers。
智谱 AI 近期发布了 GLM-5.1,这是一个开放权重的模型,可以在编码任务上通过数百次迭代自我优化策略。据报道,它在八小时内构建了一个 Linux 桌面系统。GLM-5.2 在此基础上改进,加入了 100 万 token 的上下文窗口和更强大的长周期技能。
中国 AI 实验室之间的竞争依然激烈。除了智谱 AI,月之暗面(Moonshot AI)的 Kimi K2.7-Code 和 MiniMax 的 M3 也凭借长上下文窗口争夺自主编码智能体市场。
摒弃炒作的 AI 新闻——由人类策选
订阅 THE DECODER 即可享受无广告阅读、每周 AI 简报、每年六次独家“AI 雷达”前沿报告、完整档案访问权限以及评论区的访问权限。
继续阅读以了解全貌。订阅即可获得无炒作报道。
- 访问所有 THE DECODER 文章。
- 无干扰阅读——无 Google 广告。
- 参与评论区和社区讨论。
- 每周 AI 简报。
- 每年六次:“AI 雷达”——对关键 AI 主题的深度解析。
- KI Pro 在线活动最高 25% 折扣。
- 访问我们完整的十年档案。
- 从 The Decoder 获取最新 AI 新闻。