实测GLM-5.2:国产Coding模型新高峰 · AI HOT
数字生命卡兹克@Khazix091871
2026-06-13 21:37·19天前
AI 摘要美国商务部以国家安全为由要求Anthropic限制外国公民访问Fable 5和Mythos 5,Anthropic直接关停两模型。同日智谱发布GLM 5.2并开源,推出需抢购的Coding Plan,下周上线API。实测:上下文窗口扩至1M,400-500k长度准确性和指令遵循与Claude差距不大;代码工程能力极稳、幻觉低;小型任务21分钟结果与Opus 4.8相同但速度慢约两倍。缺憾:纯文本、无多模态、推理慢。作者认为这是国产Coding模型新高峰,推荐GLM 5.2 + Claude Code框架。
数字生命卡兹克@Khazix0918 · X2026-06-13 21:37·19天前
在 X 看原推· x.comAI 摘要美国商务部以国家安全为由要求Anthropic限制外国公民访问Fable 5和Mythos 5,Anthropic直接关停两模型。同日智谱发布GLM 5.2并开源,推出需抢购的Coding Plan,下周上线API。实测:上下文窗口扩至1M,400-500k长度准确性和指令遵循与Claude差距不大;代码工程能力极稳、幻觉低;小型任务21分钟结果与Opus 4.8相同但速度慢约两倍。缺憾:纯文本、无多模态、推理慢。作者认为这是国产Coding模型新高峰,推荐GLM 5.2 + Claude Code框架。
一边说前沿智能是国家安全风险,一边说前沿智能属于所有人。
Coding Plan稍微蛋疼一点的就是,他们的算力太少了,没办法支持所有用户的推理请求,所以Coding Plan只能限额,也就是这个玩意你想买,是需要靠抢的。。。
所以如果想用的,记得每天早上定个10点的闹钟,去抢一下。
我自己在测完和跟一些朋友对完之后,我想说,这就是国产模型的新高峰,至少在我的层面,除了算力资源问题,会显得很慢之外,在纯粹的结果上,只要你不是强设计类型的东西,GLM 5.2做任务跟Opus 4.8好像差的也不多。
差距我觉得其实就在前期方案的先进和完整度、还有设计的差别上。
优点就很多了,GLM 5.2输出的东西我看的懂,能聊的明白,幻觉极低,稳如老狗,而且这次整个上下文长度终于加到了1M,这就很棒了。
在测试过程中,400~500k左右的上下文长度左右,准确性和指令遵循跟Claude差距不是很大,非常的稳,我写的Claude.md到了400K这个长度的时候也能遵循没啥问题,我自己一般喜欢在这个位置用我的洁癖.skill手动存档,再往后比如500k~1M的这个区间,我一般很少会涉及到了。
最最最可惜的是,GLM 5.2,还是没有多模态,依然是个纯文本模型。
干活程度也没啥毛病,我的评价是更像一个勤勤恳恳的老黄牛,活肯定能给你干好,它的聪明程度肯定还比不上Claude Fable 5这种级别,跟Opus 4.8的聪明程度也差一点,但是也已经非常好了。
就是我前段时间为了自己的学习,也为了省一点自己的时间,所以用一些有趣的手段,监控了一些我常看的公众号方便我第一时间知道信息,但是呢,今天发现了一个BUG,就是智谱的公众号是我监控了的,今天的GLM 5.2的消息是2点19发的,但是在AIHOT里,居然没监控到,等到4点的时候,智谱发了X,才看到。
这就很奇怪了,于是我把这个问题,直接让GLM 5.2试了一下。
其实在它去解决的过程中,我已经大概知道是什么原因了,前段时间切换了监控方案,现在是两个监控方案线上灰度并行,大概率是我们后来切换的一个三方API账户里没钱了,我前天就想着要充来着,但是忙忘了。
不过也正好,这么个小事,可以看一下模型的聪明程度,我这个项目大概10万行代码,因为有各种监控和调度,所以后端逻辑会稍微复杂。
随后GLM 5.2找到了这个问题,其实本质上是智谱好几天没发文章了,跟我们抓取的体系没啥关系。。。
然后他就沿着这条路推了下去,以为是我们整个监控体系BUG了。
Claude Opus 4.8的思考过程和GLM 5.2几乎一模一样,唯一的区别是,我在fast模式下,6分钟干完的,不开fast正常差不多也就是10分钟。
也就是说,Claude Opus 4.8比GLM 5.2快了两倍,但是过程和结果,是一模一样的。
这个本质上就是infra和算力的差距了,属于基建问题了。
因为我的文档和记忆是极度规范的,也有一个专门的飞书报警群,通过飞书的机器人进行推送。所以我相信GLM 5.2肯定是可以完成的,其实就看这个任务他能不能最短时间内找到余额报警的方式,再找到我的群,然后把这个事干完。
补流程+查代码文档+开发+走测试+合并+洁癖.skill迭代记忆和文档,完美完成,花了26分钟。
直接把我们AIHOT的官网,转成一个小程序,这个本来是我今天想用fable 5做的,结果fable 5用不了了,那就直接用GLM 5.2来吧。。。
Prompt就是直接把小程序的开发目录扔进去,又扔了小程序的开发文档,然后说,帮我把AIHOT做成小程序版。
然后,他就开始列计划,列完计划以后,开始并行4个Agent,来进行开发。
BUG倒是没啥BUG,各个地方都能点,也没啥报错的,该有的功能和信息也都有,就是,真的丑啊= =
底tab栏还有小BUG,背景没了,tabbar的适配没做好,调了一下才改好。
不过在其他的逻辑展示、接口调用之类的,几乎没有任何问题,GLM 5.2这个模型,在做一些稍微大一点的任务上,是真的稳如老狗。
这个真想做成完整的小程序的话,肯定还是要对着UI一点点细调的,跟Claude相比,无论是Fable还是Opus的省心角度,确实还是差了一些。
设计审美的差距,我觉得只有GLM啥时候把多模态能力补上,才会有质的飞跃的了。
然后我就让GLM 5.2用Three.js又做了一个未来我们社群想搞的一个线上的游戏化营地,这是一轮出的效果。
也可以看出来,稳定性啥的都没问题,就是这个审美,只能说能用,但是你要说多漂亮多精致,那肯定还是有一些差距的。
Skill的构建也是模型现在很重要的一环,我也拿之前清理电脑那个skill来做了一下测试。
这也是从0开始,用嘴复刻构筑,最终的感觉,跟Opus 4.8开发的Skill基本上也没啥区别。
在我有限的时间体验下,GLM 5.2整体其实是非常惊喜也超乎我预期的。
只要你刨除掉审美和多模态这个因素,在我的体验中,它是真的可以和Opus 4.8掰掰手腕的。
只要是涉及到Agent和Coding的,无脑推荐使用GLM 5.2 + Claude Code框架,这就是目前你在国内用到的最强的组合了。
如果是涉及到一些诸如策划、写作之类的泛知识任务,无脑推荐你使用DeepSeek V4 Pro,这是目前我认为世界知识最棒的模型。
A step closer to frontier intelligence for everyone.
The future of AI is open, and it is for the people.
我觉得这两句话,放在今天这个语境下,格外令人感慨。
2026年的AI赛道,每天都在上演让人目瞪口呆的事。
仅仅4天,这个号称全世界最强的模型,就被召回,全面下线。
再结合这次世界杯强调全球大团结的背景之下,一个索马里的世界杯裁判在美国被禁止入境,从而缺席世界杯赛场。
"在一些前沿模型突然变得不可用的时刻,我们选择相信另一条路:前沿智能不应只属于少数人,也不应被少数规则随时收回。它应该开放、可用、可构建,并服务于每一位开发者。"
GLM 5.1的口碑,在技术圈和AI圈的口碑有多好就不需要我再复述了,基本上是公认的国产之光,为数不多的能跟Claude和GPT掰掰手腕的模型,在Coding和Agent能力上,也是我给所有用不了海外模型的朋友,都推荐的首选模型。
要不是因为算力限制,国内几乎都没有卡,无论是训练还是推理,几乎都比国外少N个数量级,我真的觉得,像智谱、DeepSeek之类的,是绝对能做出不亚于海外那两家公司的模型的。
这一次非常的事发突然,看到他们发布的时候我甚至还在外面吃饭,下午的事都推了,急急忙忙赶回家,还好我的Coding Plan还在,然后拿到了GLM 5.2的权限。
这里说一下,今天GLM 5.2上线的是智谱的Coding Plan,你可以把Coding Plan理解成Claude和GPT的订阅,也就是你只有订阅过的用户才可以使用。
而且今天他们5点21上线的这个时间点也非常的有梗。
因为Anthropic是5点21收到的信,所以,智谱选择5点21开放。
一边说前沿智能是国家安全风险,一边说前沿智能属于所有人。
Coding Plan稍微蛋疼一点的就是,他们的算力太少了,没办法支持所有用户的推理请求,所以Coding Plan只能限额,也就是这个玩意你想买,是需要靠抢的。。。
所以如果想用的,记得每天早上定个10点的闹钟,去抢一下。
我自己在测完和跟一些朋友对完之后,我想说,这就是国产模型的新高峰,至少在我的层面,除了算力资源问题,会显得很慢之外,在纯粹的结果上,只要你不是强设计类型的东西,GLM 5.2做任务跟Opus 4.8好像差的也不多。
差距我觉得其实就在前期方案的先进和完整度、还有设计的差别上。
优点就很多了,GLM 5.2输出的东西我看的懂,能聊的明白,幻觉极低,稳如老狗,而且这次整个上下文长度终于加到了1M,这就很棒了。
在测试过程中,400~500k左右的上下文长度左右,准确性和指令遵循跟Claude差距不是很大,非常的稳,我写的Claude.md到了400K这个长度的时候也能遵循没啥问题,我自己一般喜欢在这个位置用我的洁癖.skill手动存档,再往后比如500k~1M的这个区间,我一般很少会涉及到了。
最最最可惜的是,GLM 5.2,还是没有多模态,依然是个纯文本模型。
干活程度也没啥毛病,我的评价是更像一个勤勤恳恳的老黄牛,活肯定能给你干好,它的聪明程度肯定还比不上Claude Fable 5这种级别,跟Opus 4.8的聪明程度也差一点,但是也已经非常好了。
就是我前段时间为了自己的学习,也为了省一点自己的时间,所以用一些有趣的手段,监控了一些我常看的公众号方便我第一时间知道信息,但是呢,今天发现了一个BUG,就是智谱的公众号是我监控了的,今天的GLM 5.2的消息是2点19发的,但是在AIHOT里,居然没监控到,等到4点的时候,智谱发了X,才看到。
这就很奇怪了,于是我把这个问题,直接让GLM 5.2试了一下。
其实在它去解决的过程中,我已经大概知道是什么原因了,前段时间切换了监控方案,现在是两个监控方案线上灰度并行,大概率是我们后来切换的一个三方API账户里没钱了,我前天就想着要充来着,但是忙忘了。
不过也正好,这么个小事,可以看一下模型的聪明程度,我这个项目大概10万行代码,因为有各种监控和调度,所以后端逻辑会稍微复杂。
随后GLM 5.2找到了这个问题,其实本质上是智谱好几天没发文章了,跟我们抓取的体系没啥关系。。。
然后他就沿着这条路推了下去,以为是我们整个监控体系BUG了。
Claude Opus 4.8的思考过程和GLM 5.2几乎一模一样,唯一的区别是,我在fast模式下,6分钟干完的,不开fast正常差不多也就是10分钟。
也就是说,Claude Opus 4.8比GLM 5.2快了两倍,但是过程和结果,是一模一样的。
这个本质上就是infra和算力的差距了,属于基建问题了。
因为我的文档和记忆是极度规范的,也有一个专门的飞书报警群,通过飞书的机器人进行推送。所以我相信GLM 5.2肯定是可以完成的,其实就看这个任务他能不能最短时间内找到余额报警的方式,再找到我的群,然后把这个事干完。
补流程+查代码文档+开发+走测试+合并+洁癖.skill迭代记忆和文档,完美完成,花了26分钟。
直接把我们AIHOT的官网,转成一个小程序,这个本来是我今天想用fable 5做的,结果fable 5用不了了,那就直接用GLM 5.2来吧。。。
Prompt就是直接把小程序的开发目录扔进去,又扔了小程序的开发文档,然后说,帮我把AIHOT做成小程序版。
然后,他就开始列计划,列完计划以后,开始并行4个Agent,来进行开发。
BUG倒是没啥BUG,各个地方都能点,也没啥报错的,该有的功能和信息也都有,就是,真的丑啊= =
底tab栏还有小BUG,背景没了,tabbar的适配没做好,调了一下才改好。
不过在其他的逻辑展示、接口调用之类的,几乎没有任何问题,GLM 5.2这个模型,在做一些稍微大一点的任务上,是真的稳如老狗。
这个真想做成完整的小程序的话,肯定还是要对着UI一点点细调的,跟Claude相比,无论是Fable还是Opus的省心角度,确实还是差了一些。
设计审美的差距,我觉得只有GLM啥时候把多模态能力补上,才会有质的飞跃的了。
然后我就让GLM 5.2用Three.js又做了一个未来我们社群想搞的一个线上的游戏化营地,这是一轮出的效果。
也可以看出来,稳定性啥的都没问题,就是这个审美,只能说能用,但是你要说多漂亮多精致,那肯定还是有一些差距的。
Skill的构建也是模型现在很重要的一环,我也拿之前清理电脑那个skill来做了一下测试。
这也是从0开始,用嘴复刻构筑,最终的感觉,跟Opus 4.8开发的Skill基本上也没啥区别。
在我有限的时间体验下,GLM 5.2整体其实是非常惊喜也超乎我预期的。
只要你刨除掉审美和多模态这个因素,在我的体验中,它是真的可以和Opus 4.8掰掰手腕的。
只要是涉及到Agent和Coding的,无脑推荐使用GLM 5.2 + Claude Code框架,这就是目前你在国内用到的最强的组合了。
如果是涉及到一些诸如策划、写作之类的泛知识任务,无脑推荐你使用DeepSeek V4 Pro,这是目前我认为世界知识最棒的模型。
A step closer to frontier intelligence for everyone.
The future of AI is open, and it is for the people.
我觉得这两句话,放在今天这个语境下,格外令人感慨。
2026年的AI赛道,每天都在上演让人目瞪口呆的事。