Cline团队用自家仓库真实bug测试GLM-5.2和Claude Opus 4.8。Opus速度快3倍(1.6分钟vs 4.7分钟)、token少一半(660K vs 1.1M)、价格贵一倍($0.81 vs $0.41),修好bug但生产构建崩溃,留下类型错误。GLM多花67% token、多2.3倍工具调用(28次vs 12次)、价格便宜一半,不仅修好bug还主动清理死代码,构建干净通过。根本差异在于训练目标:GLM被强化学习训练出验证文化,多花token跑构建、查类型、防回归;Opus追求高效却忽略隐患。排行榜只测修bug能力,测不出是否破坏生产环境。开源模型GLM在长周期代码智能体上找到差异化优势。
所有大模型排行榜都在骗你。
Cline团队用自己仓库的真实bug,在完全相同的环境下,测了GLM-5.2和Claude Opus 4.8。
结果非常打脸。
Opus速度快3倍,token消耗少一半,价格贵一倍。 它修完了bug,跑通了所有测试。 但生产构建直接崩了,留下了未被发现的类型错误。
GLM速度慢,token多67%,工具调用多2.3倍,价格便宜一半。 它不仅修好了bug,还主动清理了死代码。 最终构建干净通过,没有任何隐患。
这就是排行榜和真实世界的差距。 SWE-bench只能测出能不能修bug。 测不出修完之后会不会偷偷搞崩你的生产环境。 测试过了不等于代码能用。 这在大型项目里,是致命的。
本质不是谁更聪明,因为训练目标完全不一样。 GLM被强化学习训练出了验证文化。 多花的token,全用在了跑构建,查类型,清垃圾,防回归上。 它不是笨,是负责任。 Opus追求高效交差,GLM追求一次做对。