Snowflake 内部基准测试显示,在每项任务三次尝试下,GLM-5.2 解决 66% 的编程问题,Anthropic 的 Opus 4.7 解决 67%,两者几乎持平。首次尝试准确率 Opus 为 53.7%,GLM 为 47.6%;GLM 每任务平均迭代 99 次、消耗 8.6 亿 token,Opus 则为 80 次、4.39 亿 token。成本方面,GLM-5.2 输出 token 价格为 $4.40/百万,远低于 Opus 的 $25 和 GPT-5.5 的 $30;输入 token 仅 $1.40/百万。GLM 存在过早放弃和过度检查等弱点,但其定价优势可能对西方 AI 公司的高估值构成压力。