Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token:GLM 860M、Opus 439M(约 2 倍)。原因包括平均轮次多(99 vs 80)、工具调用粒度细、缓存命中率低(53% vs 96%)。差异几乎全部来自尾部失败案例(少数任务 400+ 次调用)。归一化至 90% 缓存率后,GLM 每 session $1.12,Opus $2.14,GLM 便宜约 48%。建议:分层考量 token 量、调用次数、单价、缓存率、稳定性;优先削减尾部失控会话;同一模型换 harness 经济性可数量级变化。
Snowflake CEO @RamaswmySridhar 做了一个深度实验,对比 GLM vs Opus 成本,发现 GLM token 消耗是 Opus 的 2 倍?
先看看实验设计 · 任务集:103 个 dbt 任务,每模型跑 3 轮,同一 harness、同一任务集--变量控制扎实 · 原始 token:GLM 860M vs Opus 439M,约 2× 差距
Token 差距的三个原因 · 平均轮次/轮:99 vs. 80,多轮 = 每轮重发全量上下文,token 按轮次线性放大 · 工具调用粒度:一次一查 vs. SQL批量,原子化调用产生大量重复上下文回传 · 缓存命中率:53% vs. 96%,缓存未命中部分按全价计费,是成本杠杆最大的一环
关键洞察:尾部效应而非整体劣化 · 两个模型都能解决的任务上,GLM 只多用约 17% 的调用,远不到 2× · 2× 的差距几乎全部来自尾部失败案例:GLM 在某些任务上陷入 400+ 次调用的"螺旋失败" · 这说明 token 消耗是重尾分布:少数失控任务主导了整体均值。这同时也意味着--GLM 的稳定性/收敛性是比"单价"更值得关注的实际问题