# Snowflake CEO 实验：GLM token 消耗是 Opus 的 2 倍，但成本更低

- 来源：meng shao (@shao__meng)
- 发布时间：2026-06-26 09:30
- AIHOT 分数：56
- AIHOT 链接：https://aihot.virxact.com/items/cmqua0ztb02ktsl80ovcpxuov
- 原文链接：https://x.com/shao__meng/status/2070318876345475420

## AI 摘要

Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token：GLM 860M、Opus 439M（约 2 倍）。原因包括平均轮次多（99 vs 80）、工具调用粒度细、缓存命中率低（53% vs 96%）。差异几乎全部来自尾部失败案例（少数任务 400+ 次调用）。归一化至 90% 缓存率后，GLM 每 session $1.12，Opus $2.14，GLM 便宜约 48%。建议：分层考量 token 量、调用次数、单价、缓存率、稳定性；优先削减尾部失控会话；同一模型换 harness 经济性可数量级变化。

## 正文

Snowflake CEO @RamaswmySridhar 做了一个深度实验，对比 GLM vs Opus 成本，发现 GLM token 消耗是 Opus 的 2 倍？

先看看实验设计
· 任务集：103 个 dbt 任务，每模型跑 3 轮，同一 harness、同一任务集--变量控制扎实
· 原始 token：GLM 860M vs Opus 439M，约 2× 差距

Token 差距的三个原因
· 平均轮次/轮：99 vs. 80，多轮 = 每轮重发全量上下文，token 按轮次线性放大
· 工具调用粒度：一次一查 vs. SQL批量，原子化调用产生大量重复上下文回传
· 缓存命中率：53% vs. 96%，缓存未命中部分按全价计费，是成本杠杆最大的一环

关键洞察：尾部效应而非整体劣化
· 两个模型都能解决的任务上，GLM 只多用约 17% 的调用，远不到 2×
· 2× 的差距几乎全部来自尾部失败案例：GLM 在某些任务上陷入 400+ 次调用的"螺旋失败"
· 这说明 token 消耗是重尾分布：少数失控任务主导了整体均值。这同时也意味着--GLM 的稳定性/收敛性是比"单价"更值得关注的实际问题

成本重算的方法论
作者把两者统一归一化到 90% 缓存命中率后比较：
· GLM-5.2 （Fireworks）：$1.12/session
· Opus-4.7 （Anthropic）：$2.14/session
· → GLM 便宜约 48%

可以借鉴的三个点
· 指标要分层：token 量、调用次数、单价、缓存率、稳定性是五条独立的轴，混为一谈会得出错误结论
· 尾部决定均值：在 agentic 场景，少数失控会话主导成本与体验，优化应优先砍尾部而非压单价
· harness 即杠杆：缓存率、批量化、轮次控制都受调用框架影响--同一模型换个 harness，经济性可数量级变化。结尾的 coco harness 预告正是这个论点的延续。

### 引用推文

> sridhar：Follow-up to my GLM vs Opus thread: let's talk cost. We ran 103 dbt tasks x 3 trials on each model. Same harness, same tasks. GLM: 860M tokens Opus: 439M tokens...
