meng shao@shao__meng

2026-06-26 09:30·6天前

AI 摘要

Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token：GLM 860M、Opus 439M（约 2 倍）。原因包括平均轮次多（99 vs 80）、工具调用粒度细、缓存命中率低（53% vs 96%）。差异几乎全部来自尾部失败案例（少数任务 400+ 次调用）。归一化至 90% 缓存率后，GLM 每 session $1.12，Opus $2.14，GLM 便宜约 48%。建议：分层考量 token 量、调用次数、单价、缓存率、稳定性；优先削减尾部失控会话；同一模型换 harness 经济性可数量级变化。

Snowflake CEO @RamaswmySridhar 做了一个深度实验，对比 GLM vs Opus 成本，发现 GLM token 消耗是 Opus 的 2 倍？

先看看实验设计 · 任务集：103 个 dbt 任务，每模型跑 3 轮，同一 harness、同一任务集--变量控制扎实 · 原始 token：GLM 860M vs Opus 439M，约 2× 差距

Token 差距的三个原因 · 平均轮次/轮：99 vs. 80，多轮 = 每轮重发全量上下文，token 按轮次线性放大 · 工具调用粒度：一次一查 vs. SQL批量，原子化调用产生大量重复上下文回传 · 缓存命中率：53% vs. 96%，缓存未命中部分按全价计费，是成本杠杆最大的一环

关键洞察：尾部效应而非整体劣化 · 两个模型都能解决的任务上，GLM 只多用约 17% 的调用，远不到 2× · 2× 的差距几乎全部来自尾部失败案例：GLM 在某些任务上陷入 400+ 次调用的"螺旋失败" · 这说明 token 消耗是重尾分布：少数失控任务主导了整体均值。这同时也意味着--GLM 的稳定性/收敛性是比"单价"更值得关注的实际问题

成本重算的方法论作者把两者统一归一化到 90% 缓存命中率后比较： · GLM-5.2 （Fireworks）：$1.12/session · Opus-4.7 （Anthropic）：$2.14/session · → GLM 便宜约 48%

可以借鉴的三个点 · 指标要分层：token 量、调用次数、单价、缓存率、稳定性是五条独立的轴，混为一谈会得出错误结论 · 尾部决定均值：在 agentic 场景，少数失控会话主导成本与体验，优化应优先砍尾部而非压单价 · harness 即杠杆：缓存率、批量化、轮次控制都受调用框架影响--同一模型换个 harness，经济性可数量级变化。结尾的 coco harness 预告正是这个论点的延续。

sridharFollow-up to my GLM vs Opus thread: let's talk cost. We ran 103 dbt tasks x 3 trials on each model. Same harness, same tasks. GLM: 860M tokens Opus: 439M tokens...

智能体 Anthropic 推理评测/基准

在 X 查看原推

meng shao@shao__meng · X

56导出 Markdown

2026-06-26 09:30·6天前

在 X 看原推· x.com

AI 摘要

Snowflake CEO @RamaswmySridhar 做了一个深度实验，对比 GLM vs Opus 成本，发现 GLM token 消耗是 Opus 的 2 倍？

先看看实验设计 · 任务集：103 个 dbt 任务，每模型跑 3 轮，同一 harness、同一任务集--变量控制扎实 · 原始 token：GLM 860M vs Opus 439M，约 2× 差距