# 聊聊智谱市值破万亿为什么不是高估

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-06-25 06:24
- AIHOT 分数：55
- AIHOT 链接：https://aihot.virxact.com/items/cmqso7bj204tzslfusd7heueu
- 原文链接：https://x.com/karminski3/status/2069909634685772127

## AI 摘要

作者在自研的硅基骑手参考评测（silicon-rider-bench）中累计测试30个模型，发现智谱GLM系列Agent能力持续进化：GLM-5首次实现反思自身行为并主动少接单提准时率；GLM-5.1首创送顺路单，路径效率低于单次配送理论值；GLM-5.2只需看一次地图便记住全部地点与换电站位置，无需调用`search_nearby_battery_stations()`，大部分tool_call用于推进任务，分数断崖式领先。直至kimi-k2.7-code出现前，无模型超越GLM-5（2月发布），智谱Agent训练领先其他国产模型2-4个月、最大2个代差。故市值破万亿从技术层面并非高估。

## 正文

聊聊智谱市值破万亿为什么不是高估

事先声明， 个人观点仅供参考.

直接说结论， 智谱在 GLM 的 Agent 能力训练上是有东西的. 而且是领先的.

给没看过我这个评测的同学简单介绍下， 这是个我做的使用 tool_call 模拟大模型送外卖的测试 silicon-rider-bench， 大模型要像人类骑手一样接单， 然后选择合适的订单进行配送.

这个测试我累计测了30个模型， 几乎包含了近半年的全部国产大模型.

GLM-5 至 GLM-5.2 从测试上来看能明显感觉到3个阶段的进化：

最开始 GLM-5 是在所有测试模型中第一个能做到反思自己上下文行为， 然后做出改进的. 比如大部分被测试模型发现自己送餐超时被扣钱了， 都会说下次要避免. 但是只有 GLM-5 会真的采取措施， 比如尝试少接单来提升准时率.

轮到 GLM-5.1 则是所有测试模型中， 第一个实现了送顺路单的， 它在接单前就会尝试自己思考合并送餐路线， 然后送顺路单， 直接把路径效率压缩到了比单次送餐的距离理论值还低（因为同时送了n餐）.

这次 GLM-5.2 更进一步， 它只在测试开始看了一遍地图， 接下来就直接把地图记住了， 包括哪个地点附近有哪些餐厅， 甚至最猛的是电动车没电了换电的时候， 它直接就能去换电站， 而不是调用 search_nearby_battery_stations（） tool_call 来搜索. 节省下来的 tool_call 全都用来实际推进任务了， 而不是用来大量获取信息. 从分数上来看直接断崖式领先了.

不要小看这个「大部分tool_call都能用来推进任务」的能力， 转换到 Agentic Coding， 意味着它理解项目的能力可能是其他模型的数倍， 消耗少量的 token 就能产出高质量的结果.

从结果来看， 这个榜单直到 kimi-k2.7-code 出现之前， 连一个能超越 GLM-5 Agent 能力的模型都没有. 要知道 GLM-5 还是 2 月份发布的. 从这点来看， 智谱的 Agent 能力训练至少领先了其他国产模型2-4个月. 即最大2个代差.

所以智谱市值破万亿从技术层面来看， 完全不是用脚投票.

#GLM52 #AIAgent
