构建AI智能体应优先设计路由

2026-07-01 08:00·1天前

精选理由

Tunguz 把代理架构的设计重心从模型选择拉回到路由上，三层分类器-路由器-选择器的划分很清晰，做 AI 应用的团队可以参考，但其中的新东西不多。

AI 摘要

构建AI智能体时，应优先设计路由（router）而非选择模型。路由决定每个请求由哪层模型处理。正确路由可使70-80%流量运行在免费本地模型或异步推理上，将AI开销降低90%+。Brian Armstrong指出Coinbase通过更好的默认设置、路由和缓存，在token使用量增长的同时将AI支出减半。路由分三层：技能分类器、路由器、模型选择器。本地计算近乎零成本，异步批量推理比实时推理便宜两个数量级。大多数工作无需秒级返回。同步预测器标记复杂任务，夜间批量评估器更新路由权重。技能蒸馏后，非编码类任务中70-80%智能体流量可由本地模型处理。

AI 翻译 · 中文

简言之：优先做好路由，而非纠结于模型选择。绝大多数 AI 工作都运行在廉价的小模型上。

大多数构建 AI 智能体的团队都是先选模型、再定架构。这个顺序搞反了。模型选择应该是最后一步，而不是第一步。

真正重要的是路由器——一段小型代码，用于决定每个请求由哪一层级的模型来处理。把路由器做对，70%-80% 的流量就可以运行在每次调用几乎零成本的局部模型上，或是异步模型上，后者能将 AI 支出削减 90% 以上。

Brian Armstrong 上周也表达了同样的观点，谈及 Coinbase 如何在 token 用量增长的情况下将 AI 支出减半。大意如下：

如何在 token 用量呈指数级增长的同时让 AI 支出保持平稳？答案不是靠增加摩擦和费用预警，而是靠更优的默认配置、路由机制和缓存策略。工程师可以选择任何他们想要的模型，但默认配置至关重要。

路由问题分为三个层级，每一层各司其职：

技能分类器将原始用户请求转化为具体操作。它负责回答“任务是什么”——比如草拟回复、总结代码库、执行数据迁移。分类器的本质是意图识别。
路由器决定由哪个层级来执行已分类的操作。它负责回答“由哪个模型来运行”。路由器并不直接读取提示词，而是读取分类器输出的标签以及若干特征：复杂度、上下文窗口大小、历史成功率。
模型选择器则在同一层级内选出满足置信度阈值的最便宜模型。

分类器与路由器并非同一回事。分类器是语言问题，路由器是调度问题。将两者混为一谈会把模型选择埋进提示词内部，从而丧失对不同模型在同一操作上进行 A/B 测试的能力。

局部计算几乎等于免费。异步批量推理的成本比实时推理低两个数量级。因此，真正的问题变得很窄：有多少工作比例需要实时返回答案？

一旦系统能够将任务加入队列，需要实时响应的部分其实少得惊人。

队列化正是这一策略奏效的关键。草拟回复、总结代码库、撰写尽职调查备忘录、夜间评估任务——这些都不需要在一秒内返回。

我们将第一个版本直接集成到了智能体运行环境中。路由器已经能够根据任务复杂度、上下文窗口大小以及本地记忆检索对任务进行评分。现在，路由器之上又新增了两种反馈机制，它们运行在不同的时间尺度上：

同步故障模式信号。一个预测器为每个传入的路由标注五个特征：缺失的仓库上下文、长依赖链、高风险迁移、安全敏感的提示词，以及高后果写入操作。
夜间闭环反馈。一个批量评估器在夜间对前一天的执行轨迹进行评分，并更新路由器的权重，该过程在 Sail 上通过异步推理运行，使评估成本几乎为零。

同步预测器会在已知困难任务失败之前将其捕获。夜间循环则发现预测器遗漏的新故障模式。

一旦技能蒸馏将操作集扁平化，对于大多数非编码工作，70-80% 的智能体流量可以在本地模型上运行。

其启示是：围绕路由来设计你的系统，而不是围绕模型。最后再来选择你的模型。

异步推理上的全速 Sail——实时推理与异步批量推理之间的成本差异。↩︎↩︎
Brian Armstrong 在 X 上表示——Coinbase 通过更好的默认配置、路由和缓存，在 token 使用量增长的同时将 AI 开销削减了近一半。↩︎
技能蒸馏：教会本地模型像 Claude 一样调用工具，以及 AI 的微型工厂。↩︎

一分钟阅读，将技术数据转化为战略优势。

超过 15 万位创始人和运营者在阅读。

Theory Ventures 的普通合伙人。前 Google 产品经理。分享关于 AI、Web3 和风险投资的数据驱动洞察。

彭博社 • 《华尔街日报》 • 《经济学人》

Tomer Tunguz 博客（VC 分析）

精选60导出 Markdown