构建AI智能体应优先设计路由
阅读原文· tomtunguz.comTunguz 把代理架构的设计重心从模型选择拉回到路由上,三层分类器-路由器-选择器的划分很清晰,做 AI 应用的团队可以参考,但其中的新东西不多。
构建AI智能体时,应优先设计路由(router)而非选择模型。路由决定每个请求由哪层模型处理。正确路由可使70-80%流量运行在免费本地模型或异步推理上,将AI开销降低90%+。Brian Armstrong指出Coinbase通过更好的默认设置、路由和缓存,在token使用量增长的同时将AI支出减半。路由分三层:技能分类器、路由器、模型选择器。本地计算近乎零成本,异步批量推理比实时推理便宜两个数量级。大多数工作无需秒级返回。同步预测器标记复杂任务,夜间批量评估器更新路由权重。技能蒸馏后,非编码类任务中70-80%智能体流量可由本地模型处理。
简言之:优先做好路由,而非纠结于模型选择。绝大多数 AI 工作都运行在廉价的小模型上。
大多数构建 AI 智能体的团队都是先选模型、再定架构。这个顺序搞反了。模型选择应该是最后一步,而不是第一步。
真正重要的是路由器——一段小型代码,用于决定每个请求由哪一层级的模型来处理。把路由器做对,70%-80% 的流量就可以运行在每次调用几乎零成本的局部模型上,或是异步模型上,后者能将 AI 支出削减 90% 以上。
Brian Armstrong 上周也表达了同样的观点,谈及 Coinbase 如何在 token 用量增长的情况下将 AI 支出减半。大意如下:
如何在 token 用量呈指数级增长的同时让 AI 支出保持平稳?答案不是靠增加摩擦和费用预警,而是靠更优的默认配置、路由机制和缓存策略。工程师可以选择任何他们想要的模型,但默认配置至关重要。
路由问题分为三个层级,每一层各司其职:
- 技能分类器将原始用户请求转化为具体操作。它负责回答“任务是什么”——比如草拟回复、总结代码库、执行数据迁移。分类器的本质是意图识别。
- 路由器决定由哪个层级来执行已分类的操作。它负责回答“由哪个模型来运行”。路由器并不直接读取提示词,而是读取分类器输出的标签以及若干特征:复杂度、上下文窗口大小、历史成功率。
- 模型选择器则在同一层级内选出满足置信度阈值的最便宜模型。
分类器与路由器并非同一回事。分类器是语言问题,路由器是调度问题。将两者混为一谈会把模型选择埋进提示词内部,从而丧失对不同模型在同一操作上进行 A/B 测试的能力。
局部计算几乎等于免费。异步批量推理的成本比实时推理低两个数量级。因此,真正的问题变得很窄:有多少工作比例需要实时返回答案?
一旦系统能够将任务加入队列,需要实时响应的部分其实少得惊人。
队列化正是这一策略奏效的关键。草拟回复、总结代码库、撰写尽职调查备忘录、夜间评估任务——这些都不需要在一秒内返回。
我们将第一个版本直接集成到了智能体运行环境中。路由器已经能够根据任务复杂度、上下文窗口大小以及本地记忆检索对任务进行评分。现在,路由器之上又新增了两种反馈机制,它们运行在不同的时间尺度上:
- 同步故障模式信号。一个预测器为每个传入的路由标注五个特征:缺失的仓库上下文、长依赖链、高风险迁移、安全敏感的提示词,以及高后果写入操作。
- 夜间闭环反馈。一个批量评估器在夜间对前一天的执行轨迹进行评分,并更新路由器的权重,该过程在 Sail 上通过异步推理运行,使评估成本几乎为零。
同步预测器会在已知困难任务失败之前将其捕获。夜间循环则发现预测器遗漏的新故障模式。
一旦技能蒸馏将操作集扁平化,对于大多数非编码工作,70-80% 的智能体流量可以在本地模型上运行。
其启示是:围绕路由来设计你的系统,而不是围绕模型。最后再来选择你的模型。
异步推理上的全速 Sail——实时推理与异步批量推理之间的成本差异。↩︎↩︎
Brian Armstrong 在 X 上表示——Coinbase 通过更好的默认配置、路由和缓存,在 token 使用量增长的同时将 AI 开销削减了近一半。↩︎
技能蒸馏:教会本地模型像 Claude 一样调用工具,以及 AI 的微型工厂。↩︎
一分钟阅读,将技术数据转化为战略优势。
超过 15 万位创始人和运营者在阅读。
Theory Ventures 的普通合伙人。前 Google 产品经理。分享关于 AI、Web3 和风险投资的数据驱动洞察。
彭博社 • 《华尔街日报》 • 《经济学人》