OpenRouter:多模型路由成趋势,成本压力驱动企业从单一LLM转向跨模型推理
阅读原文· openrouter.aiOpenRouter 用内部数据证实多模型路由正在成为企业降本的核心策略,比「选一个模型全家用」更务实,做 AI 预算的值得读读这些真实增长曲线。
OpenRouter数据显示,企业正从单一LLM转向跨模型族推理,成本压力是推动路由决策的关键。Anthropic的Opus 4.7因tokenizer tax导致输入token增加约35%;新模型Fable($10/M输入,$50/M输出)和OpenAI的GPT-5.5 Pro($30/M输入,$180/M输出)定价更高。3月至4月间有90个新模型发布,进一步增加了可选性。
晚餐已上桌
Afzal Jasani · 2026年6月11日
- 多样选择之辩
- 路由是一等公民
- 永向更好
几周前,我和团队在旧金山参加一场会议。我们原本计划在一家相当普通的美式餐厅吃晚餐,但我另有打算,迅速临时调整,订到了一家寿司店的位置。临时变卦固然不理想,但在展台忙了一整天之后,吃一顿平庸的餐食同样糟糕。况且,谁不爱寿司呢?
过去十年里,我和妻子每逢庆祝都会去吃寿司 Omakase(主厨发办)。我甚至不用看菜单就能点菜。大多数缺乏经验的寿司爱好者会直奔金枪鱼大腩,但其实选择还有很多。所以我很自然地告诉大家,由我来替全桌点菜。我每次和朋友、家人、同事聚餐都这么做。在这种特定场合下,百分之百的人都愿意把自主权交给我,只为享受一顿好餐。
关于如何分享餐食,我有一个非常坚定的观点:永远选合餐制。
多样选择之辩
但为什么呢?一方面,这样可以降低独自点菜的风险——万一你点的夏威夷肋眼牛排难吃得要命。另一方面,它放大了那种记忆:“天哪,那块鱼子酱和牛肉的搭配是我今年吃过的最棒的一口”。那一刻会留在我们心里。我总是说,第一次去一家店,就尝尝所有菜品。之后随时可以再点。但只有合餐制才能做到这一点。
只标准化使用一个大语言模型,就相当于每个人都各自点一份主菜。你可能是在追求安全稳妥,而不是最佳结果。我和数百家公司交流过,他们踏上 AI 之旅时都只选择一家供应商,比如 OpenAI、Anthropic 或 Gemini。当标准化使用一家供应商时,你是在根据今天已知的信息和今天的需求下注。这就是那句老话:“买和实施 Salesforce 不会让任何人被解雇”——不过这种情况正在改变。当我和这些公司交谈时,他们已经准备好“升级”,开始使用不止一个模型家族和不止一种模态。新的用例每天都在涌现。通常情况是这样的:
- 先从 OpenAI 企业版开始,向少数几个团队部署许可证。
- 监控初始用户群体的使用情况,呈现持续上升的趋势。
- 为更多团队开放访问权限。
- 图像生成、转录和创意写作等新用例逐渐涌现。
- 发现 OpenAI 的模型并不适合你的应用场景,你需要改用 Gemini。
- 转到 Gemini 或其他供应商进行接入设置,而此时可观测性、治理和资源调配功能都出现了故障。
我目前观察到的模式看似是成本压力,但问题远不止于此。许多公司已经用完了年度预算,而现在才刚到六月。大家迫切希望减少模型 token 用量,这完全可以理解。如果你不小心使用了 Opus 4.8,可能会直接耗尽当日预算,届时别无选择,只能合上笔记本电脑出去散散步。
虽然 Opus 4.7 的标价没有变化,但有多人提到了“Tokenizer 税”。这是 Anthropic 做出的一项静默调整,导致输入 token 数量增加了近 35%。这是一个重大的变化。更新、能力更强的模型价格也在上涨。Anthropic 发布了 Fable,定价为每百万输入 token 10 美元,每百万输出 token 50 美元。还有更贵的:OpenAI 的 GPT-5.5 Pro 定价为每百万输入 token 30 美元,每百万输出 token 180 美元。请谨慎使用!
成本压力是一种强制机制,既可能带来更好的结果,也可能导致更糟的局面。从我个人的观察来看,我乐观地认为它正促使一些更好的成果出现。同时,我也很幸运能够推动这些成果的实现。这在我之前从事数据基础设施工作时是一个常见的话题。许多讨论都围绕着计算成本以及团队在数据仓库上的支出。但这往往过于关注显性成本,而忽视了隐性成本。最具战略眼光的领导者会反过来思考这个问题。我常听到这样的话:“我每年已经在计算成本上花了 100 万美元,所以我不在乎再节省 30%。相反,更有价值的是,让我那支每年花费 700 万美元、由 40 名分析师组成的团队变得更高效。我需要的是开发工具的快速性和效率。”
路由是一项核心功能。
在进入下一部分之前,先简单说明一下 OpenRouter 到底是什么。OpenRouter 是一个接入 AI 的规范化市场。我们让推理变得简单易用。我们省去了挑选提供商、选择模型以及理解延迟、价格、TPS、模型基准测试等各种麻烦事的全部负担。
所以现在你可以通过 OpenRouter,用一套干净标准的 API 规范,在一个地方访问数百个大语言模型。这是多么令人惊叹的事情?这一切听起来都很棒,几乎就像鱼与熊掌可以兼得,但人们在实际操作中到底是怎么做的呢?
幸运的是,我获得了一些相关数据。而且时机也刚刚好,今天团队发布了我们的分析 API!

多模型采用一直是我们持有的假设,但从这些数据中我们也能清晰地看到增长趋势。这合情合理,也在意料之中,但它掩盖了一个事实:大多数人可能只是在尝试每个模型的最新版本。例如,在图表的时间范围内,Anthropic 发布了 Opus 4.6、Opus 4.7 和 Opus 4.8。因此,更有趣的是用户如何在不同的模型族之间进行采用。

现在我们可以捕捉到用户主动将推理分散到不同模型族的真实增长情况。这描绘出了一幅更真实的持续进阶图景。让我们再加入一个关于模型发布的数据点。

这是一张累积图表,因为发布节奏并不总是稳定的。但我们可以看到从三月到四月有一个巨大的异常值,期间发布了 90 个新模型。这太惊人了!可供选择的模型越来越多,且速度越来越快。
这也会带来一点压力。就像去一家餐厅,菜单上有 225 道菜(这是我特别喜欢的一家餐厅)。即便是家庭套餐,你也无法尝遍所有菜品。我们显然考虑到了这一点,并不希望用户必须了解每一个模型之间的差异。因此,我们构建了自动路由器和帕累托路由器等功能,让用户更容易选择要使用的模型。
这一切都回到我前面提到的成本压力。企业实际上正在以一种有趣的方式使用OpenRouter。他们能够随着时间的推移降低每个模型token的平均加权成本。这怎么可能呢?如果你根据所需的结果,将特定的工作负载路由到特定的模型提供商和模型,那么你就可以利用像DeepSeek V4 Flash这样的模型,它的输入成本仅为每百万token约0.10美元,输出成本为每百万token约0.20美元。
更进一步,你可以利用像Cerebras这样的模型提供商,它拥有最佳的吞吐量之一,然后你就成了布拉德利·库珀那样的指挥大师,只不过重活由我们替你干了。

或者你可以将部分流量路由到Gemini模型的灵活优先层级,享受50%的折扣。再次强调,选择权在你手上。

我们有一些关于模型智能的激动人心的新内容,很快就会分享。总的来说,主题依然不变:让推理开箱即用。
始终追求更好
感觉推动AI采用的顺风正在转向AI优化。我们明白,我们在AI推理上花费的资金不会出现任何大幅度的减少,那么下一个最佳选择是什么?就是降低每个模型token的平均加权成本。组织在跨团队民主化使用的同时,也在降低治理风险方面变得更加有意识。这实际上只有在你不被单一供应商锁定的时候才能实现。当你为不同用例选择不同的模型时,你在每一步都获得了杠杆作用。你终于可以坐到餐桌旁,随心所欲地吃,就像家庭聚餐一样。