Subagent:让模型把琐碎任务委托出去
阅读原文· openrouter.ai这是 OpenRouter 对 agent 交互模式的一个小但实用的创新,让主模型自动将摘要、格式化等确定性子任务分派给更便宜的小模型,做多模型编排的开发者可以直接拿来用。
OpenRouter 推出 openrouter:subagent 服务器工具,允许前沿模型在生成过程中将独立的琐碎任务(如文档总结、结构化数据提取、文本重格式化)委托给更小、更便宜、更快的 worker 模型执行,从而节省前沿模型的 token 消耗。
子智能体:让您的模型委托处理琐碎工作
Kenny Rogers · 2026年6月16日
- 在您的代码库中寻找子智能体的应用机会
- 前沿大脑,预算双手
- 底层工作原理
- 子智能体 vs. 顾问模式
- 计费说明
将 openrouter:subagent 添加到您的 tools 数组中,这样您的模型就可以在生成过程中将独立任务委托给一个更小、更便宜、更快的 worker 模型。文档摘要、结构化数据提取、模板草稿编写、文本格式重新整理:worker 模型处理这些任务并将结果传递回来。您的前沿模型继续保持编排,而无需在常规工作上消耗昂贵的模型 token。
在聊天室中尝试此功能,阅读文档,或按照 cookbook 食谱将其接入您的应用程序。
{
"model": "anthropic/claude-opus-4.8",
"messages": [{ "role": "user", "content": "Audit this release: summarize the changelog, list breaking changes, and draft the announcement." }],
"tools": [
{
"type": "openrouter:subagent",
"parameters": { "model": "z-ai/glm-5.2" }
}
]
} 模型自行决定何时进行委托。它仅在处理不需要其全部能力的任务时才会调用子智能体。
在您的代码库中寻找子智能体的应用机会
将以下提示词粘贴到您的编程智能体中,让它扫描您的项目,找出子智能体委托可以降低成本的环节:
Read through this codebase and identify places where an OpenRouter API call
could benefit from the openrouter:subagent server tool. Look for patterns where
a frontier model is doing mechanical sub-tasks inline: summarization, data
extraction, reformatting, boilerplate generation, or schema conversion.
For each candidate, explain:
1. Which file and function
2. What the sub-task is
3. Why it's a good fit for delegation (self-contained, predictable output, doesn't need the full conversation context)
4. A code snippet showing how to add the subagent tool to that call
Reference docs: https://openrouter.ai/docs/guides/features/server-tools/subagent
Cookbook recipe: https://openrouter.ai/docs/cookbook/building-agents/subagent-server-tool 前沿大脑,预算双手
Claude Opus 4.8 每百万输入模型 token 的价格是 5 美元。GPT-5.5 的价格是 5 美元。GLM 5.2 的价格是 1.40 美元。这意味着前沿模型与 worker 模型之间在输入价格上有 3.6 倍的差距,在输出价格上则有 5.7 倍的差距。(Claude Fable 5 在被移除前,每百万模型 token 的价格是 10 美元 / 50 美元,可惜了。)
前沿模型在进行代码审查时,不需要耗费自己的模型 token 来总结一份 2000 行的变更日志,或重新格式化一个 JSON 数据块。这些是机械性任务,具有明确的指令和可预测的输出。子智能体以 GLM 的价格处理这些任务,而编排器则专注于那些真正需要推理能力的部分。
在一个包含 20 次工具调用的复杂智能体工作流中,可能有 5-8 次是子智能体的委托:摘要、数据提取、模板填充、格式转换。前沿模型负责编排和评判。这样您就降低了每次请求的成本,同时在不触及棘手部分的质量天花板的情况下完成了工作。
底层工作原理
worker 模型只能看到委托模型在 task_description 中明确传递的信息。没有父级对话,没有先前上下文,任务之间没有记忆。每次委托都是一个干净的、独立的工作单元。
-
任何模型都可以作为工作模型。通过 parameters.model 指定(模型目录中的任何模型均可)。像 z-ai/glm-5.2 这样的开源模型在机械性任务中表现良好。如果不指定模型,则会回退到外部请求的模型。
-
工作模型拥有自己的工具。为工作模型提供 openrouter:web_search,它就能在响应前基于最新来源来支撑其输出。工作模型内部运行自己的工具循环;只有最终文本才返回给您的模型。
-
递归已被禁止。子智能体不能调用自身。通过深度头部和自我引用检查来防止无限嵌套,且每个请求的委托次数上限为10次。
{
"tools": [
{
"type": "openrouter:subagent",
"parameters": {
"model": "z-ai/glm-5.2",
"instructions": "You are a fast, focused worker. Complete the task exactly as described.",
"tools": [{ "type": "openrouter:web_search" }]
}
}
]
} 子智能体 vs. 顾问
这两个工具指向相反的方向。顾问工具将困难决策升级到更强的模型。子智能体则将常规工作委托给更便宜的模型。
| 顾问 | 子智能体 | |
|---|---|---|
| 方向 | 向上(咨询更强的模型) | 向下(委托给更便宜的模型) |
| 工作模型选择 | 每次调用由模型选择 | 由工具定义固定 |
| 使用场景 | “帮我思考这个问题” | “帮我完成这个机械性任务” |
| 记忆 | 跨请求对话回放 | 无(每个任务相互隔离) |
在同一请求中同时使用两者。您的前沿模型在架构决策上咨询顾问,并将摘要任务委托给子智能体。不同工具处理不同类型的工作。
计费
子智能体的 token 按工作模型的费率计费,与编排器分离。如果您的编排器是 Claude Opus 4.8(每百万 token 输入 $5 / 输出 $25),工作模型是 GLM 5.2(每百万 token 输入 $1.40 / 输出 $4.40),则每个模型的 token 按各自价格计费。两者都会显示在您的活动页面上。
在工具的数组中添加一行:
{ "type": "openrouter:subagent", "parameters": { "model": "z-ai/glm-5.2" } } 模型自行决定何时使用它。请阅读完整文档了解所有参数、工作模型工具和递归细节,或遵循代码库中的配方进行具体集成。