Gemini 2.5 Flash API - 定价、快速入门与提供商比较
阅读原文· openrouter.ai这是 OpenRouter 上接入 Gemini 2.5 Flash 的保姆级指南,把三家 Google 提供商的延迟和定价差异摆在明面上,需要做模型选型和成本估算的开发者可以直接抄里面的 quickstart 代码。
Gemini 2.5 Flash API 支持配置思考预算(thinking budgets),用户可跨提供商进行比较,并在5分钟内完成首次API调用。
Gemini 2.5 Flash API - 定价、快速入门与提供商对比 — OpenRouter 博客
Gemini 2.5 Flash API - 定价、快速入门与提供商对比
OpenRouter · 2026 年 6 月 9 日

本页内容
- 什么是 Gemini 2.5 Flash?
- Gemini 2.5 Flash API 定价
- API 快速入门:5 分钟内完成首次请求
- 思考预算:控制推理质量与成本
- 跨提供商性能
- Gemini 2.5 Flash vs Flash Lite vs Pro
- 技术规格
- 常见问题
什么是 Gemini 2.5 Flash?
Gemini 2.5 Flash 是 Google 的主力模型,适用于需要推理能力的高吞吐、低延迟任务。它是首个内置思考能力的 Flash 级模型,采用可随意开关的混合推理模式。这一特性使其与 2.0 Flash 有本质区别,值得与成本显著更高的模型进行对比评估。
核心能力
Gemini 2.5 Flash 支持以下输入类型:文本、代码、图像、音频、视频和文档。对于文档输入,生产环境中有两项限制:每个文档的最大文件大小为 50MB(超过此限制的文件必须在提交前拆分为小于 50MB 的块)。支持的文档 MIME 类型仅限于 application/pdf 和 text/plain。
不支持以下功能:音频生成、图像生成以及 Live API。如果需要图像生成,请使用 Gemini 2.5 Flash Image,这是一个独立的模型。
“思考”在实际中的含义
思考预算是一个参数,用于控制在生成回复之前模型执行多少内部推理。该参数在推理阶段内置于模型架构中。将预算设置为 0 会完全禁用思考功能,产生最快、最便宜的输出。设置为 -1 则启用动态模式,模型会根据提示词的复杂程度自动调整推理深度。在 Google 的直接 API 上,-1 是默认值。通过 OpenRouter 使用时,除非您明确请求,否则思考功能默认关闭(参见下方“通过 OpenRouter 进行配置”)。提高固定预算可以提升复杂任务的输出质量,但代价是延迟增加、token 消耗增多,并按照输出费率计费。
Gemini 2.5 Flash API 定价
下表显示了三种访问方式下经核实的每百万模型 token 费率。所有定价数据来源于 ai.google.dev/gemini-api/docs/pricing 和 openrouter.ai/google/gemini-2.5-flash。请对照撰写当日的实时页面验证 OpenRouter 和 Vertex AI 的数字;费率会随时更新,恕不另行通知。
验证日期:2026 年 5 月
| 提供商 | 输入($/1M) | 输出($/1M,含思考 token) | 缓存读取 | 缓存存储 | 音频输入 |
|---|---|---|---|---|---|
| Google AI Studio(付费版) | $0.30 | $2.50 | $0.03 | $1.00/M/hr | $1.00 |
| Vertex AI | 请查看 Vertex AI 定价 | 请查看 Vertex AI 定价 | 请查看 Vertex AI 定价 | 请查看 Vertex AI 定价 | 请查看 Vertex AI 定价 |
| OpenRouter | $0.30 | $2.50 | $0.03 | 请查看实时页面验证 | $1.00 |
截至 2026 年 5 月,Google AI Studio 付费版与 OpenRouter 在文本输入和输出上的每模型 token 费率相同。每 token 价格相同。区别在于 API 调用周边的附加服务。
OpenRouter 位于你的代码与三个 Google 提供商(AI Studio、Vertex Global、Vertex)之间。如果其中一个出现故障,你的请求会自动路由到一个正常的提供商。无需更改代码。
你的集成不会绑定在 Gemini 上。更改模型字符串,你就可以调用 Claude、GPT-4o、Llama 或任何 300 多种模型。相同的 base URL,相同的 SDK,相同的 API key。无需重写客户端,即可在数秒内切换模型。
计费整合到一个仪表盘中:一张账单、一个 API key,涵盖所有模型和提供商。无需再分别管理 Google、Anthropic 和 OpenAI 的独立账户。
对于部署到生产环境的团队,OpenRouter 增加了企业级控制功能(资源调配、每个 key 的消费限额、使用分析、团队管理)。护栏和内容过滤可按每个请求进行配置,因此无需自建审核栈即可执行安全策略。提示词日志记录和可观测性直接内置在仪表盘中,用于调试生产流量。
OpenRouter 对按需付费(PAYG)信用购买收取 5.5% 的平台费用。这涵盖了上述的故障转移、路由、计费和工具。Google AI Studio 是直接路径,没有中介费用,但你需要自行处理故障转移、模型可移植性和跨提供商计费。Vertex AI 的定价不同;在将其用于生产成本估算之前,请查看 Vertex AI 定价页面以获取当前费率。
对于各服务商的实时 Gemini 2.5 Flash 定价与正常运行时间,包括实时缓存费率及各服务商的有效价格,请参考 OpenRouter 模型页面。关于可降低重复上下文成本的缓存策略,请参阅缓存定价详情。
思维 Token 计费
思维 token 按输出 token 的相同费率计费。当 budget 为 0 时,无思维成本。在最大 budget(24,576 个 token)下,思维开销可能超过可见响应的成本。要估算特定工作负载的成本,请将预期的思维 token 数量乘以输出费率,并将其加到标准输出 token 成本中。
免费访问选项
Google AI Studio 提供了一个有速率限制的免费套餐。在免费套餐中,您的提示词和响应可能会被用于改进 Google 的产品;具体数据使用政策请参阅服务条款。如果您的使用场景涉及用户数据,或要求数据不用于模型训练,则必须使用付费套餐。
OpenRouter 未将 Gemini 2.5 Flash 纳入其免费套餐。需要至少 5 美元的信用额度。
Vertex AI 为新 Google Cloud 账户提供 300 美元的试用额度,可用于 Gemini 2.5 Flash 的评估使用。
API 快速入门:5 分钟内发出首次请求
OpenRouter 路径无需 Google Cloud 账户,且可与任何兼容 OpenAI 的 SDK 配合使用。Google 直连路径需要 Google 账户和 google-genai SDK。有关更多 SDK 示例和配置选项,请参阅 OpenRouter 快速入门指南。
步骤 1:获取您的 API 密钥
OpenRouter 路径:获取您的 OpenRouter API 密钥。无需 Google Cloud 账户。
Google 直连路径:在 aistudio.google.com/apikey 获取密钥。
步骤 2:设置 Base URL(OpenRouter 路径)
OpenRouter base URL 为 https://openrouter.ai/api/v1。以下三个代码示例均使用此端点。
步骤 3:发出首次请求
cURL:
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer <your-openrouter-key>" \
-H "Content-Type: application/json" \
-d '{
"model": "google/gemini-2.5-flash",
"messages": [{"role": "user", "content": "Explain the difference between attention mechanisms in transformers."}]
}'
Python (OpenAI SDK):
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="<your-openrouter-key>",
)
response = client.chat.completions.create(
model="google/gemini-2.5-flash",
messages=[{"role": "user", "content": "Explain the difference between attention mechanisms in transformers."}]
)
print(response.choices[0].message.content)
TypeScript (OpenAI SDK):
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://openrouter.ai/api/v1",
apiKey: "<your-openrouter-key>",
});
const response = await client.chat.completions.create({
model: "google/gemini-2.5-flash",
messages: [{ role: "user", content: "Explain the difference between attention mechanisms in transformers." }],
});
console.log(response.choices[0].message.content);
Google 直连路径
如果您已有 Google AI Studio API 密钥,且希望使用无中介的直接路径:
from google import genai
client = genai.Client(api_key="<your-google-api-key>")
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="Explain the difference between attention mechanisms in transformers.",
)
print(response.text)
直接路径使用 google-genai SDK,它与 OpenAI 不兼容。从 OpenRouter 切换到直接路径需要同时更改客户端库和请求结构。直接路径上没有提供商故障切换。
思考预算:控制推理质量与成本
思考预算是你为这个模型所做的最重要的配置决策。设置错误的话,要么为你不需要的推理多付钱,要么在需要推理准确性的任务上损失精度。完整的参数参考,请参见配置思考预算。
预算级别与权衡
在请求配置中设置 thinkingBudget 参数。取值范围为 0 到 24,576 个 token。
预算 0:禁用思考。响应最快,成本最低,无推理开销。适用于大批量分类、提取和摘要场景,这些场景不需要结构化推理。
预算 -1(动态):模型根据提示词复杂度自动选择推理深度。这是 Google 直接 API 上的默认设置。通过 OpenRouter,你必须显式地将 max_tokens 设置为 -1 才能获得动态模式;省略 reasoning 配置则会禁用思考。推荐用于大多数需要推理的工作负载;它避免了在简单提示词上为重度推理付费,同时在任务需要时启动推理。
预算 1,024 到 8,192:中等至重度推理。适用于多步骤分析、结构化编码任务和研究型问题。
预算 24,576(最大值):最大推理深度,最高成本。适用于复杂数学、科学问题和硬编码挑战,在这些场景中,准确性足以证明其开销是合理的。
关键约束
如果在编写第一个请求之前不了解以下两个约束,它们将在生产环境中产生错误:
thinkingBudget 和 thinkingLevel 不能在同一请求中使用。thinkingBudget 适用于 Gemini 2.5 系列模型。thinkingLevel 适用于 Gemini 3 系列模型。同时使用两者会返回 400 错误。
结构化 JSON 输出和搜索接地(Search Grounding)是互斥的。你无法在同一请求中同时启用两者。
通过 OpenRouter 配置
使用带有 reasoning 键的 extra_body 参数,通过 OpenRouter 的 API 设置思考预算:
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="<your-openrouter-key>",
)
response = client.chat.completions.create(
model="google/gemini-2.5-flash",
messages=[{"role": "user", "content": "Solve this step by step: if f(x) = 3x^2 + 2x - 5, find all roots."}],
extra_body={"reasoning": {"max_tokens": 8192}}
)
print(response.choices[0].message.content)
要完全禁用思考,将 max_tokens 设置为 0。要使用动态模式,将 max_tokens 设置为 -1。
跨提供商性能
OpenRouter 通过三个 Google 提供商路由 Gemini 2.5 Flash,并跟踪每个提供商的实时吞吐量、首 Token 时间(TTFT)、端到端延迟和正常运行时间。提供商之间的差异足以影响对延迟敏感工作负载的提供商选择。
以下所有数字都需要对照 openrouter.ai/google/gemini-2.5-flash 进行实时验证。
按提供商划分的性能
来源:OpenRouter 实时模型页面。
| 提供商 | 平均吞吐量 | 平均 TTFT | 平均端到端延迟 | 正常运行时间 |
|---|---|---|---|---|
| Google Vertex(全球) | ~75 tok/s | ~0.63s | 在实时页面验证 | 在实时页面验证 |
| Google AI Studio | 在实时页面验证 | 在实时页面验证 | 在实时页面验证 | 在实时页面验证 |
| Google Vertex | 在实时页面验证 | 在实时页面验证 | 在实时页面验证 | 在实时页面验证 |
Vertex Global 提供商在最近数据中显示出最高的吞吐量。AI Studio 在历史上显示出最好的正常运行时间。标准 Vertex 在这三个中表现出最高的延迟。当您通过 OpenRouter 路由而未指定提供商时,它会根据实时信号自动将流量分配到最健康的选择。
有关实时的 Gemini 2.5 Flash 定价和正常运行时间,请参阅 OpenRouter 模型页面。
Gemini 2.5 Flash 对比 Flash Lite 与 Pro
根据您的工作负载需求选择:
在大多数智能体和推理工作负载中使用 Gemini 2.5 Flash。当您需要思考能力但不想产生 Pro 级别的成本时,它是默认推荐。
在不需要思考且每请求成本是主要约束条件的高容量分类、提取或翻译任务中,使用 Gemini 2.5 Flash Lite。Flash Lite 默认禁用思考。
在复杂推理任务中使用 Gemini 2.5 Pro,这些任务中准确性足以证明其成本比 Flash 高 5 到 10 倍是合理的:前沿数学、硬编码挑战和多步科学分析。
技术规格
下表是 Gemini 2.5 Flash 的规范参考。权威版本请参见 Google AI for Developers 模型页面(更新于 2026-04-01)和 Vertex AI 文档(更新于 2026-04-03)。
| 属性 | 值 |
|---|---|
| 模型 ID | gemini-2.5-flash |
| OpenRouter 模型字符串 | google/gemini-2.5-flash |
| 上下文窗口 | 1,048,576 tokens |
| 最大输出 | 65,536 tokens |
| 输入类型 | 文本、图像、视频、音频、代码、文档(仅限PDF和text/plain,最大50MB) |
| 输出类型 | 文本 |
| 思考预算范围 | 0 到 24,576 tokens(默认:动态 / -1) |
| 知识截止日期 | 2025年1月 |
| 正式发布 | 2025年6月17日 |
| 停用日期 | 2026年10月16日 |
| 支持的功能 | 函数调用、结构化输出、代码执行、Search Grounding、Batch API、上下文缓存(隐式和显式)、文件搜索、URL 上下文 |
| 不支持 | 音频生成、图像生成、Live API、thinkingLevel 参数 |
弃用通知:Gemini 2.5 Flash 计划于 2026 年 10 月 16 日在 Vertex AI 上停用。如果你正在构建生产环境用例并需要使用到该日期之后,请规划迁移到后续模型,并关注 ai.google.dev/gemini-api/docs/models 以获取更新。
常见问题解答
Gemini 2.5 Flash 是免费的吗?
Google AI Studio 提供带有速率限制的免费套餐。在免费套餐中,你的提示词和响应会被用于改进 Google 的产品;在将其用于用户数据之前,请查看服务条款。OpenRouter 不将 Gemini 2.5 Flash 纳入其免费套餐;需要至少 5 美元的余额。Vertex AI 为新的 Google Cloud 账户提供 300 美元的试用额度。
Gemini 2.5 Flash 中的思考预算是多少?
thinkingBudget 参数(范围:0 到 24,576 tokens,或 -1 表示动态)控制模型在回答前进行内部推理的量。预算为 0 时禁用思考:最快且最便宜。预算为 -1 时启用动态模式:模型根据提示复杂度自动调整。在 Google 的 direct API 上,-1 是默认值。通过 OpenRouter 时,除非你明确请求(例如,extra_body={"reasoning": {"max_tokens": -1}} 用于动态,或任何正数预算),否则思考功能默认关闭。较高的固定预算可以提升复杂任务的输出质量,但会增加延迟和成本,按输出 token 费率计费。
Gemini 2.5 Flash 与 GPT-4o 相比如何?
Flash 支持 1M-token 的上下文窗口,而 GPT-4o 为 128K,并且包含 GPT-4o 所不具备的可配置思考功能。Flash 的每 token 定价更低。GPT-4o 拥有更广泛的第三方生态系统支持和更长的生产记录。本指南未发布这两款模型在同一评估上的直接基准比较;请使用 OpenRouter 排行榜获取当前的第三方评估数据。
我可以用 Gemini 2.5 Flash 进行图像生成吗?
不能。Gemini 2.5 Flash 仅输出文本。支持图像输入;该模型可以处理图像并对其进行推理。对于图像生成,请使用 Gemini 2.5 Flash Image,这是一个单独定价的独立模型。
哪些提供商在 OpenRouter 上提供 Gemini 2.5 Flash?
三家:Google AI Studio、Google Vertex Global 和 Google Vertex。OpenRouter 会根据实时吞吐量和正常运行时间数据自动路由到运行状况最佳的提供商。您可以通过 OpenRouter 的提供商路由控件固定使用特定的提供商。
Gemini 2.5 Flash 和 Flash Lite 有什么区别?
Flash 包含可配置思考(预算为 0 到 24,576)和更高质量的输出。Flash Lite 针对超低延迟和成本进行了优化,默认禁用思考(尽管可以启用)。当推理能力至关重要时使用 Flash;当每次请求的成本是主要限制条件的高容量任务中使用 Lite。