Gemini 2.5 Flash API:定价、快速入门与提供商对比
阅读原文· openrouter.aiGemini 2.5 Flash 最值得关注的是 thinking budget,这篇教程把怎么用、怎么省都讲清楚了,但对早已熟悉文档的开发者来说新东西有限。
Gemini 2.5 Flash API 的定价与快速入门指南,指导用户配置 thinking budgets、比较不同提供商,并在 5 分钟内完成首次 API 调用。
Gemini 2.5 Flash API - 定价、快速入门与提供商对比
OpenRouter · 2026/6/9
- 什么是 Gemini 2.5 Flash?
- Gemini 2.5 Flash API 定价
- API 快速入门:5 分钟内发出首次请求
- 思考预算:控制推理质量与成本
- 跨提供商性能
- Gemini 2.5 Flash vs Flash Lite vs Pro
- 技术规格
- 常见问题
什么是 Gemini 2.5 Flash?
Gemini 2.5 Flash 是 Google 面向高吞吐、低延迟且需要推理能力的任务所提供的主力模型。它是首款内置思考能力的 Flash 级模型,具备一种混合推理模式,你可以根据需要随时开启或关闭。这一差异使其与 2.0 Flash 有了本质区别,也值得与定价高得多的模型进行对比评估。
关键能力
Gemini 2.5 Flash 支持以下输入类型:文本、代码、图片、音频、视频和文档。对于文档输入,生产环境中有两项限制:每个文档的最大文件大小为 50MB(超过此限制的文件必须在提交前拆分为多个小于 50MB 的片段)。支持的文档 MIME 类型仅限于 application/pdf 和 text/plain。
不支持的功能包括:音频生成、图像生成以及 Live API。如果你需要图像生成,请使用 Gemini 2.5 Flash Image,这是一个独立的模型。
“思考”在实际使用中意味着什么
思考预算是一个参数,用于控制模型在生成回答前进行内部推理的程度。该机制在推理过程中内置于模型架构中。将预算设为 0 可完全禁用思考功能,从而获得最快、最便宜的输出。设为 -1 则启用动态模式,模型会根据提示词的复杂程度自动调整推理深度。在 Google 直接 API 上,-1 是默认值。通过 OpenRouter 使用时,思考默认关闭,除非你明确请求开启(见下方“通过 OpenRouter 配置”)。更高的固定预算能在复杂任务上提升输出质量,但会带来额外的延迟和 token 消耗,并按输出速率计费。
Gemini 2.5 Flash API 定价
下方表格显示了三种接入方式下,经核实的每百万 tokens 费率。所有定价数据均来自 ai.google.dev/gemini-api/docs/pricing 和 openrouter.ai/google/gemini-2.5-flash。请在撰写当日对照 OpenRouter 和 Vertex AI 的实时页面验证相关数字;费率会随时更新,恕不另行通知。
验证日期:2026 年 5 月
| 提供商 | 输入 $/1M | 输出 $/1M(含思考过程) | 缓存读取 | 缓存存储 | 音频输入 |
|---|---|---|---|---|---|
| Google AI Studio(付费版) | $0.30 | $2.50 | $0.03 | $1.00/M/hr | $1.00 |
| Vertex AI | 参见 Vertex AI 定价页面 | 参见 Vertex AI 定价页面 | 参见 Vertex AI 定价页面 | 参见 Vertex AI 定价页面 | 参见 Vertex AI 定价页面 |
| OpenRouter | $0.30 | $2.50 | $0.03 | 在实时页面上验证 | $1.00 |
截至 2026 年 5 月,Google AI Studio 付费版与 OpenRouter 在文本输入和输出上的每 token 费率相同。每个 token 的价格相同。API 调用外层的服务才是两者的分水岭。
OpenRouter 位于你的代码与 3 家 Google 提供商(AI Studio、Vertex Global、Vertex)之间。如果其中一家发生故障,你的请求会自动路由到健康的一家。无需修改代码。
你的集成方案并非与 Gemini 深度绑定。更改模型字符串即可调用 Claude、GPT-4o、Llama 或 300 多个模型中的任意一个。同一个 base URL、同一个 SDK、同一个 API key。数秒内即可切换模型,无需重写客户端代码。
计费集中在一个仪表盘:跨所有模型和提供商,只需一张发票、一个 API key。无需在 Google、Anthropic 和 OpenAI 之间切换管理各自的账户。
对于投入生产的团队,OpenRouter 还增加了企业级控制功能(资源调配、按 key 的消费限额、用量分析、团队管理)。每个请求都可配置护栏和内容过滤,因此无需自建审核模块即可执行安全策略。提示词日志记录和可观测性功能内置于仪表盘中,便于调试生产流量。
OpenRouter 对按量付费(PAYG)积分充值收取 5.5% 的平台费。该费用涵盖了上述故障转移、路由、计费和工具。Google AI Studio 是直接路径,没有中间方费用,但你需要自行处理故障转移、模型可移植性和跨提供商计费。Vertex AI 的定价有所不同;在将其纳入生产成本估算之前,请先查看 Vertex AI 定价页面上的当前费率。
关于各提供商提供的 Gemini 2.5 Flash 实时定价和运行时间,包括实时缓存费率和按提供商计算的生效定价,请参阅 OpenRouter 模型页面。关于降低重复上下文成本的缓存策略,请参阅缓存定价详情。
思考型 Token 计费
思考型 token 按与输出 token 相同的费率计费。预算为 0 时,没有思考成本。在最大预算(24,576 个 token)下,思考开销可能超过可见回复本身的成本。要估算给定工作负载的成本,请将预期的思考型 token 数乘以输出费率,并将其添加到标准输出 token 成本中。
免费访问选项
Google AI Studio 提供带速率限制的免费层级。在免费层级上,您的提示词和回复会被用于改进 Google 的产品;有关完整的数据使用政策,请参阅服务条款。如果您的用例涉及用户数据,或要求数据不得用于模型训练,则必须使用付费层级。
OpenRouter 的免费层级不包含 Gemini 2.5 Flash。需要至少 5 美元的信用余额。
Vertex AI 为新 Google Cloud 账户提供 300 美元的试用信用额度,可用于评估期间的 Gemini 2.5 Flash 使用。
API 快速入门:在 5 分钟内发出首个请求
OpenRouter 方式无需 Google Cloud 账户,且适用于任何与 OpenAI 兼容的 SDK。Google 直接方式需要 Google 账户和 google-genai SDK。更多 SDK 示例和配置选项,请参阅 OpenRouter 快速入门。
步骤 1:获取您的 API 密钥
OpenRouter 方式:获取您的 OpenRouter API 密钥。无需 Google Cloud 账户。
Google 直接方式:在 aistudio.google.com/apikey 获取密钥。
步骤 2:设置基础 URL(OpenRouter 方式)
OpenRouter 的基础 URL 是 https://openrouter.ai/api/v1。以下所有三个代码示例均使用此端点。
步骤 3:发出您的首个请求
cURL:
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer <your-openrouter-key>" \
-H "Content-Type: application/json" \
-d '{
"model": "google/gemini-2.5-flash",
"messages": [{"role": "user", "content": "Explain the difference between attention mechanisms in transformers."}]
}' Python(OpenAI SDK):
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="<your-openrouter-key>",
)
response = client.chat.completions.create(
model="google/gemini-2.5-flash",
messages=[{"role": "user", "content": "Explain the difference between attention mechanisms in transformers."}]
)
print(response.choices[0].message.content) TypeScript(OpenAI SDK):
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://openrouter.ai/api/v1",
apiKey: "<your-openrouter-key>",
});
const response = await client.chat.completions.create({
model: "google/gemini-2.5-flash",
messages: [{ role: "user", content: "Explain the difference between attention mechanisms in transformers." }],
});
console.log(response.choices[0].message.content); Google 直接方式
如果您已有 Google AI Studio API 密钥,并希望使用无中间商的直接方式:
from google import genai
client = genai.Client(api_key="<your-google-api-key>")
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="Explain the difference between attention mechanisms in transformers.",
)
print(response.text) 直接路径使用 google-genai SDK,该 SDK 与 OpenAI 不兼容。若从 OpenRouter 切换到直接路径,则需要同时更改客户端库和请求结构。直接路径上没有提供商故障切换功能。
思考预算:控制推理质量与成本
思考预算是你使用此模型时最重要的配置决策。设置不当,要么为不需要的推理支付过高成本,要么在需要精度的任务上损失准确性。完整的参数参考请参见配置思考预算。
预算级别与权衡
在请求配置中设置 thinkingBudget 参数。取值范围为 0 到 24,576 个 token。
预算 0:禁用思考。响应最快,成本最低,无推理开销。适用于无需结构化推理的高容量分类、提取和摘要任务。
预算 -1(动态):模型根据提示词复杂度自动选择推理深度。这是 Google 直接 API 的默认值。通过 OpenRouter,你必须显式设置 max_tokens 为 -1 才能获得动态模式;省略推理配置则会禁用思考。推荐用于大多数需要推理的工作负载;它避免在简单提示词上为重度推理付费,同时在任务需要时启动推理。
预算 1,024 到 8,192:中等至重度推理。适用于多步分析、结构化编程任务和研究型问题。
预算 24,576(最大值):最大推理深度,最高成本。适用于复杂数学、科学问题和硬编码挑战,在这些场景中精度能证明开销的合理性。
关键约束
有两项约束,如果在编写第一个请求之前不了解它们,会在生产环境中产生错误:
-
thinkingBudget 和 thinkingLevel 不能在同一请求中使用。thinkingBudget 用于 Gemini 2.5 系列模型。thinkingLevel 用于 Gemini 3 系列模型。同时使用会返回 400 错误。
-
结构化 JSON 输出和 Search Grounding 互斥。你不能在同一请求中同时启用两者。
通过 OpenRouter 配置
使用带有 reasoning 键的 extra_body 参数,通过 OpenRouter 的 API 设置思考预算:
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="<your-openrouter-key>",
)
response = client.chat.completions.create(
model="google/gemini-2.5-flash",
messages=[{"role": "user", "content": "Solve this step by step: if f(x) = 3x^2 + 2x - 5, find all roots."}],
extra_body={"reasoning": {"max_tokens": 8192}}
)
print(response.choices[0].message.content) 要完全禁用思考功能,将 `max_tokens` 设为 0。要使用动态模式,将 `max_tokens` 设为 -1。
跨提供商性能
OpenRouter 通过三个 Google 提供商路由 Gemini 2.5 Flash,并实时追踪每个提供商的吞吐量、首次 token 生成时间(TTFT)、端到端延迟和正常运行时间。各提供商之间的差异足以影响对延迟敏感型工作负载的提供商选择。
以下所有数据均需在 openrouter.ai/google/gemini-2.5-flash 页面进行实时验证。
各提供商性能
来源:OpenRouter 实时模型页面。
| 提供商 | 平均吞吐量 | 平均 TTFT | 平均端到端延迟 | 正常运行时间 |
|---|---|---|---|---|
| Google Vertex(全球) | ~75 tok/s | ~0.63s | 在实时页面验证 | 在实时页面验证 |
| Google AI Studio | 在实时页面验证 | 在实时页面验证 | 在实时页面验证 | 在实时页面验证 |
| Google Vertex(标准) | 在实时页面验证 | 在实时页面验证 | 在实时页面验证 | 在实时页面验证 |
Vertex Global 提供商在近期数据中显示出最高吞吐量。AI Studio 历来拥有最佳的正常运行时间。标准 Vertex 在三个提供商中延迟最高。当您通过 OpenRouter 路由且未指定提供商时,它会根据实时信号自动将流量分配到最健康的选项中。
有关 Gemini 2.5 Flash 的实时定价和正常运行时间,请查看 OpenRouter 模型页面。
Gemini 2.5 Flash vs Flash Lite vs Pro
根据您的工作负载需求选择:
对于大多数智能体和推理工作负载,请使用 Gemini 2.5 Flash。当您需要思考能力但又不想承担 Pro 级别的成本时,这是默认推荐。
对于高并发的分类、提取或翻译任务,当不需要思考能力且每次请求的成本是主要限制时,请使用 Gemini 2.5 Flash Lite。Flash Lite 默认禁用思考功能。
对于复杂推理任务(其中准确性值得比 Flash 高出 5 到 10 倍的成本溢价),请使用 Gemini 2.5 Pro:前沿数学、硬编码挑战以及多步骤科学分析。
技术规格
下表是 Gemini 2.5 Flash 的权威参考。要获取官方版本,请参阅 Google AI for Developers 模型页面(更新于 2026-04-01)和 Vertex AI 文档(更新于 2026-04-03)。
| 属性 | 值 |
|---|---|
| 模型 ID | gemini-2.5-flash |
| OpenRouter 模型字符串 | google/gemini-2.5-flash |
| 上下文窗口 | 1,048,576 tokens |
| 最大输出 | 65,536 tokens |
| 输入类型 | 文本、图片、视频、音频、代码、文档(仅限 PDF 和纯文本,最大 50MB) |
| 输出类型 | 文本 |
| 思考预算范围 | 0 到 24,576 个 token(默认:动态 / -1) |
| 知识截止日期 | 2025 年 1 月 |
| 正式版(GA)发布日期 | 2025 年 6 月 17 日 |
| 停用日期 | 2026 年 10 月 16 日 |
| 支持的 capabilities | 函数调用、结构化输出、代码执行、Search Grounding、Batch API、上下文缓存(隐式和显式)、文件搜索、URL 上下文 |
| 不支持 | 音频生成、图片生成、Live API、thinkingLevel 参数 |
弃用通知:Gemini 2.5 Flash 计划于 2026 年 10 月 16 日在 Vertex AI 上停用。如果你正在构建的生产用例需要延续到该日期之后,请规划迁移到后续模型,并关注 ai.google.dev/gemini-api/docs/models 获取更新信息。
常见问题解答
Gemini 2.5 Flash 可以免费使用吗?
Google AI Studio 提供带有速率限制的免费套餐。在免费套餐下,你的提示词和响应会被用于改进 Google 的产品;在使用用户数据之前请查看服务条款。OpenRouter 不将 Gemini 2.5 Flash 包含在免费套餐中;需要最低 $5 的账户余额。Vertex AI 为新的 Google Cloud 账户提供 $300 的试用额度。
Gemini 2.5 Flash 中的思考预算是什么?
thinkingBudget 参数(范围:0 到 24,576 个 token,或 -1 表示动态)控制模型在响应前执行多少内部推理。预算为 0 时禁用思考:最快且最便宜。预算为 -1 时启用动态模式:模型根据提示词复杂度自动调整。在 Google 的直接 API 上,-1 是默认值。通过 OpenRouter,思考默认关闭,除非你明确请求(例如使用 extra_body={"reasoning": {"max_tokens": -1}} 实现动态,或设置任何正数预算)。较高的固定预算能改善复杂任务的输出质量,但会增加延迟和成本,按输出 token 费率计费。
Gemini 2.5 Flash 与 GPT-4o 相比如何?
Flash 支持 1M-token 的上下文窗口,而 GPT-4o 为 128K,并且包含 GPT-4o 不具备的可配置思考功能。Flash 的每 token 价格更低。GPT-4o 拥有更广泛的第三方生态系统支持和更长的生产环境记录。本指南未发布两模型在同一评测上的直接基准对比;请使用 OpenRouter 排名获取当前的第三方评测数据。
可以使用 Gemini 2.5 Flash 进行图像生成吗?
不能。Gemini 2.5 Flash 仅输出文本。支持图像输入;该模型可以处理和理解图像内容。对于图像生成,请使用 Gemini 2.5 Flash Image,这是一个独立的模型,拥有自己的定价。
OpenRouter 上哪些提供商提供 Gemini 2.5 Flash?
三家:Google AI Studio、Google Vertex Global 和 Google Vertex。OpenRouter 会根据实时吞吐量和正常运行时间数据自动路由到状态最佳的提供商。你可以通过 OpenRouter 的提供商路由控制功能固定到特定提供商。
Gemini 2.5 Flash 和 Flash Lite 之间有什么区别?
Flash 包含可配置的思考(预算 0 到 24,576)和更高质量的输出。Flash Lite 针对超低延迟和成本进行了优化,默认禁用思考(但可以启用)。当推理能力重要时使用 Flash;当每请求成本是主要限制的大批量任务时使用 Lite。