免费LLM API比较:速率限制、模型与真实成本(2026)
免费 LLM API 不是免费的,这篇文章把 13 家平台的隐藏成本、速率限制和真实可用性都算清楚了,想省钱的开发者值得花五分钟看一遍。
13个平台提供免费LLM API,含永久免费层与试用额度。OpenRouter拥有20+免费模型,单密钥无需信用卡;Groq以约320 tokens/秒运行Llama 3.3 70B;Google AI Studio支持1M上下文;Mistral实验层约10亿token/月但需同意数据训练;Cerebras约1M token/天;GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本,建议早期测试2-3个方案并设置故障转移。
免费 LLM API 对比:速率限制、模型与真实成本(2026 年)
OpenRouter · 2026 年 6 月 15 日
- 摘要
- 2026 年“免费 LLM API”的实际含义
- 2026 年免费 LLM API 提供商对比
- 永久免费套餐详解
- 提供试用额度的提供商
- 速率限制对比
- “免费”LLM API 的隐性成本
- 应该选择哪种免费 LLM API?
- 快速上手:60 秒内完成你的第一个免费 LLM API 调用
- 免费额度用完后怎么办
当你在做一个副业项目或早期阶段的应用,并且还不想为 LLM 调用付费时,你搜索“free llm api”,会看到大量声称免费的服务。有些确实提供了真正的价值。另一些则只给一点点试用额度,一个下午就用完了。还有一小部分会使用你的提示词来训练他们下一个模型,但事先并未明确告知。
OpenRouter 在 60 多个 LLM 提供商之间路由流量,每月处理 100 万亿 token。由于它位于这些提供商的前端,因此它路由到的是与其相同的模型,包括速度最快和上下文最长的模型,在下方对比时这一点值得牢记。
摘要
- 2026 年,有 13 个平台提供可用的免费 LLM API 接入,其中包括几个用于文本推理的永久免费套餐。其限制条件和权衡因素差异显著。
- OpenRouter 是一个很好的起点,提供 20 多个免费模型、一个 API 密钥,且无需信用卡。
- 在原始速度方面,Groq 的 LPU 硬件运行 Llama 3.3 70B 的速度约为每秒 320 个 token(来源:Artificial Analysis)。在长上下文方面,Google AI Studio 和几个开源模型已达到 100 万 token。OpenRouter 可路由到两者,因此你可以通过一个密钥访问,也可以直接连接。
- 每个免费套餐都有隐性成本。速率限制、选择加入数据训练、缩减的上下文窗口以及质量下降都是伴随而来的问题。
- 尽早测试 2 到 3 个选项,并实施故障转移。这比任何一个单一端点所能解决的问题都多,能省去更多麻烦。
2026 年“免费 LLM API”的实际含义
免费的 LLM 接入分为三个不同的类别。“免费”这个词使用得很随意,从而造成了混淆。
永久免费套餐提供无限期访问,无需信用卡,也没有过期时间。你需要管理的只是速率限制,没有其他额外条件。
试用额度是一种临时的营销优惠(金额在1美元到30美元之间),会在几周后过期,或者需要你绑定一张银行卡。这种额度适合一次性测试,不适合长期使用。
本地推理是指下载开源权重模型,然后使用 Ollama 或 vLLM 等工具在你自己的机器上运行。配置完成后无需按 token 付费,但你需要自行负责硬件、电费和运维。
永久免费层(OpenRouter、Google AI Studio、Groq、Mistral、Cerebras)是你应该从这些平台开始体验的地方。试用额度适合一次性评估。如果你有硬件支持,本地推理则适合对隐私要求最高且用量无限的使用场景。
免费 LLM API 提供商对比(2026)
本对比涵盖了 13 个平台,横跨永久免费层和试用额度两种方案,基于 cheahjs/free-llm-api-resources 仓库(2026 年 3 月更新)及各提供商的文档进行核查(截止 2026 年 4 月)。
在下表中,RPM 代表每分钟请求数,RPD 代表每日上限,TPM 代表每分钟处理的模型 token 吞吐量上限。
| 提供商 | 免费模型 | RPM | RPD / 月度上限 | 上下文窗口 | OpenAI 兼容 | 信用卡 | 数据训练 |
|---|---|---|---|---|---|---|---|
| OpenRouter | 20+(多提供商) | 20 | 50/天(充值 10 美元后可提升至 1,000/天) | 最高 1M | 是 | 否 | 否 |
| Google AI Studio | 8 个 Gemini/Gemma 变体 | 5–15 | 20–1,500/天 | 最高 1M | 部分兼容 | 否 | 是(欧盟/英国/欧洲经济区以外地区) |
| Groq | Llama 3.3 70B、Mixtral 等 | 30 | 1,000/天 | 128K | 是 | 否 | 否 |
| Mistral | Codestral、Mistral Small/Large | 可变 | 约 10 亿 tokens/月 | 32K–256K | 是 | 否 | 是(Experiment 层) |
| Cerebras | Llama 3.3 70B 等 | 30 | 约 100 万 tokens/天 | 最高 1M | 是 | 否 | 否 |
| Cloudflare Workers AI | 20+ 个模型 | 高 | 约 10K 神经元/天 | 2K–8K | 部分兼容 | 否 | 否 |
| GitHub Models | GPT-4o、Claude 3.5 Sonnet、Llama、Phi | 15 | 150–1,000/天 | 8K–128K | 是 | 否 | 否 |
| Cohere | Command R+ | 10–20 | 约 100/天 | 128K | 部分兼容 | 否 | 否(仅限非商业用途) |
| Hugging Face | 100K+ 开源模型 | 可变 | 社区 / 速率限制 | 取决于模型 | 部分兼容 | 否 | 否 |
| NVIDIA NIM | Nemotron、Llama 变体 | 高 | 约 1,000/天 | 128K | 部分兼容 | 否 | 否 |
| Chutes | 各种开源模型 | 可变 | 社区层级 | 取决于模型 | 是 | 否 | 否 |
| SambaNova | Llama 3.1 405B | 可变 | 5 美元试用额度 | 128K | 是 | 是 | 否 |
| Vercel AI Gateway | 多提供商(自带密钥) | 可变 | 取决于提供商 | 视情况而异 | 是 | 否 | 取决于后端 |
OpenRouter 在模型多样性和易用性方面处于领先地位,而且由于它能够路由到下文提及的提供商,你可以通过同一个密钥获得 Groq 级别的速度或 1M 上下文窗口的模型。直接使用 Groq、Cerebras 或 Google AI Studio 则能获得该提供商完整的原生免费套餐配额和 SDK 功能。没有任何单一方案能在所有维度上胜出,因此将路由器与一两个直接集成方案搭配使用通常是更具韧性的选择。
永久免费套餐详解
OpenRouter(多样性)。一个 API 密钥和一个兼容 OpenAI 的端点,即可对来自不同模型家族的 20 多个免费模型进行基准测试。当你希望测试多个提供商又不想管理独立账号时,可选用此方案。
Google AI Studio(上下文)。长文本数据的强有力选择。其免费套餐在 Gemini Flash 上支持高达 100 万 token 的上下文窗口,且 Gemini 模型可处理多模态输入(文本、图像、音频)。标准聊天任务部分兼容 OpenAI 接口,但建议使用 Google 原生 SDK 来获得基于文件的 RAG 等高级功能。
Groq(速度)。专用 LPU 硬件运行 Llama 3.3 70B,速度约为每秒 320 tokens(Artificial Analysis 数据)。其 API 完全兼容 OpenAI 接口,非常适合语音智能体、实时聊天及其他对延迟敏感的交互体验。
Mistral(用量)。Experiment 层级每月约 10 亿 token,是此处最为慷慨的永久免费配额之一,但使用前必须同意数据训练条款。
Cerebras(吞吐量)。在 Llama 3.3 70B 及其他模型上每天约 100 万 token。适用于需要高吞吐量且不希望速度折中的批处理场景。
GitHub Models(前沿模型访问)。通过基于 Azure、兼容 OpenAI 的端点,免费访问 GPT-4o、Claude 3.5 Sonnet、Llama 和 Phi。需绑定 GitHub 账号。包含一个基于浏览器的 Playground,可在集成前测试提示词。
Cloudflare Workers AI(边缘计算)。提供 20 多个模型,请求预算宽松,适合边缘部署推理。上下文窗口比大多数替代方案更小。
Cohere(RAG)。Trial API 密钥可使用 Command R+,每日请求上限约 100 次,无需绑定信用卡。严格限于非商业用途。
注意:免费套餐可能会使用您的提示词和响应来改进其产品。在欧盟/英国/欧洲经济区之外,Google 的政策对此规定得最为明确。
提供试用额度的供应商
提供试用额度的供应商会在要求付费之前提供 1 到 30 美元的评估预算,而 DeepSeek 则是例外,提供 1000 万个 token 作为替代。这些是限时或限额的优惠。适用于一次性评估,但不适合长期免费使用。
- Fireworks(1 美元额度)。足以在较小模型上完成几千次请求。适合对 Fireworks 托管的 Llama 和 Mixtral 变体进行基准测试。注册时无需信用卡。
- Baseten(30 美元额度)。此列表中最慷慨的试用。足以对一个小型应用进行端到端原型开发。额度用完后需要信用卡。
- Nebius(1 美元额度)。有限,但足以测试其托管的开源权重模型系列。
- SambaNova(5 美元额度)。可访问 Llama 3.1 405B,这是任何免费套餐中可用的最大开源权重模型之一。注册时需要信用卡。
- DeepSeek(1000 万 token)。一个慷慨的基于 token 的试用。DeepSeek R1 在多步推理、数学问题求解和逻辑演绎方面表现出色,因此适合评估推理密集型工作负载。
- AI21(10 美元额度)。可试用 Jamba 系列。如果您特别需要 AI21 的混合 SSM-Transformer 架构,则非常有用。
试用额度最好被视为评估预算。在永久免费套餐上构建真正的原型,并使用试用额度来比较您以后可能付费的特定模型。
速率限制对比
每分钟 20 次请求意味着每 3 秒一次请求。每天 1000 次请求大约相当于每小时 40 次。这些是您构建应用时面临的真实限制。
| 供应商 | 每分钟请求数 | 每日请求数 | 每分钟 Token 数 | 最佳用途 |
|---|---|---|---|---|
| Groq | 30 | 1,000 | 高 | 实时应用、语音智能体 |
| Cerebras | 30 | 约等于每天 100 万 token | 高 | 批处理、吞吐量 |
| Mistral(实验性) | 可变 | 约每月 10 亿 token | 可变 | 编码工作负载、高吞吐量 |
| OpenRouter | 20 | 50(充值 10 美元后为 1,000) | 可变 | 实验、跨模型路由 |
| GitHub Models | 15 | 150–1,000 | 可变 | 前沿模型访问 |
| Google AI Studio | 5–15 | 20–1,500 | 可变 | 长上下文分析 |
| Cohere | 10–20 | 约 100 | 低 | RAG 原型开发(非商业用途) |
| NVIDIA NIM | 高 | 约 1,000 | 可变 | NVIDIA 托管的推理服务 |
| Cloudflare Workers AI | 高 | 每天约 1 万个神经元 | 可变 | 边缘部署 |
| Hugging Face | 可变 | 社区速率限制 | 可变 | 开源模型探索 |
所有数据均已对照 cheahjs/free-llm-api-resources(2026 年 3 月更新)及各提供商截至 2026 年 4 月的文档进行核实。免费套餐的速率限制变更频繁;正式使用前请核实当前数值。
Groq 和 Cerebras 在其免费套餐中提供高吞吐量。Google AI Studio 在较低请求量下提供高达 100 万 token 的上下文。OpenRouter 用一个密钥即可跨这些提供商使用,并支持故障切换。根据您的瓶颈是单提供商配额、速度还是上下文长度来做出选择,并记住您可以混合使用直连访问和路由访问。
“免费”大语言模型 API 的隐藏成本
免费套餐并非真的免费。成本从您的钱包转移到了隐私、性能或可靠性上。以下 4 个权衡最为重要。
数据训练选择加入是最大的隐私问题。除非您位于欧盟、英国或欧洲经济区,否则 Google 会使用您的提示词来改进其模型。Mistral 的 Experiment 套餐要求您选择加入训练才能使用每月 10 亿 token 的配额。如果您处理的是专有代码、客户数据或任何机密内容,这些政策会产生合规风险,其后期补救成本高于当前付费套餐的费用。
缩小的上下文窗口会令开发者措手不及。某些提供商在其免费端点上提供的上下文窗口比同一模型的付费套餐更小,因此长对话会被截断,RAG 系统会丢失上下文,文档分析可能在处理中途失败。请检查您正在使用的特定免费端点的上下文长度,而不是关注该模型的宣传数字。
较低量化更隐蔽。为控制成本,一些平台在免费套餐中提供量化模型权重(例如 8-bit 或 4-bit),而非全精度版本。较低精度会降低复杂任务的输出质量,因此如果准确性很重要,请检查量化级别。OpenRouter 会列出每个端点的量化情况。
没有服务水平协议意味着零保障。免费服务层可以不经通知就收紧速率限制、在高峰时段增加延迟,或直接完全宕机且没有任何补偿。这对个人项目可以接受,但对任何面向客户的应用都存在风险。
IP 封锁和反滥用措施也很常见。许多平台会主动封锁 VPN、共享主机 IP 或数据中心 IP 段以防止滥用。如果你从某些特定环境进行开发,可能会发现自己被锁定,直到你升级或切换服务。
对于敏感性工作,更安全的选择是那些具有明确“不训练”政策的服务(OpenRouter、Groq、Cerebras),或者使用 Ollama 在本地运行模型。
你应该使用哪个免费大语言模型 API?
没有普遍适用的最佳免费大语言模型 API。正确的选择取决于你当前的主要限制条件。
长文档分析或研究。Google AI Studio 在 Gemini Flash 上提供的 100 万 token 上下文窗口可以处理整本书、大型代码库或长 PDF,无需进行激进的分块处理,而且 Gemini 还支持多模态输入(图像和音频)。通过 OpenRouter 也能使用免费的 100 万上下文模型(例如 Qwen3 Coder),因此你可以将请求路由到该类模型,而无需直接集成 Google。
速度关键型应用(语音、实时聊天)。Groq 专用的 LPU 硬件运行 Llama 3.3 70B 的速度约为每秒 320 个 token(数据来源:Artificial Analysis)。你可以直接调用 Groq,或通过 OpenRouter 将请求路由到它。
编码助手和开发者工具。Mistral Codestral 的 Experiment 层级提供每月 10 亿 token 的预算,专为代码生成和重构而优化。
复杂推理任务。通过 DeepSeek 的试用额度使用 DeepSeek R1,该模型专为多步推理、数学问题求解和逻辑演绎而构建。
高容量批处理。Cerebras 每天大约提供 100 万 token,足以进行批量数据清洗、摘要生成以及其他离线工作负载,这些任务在其他地方很可能会触发速率限制。
用一个 API Key 获得最多的模型种类。OpenRouter 通过一个兼容 OpenAI 的端点,为你提供来自多个提供商的 20 多个免费模型,并且当单个提供商限流时会自动故障转移。
生产级带故障转移。OpenRouter 充值 $10 后,你在免费模型上的每日请求上限提升至 1,000 次,并且当某个底层提供商出现性能下降时,会自动在多个提供商之间进行故障转移。
隐私优先或符合欧盟法规。Scaleway 提供符合 GDPR 数据处理要求的欧洲托管服务。或者你也可以通过 Ollama 在本地运行模型。
有几个需要如实说明的注意事项。直接使用某个提供商的服务,你可以获得该提供商完整的原生免费套餐配额以及其特有的 SDK 功能,比如 Google AI Studio 基于文件实现的 RAG,或者 Mistral 更大的月度 token 额度。OpenRouter 也会路由到同样的这些提供商,因此能达到相同的速度和上下文能力,但其自身的免费套餐有独立的请求上限,并且统一端点并不暴露所有原生功能。如果你的需求范围狭窄且明确,直接使用提供商可能限制更少;如果你想要多样化、故障转移以及单一集成方案,那么路由服务更胜一筹。
快速上手:60 秒内发起你的第一次免费 LLM API 调用
本指南中的大多数服务都使用兼容 OpenAI 的 API,这意味着只需更换基础 URL 和 API key,同一段代码就能在所有服务上运行。以下以 OpenRouter 作为主要示例展示模式。
使用 OpenRouter SDK(推荐):
from openrouter import OpenRouter
client = OpenRouter()
response = client.chat.send(
model="meta-llama/llama-3.3-70b-instruct:free",
messages=[{"role": "user", "content": "Explain rate limiting in one sentence."}],
)
print(response.choices[0].message.content) import { OpenRouter } from '@openrouter/sdk';
const openRouter = new OpenRouter();
const response = await openRouter.chat.send({
model: 'meta-llama/llama-3.3-70b-instruct:free',
messages: [{ role: 'user', content: 'Explain rate limiting in one sentence.' }],
stream: false,
});
console.log(response.choices[0].message.content); 或者通过更换基础 URL 的 OpenAI SDK(适用于所有兼容 OpenAI 的提供商):
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/llama-3.3-70b-instruct:free",
"messages": [{"role": "user", "content": "Explain rate limiting in one sentence."}]
}' 使用 OpenRouter 时,你无需更换基础 URL 即可访问不同的提供商。端点和 API key 保持不变,只需更改模型字符串即可路由到其他地方。要在 1M 上下文模型或不同的模型家族上运行相同的提示词,只需更换模型标识符:
# Llama 3.3 70B
model="meta-llama/llama-3.3-70b-instruct:free"
# Qwen3 Coder, 1M token context
model="qwen/qwen3-coder:free"
# OpenAI gpt-oss 120B
model="openai/gpt-oss-120b:free" 某些提供商在你直接调用时并不完全遵循 OpenAI API 模式。例如,Google 的 Gemini 模型可提供高达 1M token 的上下文,但需要 Google 的原生 SDK 才能直接集成。OpenRouter 将那些差异标准化到统一端点后面,因此同一段代码可以通过模型标识符调用这些模型。
免费额度用尽后会发生什么
你在下午 2 点达到了每日限制。你的应用停止响应。后续的迁移路径取决于你最初使用的是哪项服务。
OpenRouter。增加最低 10 美元的充值额。这会将你在免费模型上的每日上限提高到 1000 次请求。OpenRouter 按提供商的每 token 费率收费,外加 5.5% 的平台费用,没有额外的提供商加价,因此付费使用价格仍接近直接提供商定价,同时保留了故障切换和单密钥优势。
Google AI Studio。切换至 Gemini 的按用量付费定价模式;Flash 层级价格低廉,Google 的定价页面列出了当前的每 token 费率。
Groq。切换至 Groq 的付费按用量付费定价模式,这会在相同的 OpenAI 兼容端点上提高速率限制。切换前请查看当前的每 token 费率。
Mistral。实验层级(免费,选择加入数据训练)会转为生产层级(付费,无数据训练),按标准的每 token 费率计费。
最具弹性的配置会结合多种策略,而非仅依赖单一端点:
- 通过故障切换实现标准化。在一个主要和一个次要的 OpenAI 兼容提供商之间采用基础 URL 交换模式(例如,以 OpenRouter 为主、Groq 为备)。你的核心代码保持干净,当速率限制触发时,应用会自动切换端点。
- 针对特殊需求进行路由。当某个任务需要极长的上下文窗口时,使用 Google AI Studio 的原生 SDK 向它发送该请求。这样可以利用 100 万 token 的上下文窗口,而无需让整个技术栈去适配非标准模式。
- 小额资金保障稳定性。在 OpenRouter 或类似的网关上存入 10 美元余额,以确保在高峰时段获得一致、无节流的性能。
- 将推理任务卸载到本地。随着工作负载增长,将后台批处理或非实时任务转移到使用 Ollama 的本地模型上执行。
以下是一个实用的故障切换示例:
import os
from openai import OpenAI
def call_llm(prompt: str, max_tokens: int = 500):
providers = [
{
"name": "OpenRouter",
"base_url": "https://openrouter.ai/api/v1",
"key": os.environ.get("OPENROUTER_API_KEY"),
"model": "meta-llama/llama-3.3-70b-instruct:free",
},
{
"name": "Groq",
"base_url": "https://api.groq.com/openai/v1",
"key": os.environ.get("GROQ_API_KEY"),
"model": "llama-3.3-70b-versatile",
},
]
for provider in providers:
if not provider["key"]:
continue
try:
client = OpenAI(api_key=provider["key"], base_url=provider["base_url"])
response = client.chat.completions.create(
model=provider["model"],
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
)
print(f"Success via {provider['name']}")
return response
except Exception as e:
print(f"{provider['name']} failed: {e}")
continue
raise Exception("All providers failed") 最后做一个坦诚的对比。如果你每月的花费超过 50 美元,请根据你的实际用量对照直接提供商的 API 核算成本。聚合器提供了便利和故障切换能力,而直接提供商在大量使用时有时会在原始成本上胜出。