MarkTechPost（RSS）

OpenAI 预览 GPT-5.6 系列：Sol、Terra、Luna 三层模型及新推理模式

2026-06-27 03:18·9小时前·Michal Sutter

AI 摘要

OpenAI 开始有限预览 GPT-5.6 系列，分为旗舰 Sol、日常生产 Terra 和低成本快速 Luna 三个层级。新增两种推理控制：max（加深单链推理）和 ultra（利用子智能体并行处理复杂任务）。在 Terminal-Bench 2.1 上，Sol (ultra) 得分 91.91%，Sol (max) 88.76%，超过 Claude Mythos 5（88%）和 GPT-5.5（83.4%）。定价方面，Sol 输入/输出每百万 token 为 $5/$30，Terra 为 $2.50/$15，Luna 为 $1/$6。目前仅向约 20 个合作伙伴开放 API 和 Codex 预览，更广泛接入计划在未来几周内推出。OpenAI 还计划在 7 月用 Cerebras 硬件使 Sol 达到每秒 750 token。

AI 翻译 · 中文

OpenAI 已开始对下一代模型系列 GPT-5.6 进行有限预览。该系列分为三个命名层级：Sol、Terra 和 Luna。Sol 是旗舰型号。Terra 面向日常生产任务。Luna 则提供快速、低成本的选项。

OpenAI 首先通过 API 和 Codex 向一小部分受信任的合作伙伴推出。根据 OpenAI 的公告，他们首先与美国政府分享了这些模型和计划。更广泛的访问（包括 ChatGPT、Codex 和 API）计划在未来几周内推出。

这次变化主要是结构性的。GPT-5.6 引入了分层模型、两种新的推理模式以及更强大的安全堆栈。

什么是 GPT-5.6？

GPT-5.6 是一个模型家族，而非单一模型。OpenAI 还更改了其发布命名方式。现在，数字标记世代，名称标记持久的能力层级。

每个层级可以按自己的节奏推进。这让开发者能够在智能水平、速度和成本之间做出更清晰的选择。

OpenAI 称 Sol 是其迄今为止最强的模型。它列举了在编程、生物学和网络安全方面的提升。Terra 在性能上与 GPT-5.5 相当，但成本大约仅为后者的一半。Luna 以 OpenAI 最低的价格提供强大的能力。

新的推理模式：max 和 ultra

GPT-5.6 增加了两种推理控制。第一种是新的 max 推理努力程度。它给予 Sol 最多的时间进行深度推理。

第二种是 ultra 模式。Ultra 模式不是让单个模型独立工作，而是利用子智能体。这些子智能体分解复杂工作以加速执行。

可以这样理解：max 设置加深了单条推理链；ultra 模式则协调多个工作者处理同一任务。两者都在长周期问题上以延迟和成本换取准确性。

交互式说明

基准测试

OpenAI 分享了一组预览评估结果。

Sol 在 Terminal-Bench 2.1 上树立了新的最优水平。该基准测试测试了需要规划、迭代和工具协调的命令行工作流程。

模型/模式	Terminal-Bench 2.1
GPT-5.6 Sol (ultra)	91.91%
GPT-5.6 Sol (max)	88.76%
Claude Mythos 5	88%
GPT-5.5	83.4%

来源：venturebeat

在智能体最终考试中，Sol 是唯一超过半数的模型。它在“代码模式”下达到 50.9%。在 GeneBench v1 上，Sol 在长周期基因组学分析中击败了 GPT-5.5，同时使用的模型 token 更少。在 ExploitBench 上，OpenAI 报告 Sol 与 Mythos Preview 不相上下，但输出 token 仅用了约三分之一。

定价与访问

GPT-5.6 按每百万模型 token 计费。缓存机制也有所变化。

模型	输入 / 百万	输出 / 百万	最佳适用场景
Sol	5 美元	30 美元	长周期编码、安全、智能体
Terra	2.50 美元	15 美元	高吞吐量生产性工作
Luna	1 美元	6 美元	快速、常规、低成本任务

Sol 的 5/30 美元定价与 GPT-5.5 一致。Terra 比 GPT-5.5 便宜约 2 倍。提示缓存现在支持显式缓存断点，并且缓存最短存活时间为 30 分钟。缓存写入费用为未缓存输入费率的 1.25 倍，缓存读取仍享受 90% 折扣。

OpenAI 还计划在 Cerebras 硬件上运行 Sol，目标是在七月达到每秒最多 750 个 token。

使用场景及示例

长周期编码智能体：Sol 在 Terminal-Bench 上的优势适用于多步骤 CLI 自动化。例如：一个智能体可规划、编辑文件、运行测试，然后迭代。
高吞吐量生产：Terra 适合大规模聊天功能与文档处理。例如：以更低成本每天自动摘要数千张支持工单。
延迟敏感型应用：Luna 适用于自动补全、路由和简单提取。例如：在处理边缘情况的更重模型介入前，先对入站邮件进行分类。
防御性安全工作：Sol 专注于漏洞研究与修补。例如：审查代码库以发现并修复内存漏洞。

优势与待解决问题

优势

在成本、速度和智能方面有明确的分层
全新超子智能体模式，适用于复杂并行工作
在 Terminal-Bench 2.1 上报告达到业界领先水平
在生物学和网络安全基准上实现了模型 token 效率提升
有一套文档化的分层安全保障体系

待解决问题

预览阶段仅限约 20 家合作伙伴使用
在全面开放前，公开基准细节有限
安全防护措施可能阻止部分合法的双重用途安全研究工作
定价高于部分开源权重竞品（如 GLM-5.2）
最大和超模式的实际延迟尚未公开

OpenAI安全/对齐推理模型发布

阅读原文