OpenAI 预览 GPT-5.6 系列:Sol、Terra、Luna 三层模型及新推理模式
阅读原文· marktechpost.comOpenAI 开始有限预览 GPT-5.6 系列,分为旗舰 Sol、日常生产 Terra 和低成本快速 Luna 三个层级。新增两种推理控制:max(加深单链推理)和 ultra(利用子智能体并行处理复杂任务)。在 Terminal-Bench 2.1 上,Sol (ultra) 得分 91.91%,Sol (max) 88.76%,超过 Claude Mythos 5(88%)和 GPT-5.5(83.4%)。定价方面,Sol 输入/输出每百万 token 为 $5/$30,Terra 为 $2.50/$15,Luna 为 $1/$6。目前仅向约 20 个合作伙伴开放 API 和 Codex 预览,更广泛接入计划在未来几周内推出。OpenAI 还计划在 7 月用 Cerebras 硬件使 Sol 达到每秒 750 token。
OpenAI 已开始对下一代模型系列 GPT-5.6 进行有限预览。该系列分为三个命名层级:Sol、Terra 和 Luna。Sol 是旗舰型号。Terra 面向日常生产任务。Luna 则提供快速、低成本的选项。
OpenAI 首先通过 API 和 Codex 向一小部分受信任的合作伙伴推出。根据 OpenAI 的公告,他们首先与美国政府分享了这些模型和计划。更广泛的访问(包括 ChatGPT、Codex 和 API)计划在未来几周内推出。
这次变化主要是结构性的。GPT-5.6 引入了分层模型、两种新的推理模式以及更强大的安全堆栈。
什么是 GPT-5.6?
GPT-5.6 是一个模型家族,而非单一模型。OpenAI 还更改了其发布命名方式。现在,数字标记世代,名称标记持久的能力层级。
每个层级可以按自己的节奏推进。这让开发者能够在智能水平、速度和成本之间做出更清晰的选择。
OpenAI 称 Sol 是其迄今为止最强的模型。它列举了在编程、生物学和网络安全方面的提升。Terra 在性能上与 GPT-5.5 相当,但成本大约仅为后者的一半。Luna 以 OpenAI 最低的价格提供强大的能力。
新的推理模式:max 和 ultra
GPT-5.6 增加了两种推理控制。第一种是新的 max 推理努力程度。它给予 Sol 最多的时间进行深度推理。
第二种是 ultra 模式。Ultra 模式不是让单个模型独立工作,而是利用子智能体。这些子智能体分解复杂工作以加速执行。
可以这样理解:max 设置加深了单条推理链;ultra 模式则协调多个工作者处理同一任务。两者都在长周期问题上以延迟和成本换取准确性。
交互式说明
基准测试
OpenAI 分享了一组预览评估结果。
Sol 在 Terminal-Bench 2.1 上树立了新的最优水平。该基准测试测试了需要规划、迭代和工具协调的命令行工作流程。
| 模型/模式 | Terminal-Bench 2.1 |
|---|---|
| GPT-5.6 Sol (ultra) | 91.91% |
| GPT-5.6 Sol (max) | 88.76% |
| Claude Mythos 5 | 88% |
| GPT-5.5 | 83.4% |
在智能体最终考试中,Sol 是唯一超过半数的模型。它在“代码模式”下达到 50.9%。在 GeneBench v1 上,Sol 在长周期基因组学分析中击败了 GPT-5.5,同时使用的模型 token 更少。在 ExploitBench 上,OpenAI 报告 Sol 与 Mythos Preview 不相上下,但输出 token 仅用了约三分之一。
定价与访问
GPT-5.6 按每百万模型 token 计费。缓存机制也有所变化。
| 模型 | 输入 / 百万 | 输出 / 百万 | 最佳适用场景 |
|---|---|---|---|
| Sol | 5 美元 | 30 美元 | 长周期编码、安全、智能体 |
| Terra | 2.50 美元 | 15 美元 | 高吞吐量生产性工作 |
| Luna | 1 美元 | 6 美元 | 快速、常规、低成本任务 |
Sol 的 5/30 美元定价与 GPT-5.5 一致。Terra 比 GPT-5.5 便宜约 2 倍。提示缓存现在支持显式缓存断点,并且缓存最短存活时间为 30 分钟。缓存写入费用为未缓存输入费率的 1.25 倍,缓存读取仍享受 90% 折扣。
OpenAI 还计划在 Cerebras 硬件上运行 Sol,目标是在七月达到每秒最多 750 个 token。
使用场景及示例
- 长周期编码智能体:Sol 在 Terminal-Bench 上的优势适用于多步骤 CLI 自动化。例如:一个智能体可规划、编辑文件、运行测试,然后迭代。
- 高吞吐量生产:Terra 适合大规模聊天功能与文档处理。例如:以更低成本每天自动摘要数千张支持工单。
- 延迟敏感型应用:Luna 适用于自动补全、路由和简单提取。例如:在处理边缘情况的更重模型介入前,先对入站邮件进行分类。
- 防御性安全工作:Sol 专注于漏洞研究与修补。例如:审查代码库以发现并修复内存漏洞。
优势与待解决问题
优势
- 在成本、速度和智能方面有明确的分层
- 全新超子智能体模式,适用于复杂并行工作
- 在 Terminal-Bench 2.1 上报告达到业界领先水平
- 在生物学和网络安全基准上实现了模型 token 效率提升
- 有一套文档化的分层安全保障体系
待解决问题
- 预览阶段仅限约 20 家合作伙伴使用
- 在全面开放前,公开基准细节有限
- 安全防护措施可能阻止部分合法的双重用途安全研究工作
- 定价高于部分开源权重竞品(如 GLM-5.2)
- 最大和超模式的实际延迟尚未公开