OpenAI论文揭示GPT-5.6三个Pro变体,打破单一顶级策略
阅读原文· the-decoder.com论文意外曝光 GPT-5.6 Pro 将有三个变体,Pro 不再只是一个最强模型,而是让用户按推理需求选版本,这才是匹配 200 美元月费该有的逻辑。
OpenAI论文首次列出GPT-5.6的三个Pro变体:Luna Pro、Terra Pro和Sol Pro,取代以往单一Pro模式。在基因组学基准中,Sol Pro通过率31.5%居60个测试模型之首,领先标准Sol(28.7%)和Claude Opus 4.8(16.0%)。Pro相比标准版本提升逐级递减:Luna Pro提升7.1个百分点(16.5%→23.6%),Terra Pro提升5.2(23.3%→28.5%),Sol Pro仅提升2.8(28.7%→31.5%)。Terra Pro(28.5%)几乎与标准Sol(28.7%)持平。论文未披露Pro运行的token用量,也不清楚该分层是否会在ChatGPT中实际推出。
OpenAI 论文揭示三个 GPT-5.6 Pro 模型,打破单一顶级模型策略
关键要点
- 一份 OpenAI 论文首次列出了 GPT-5.6 的三个 Pro 模型:Luna Pro、Terra Pro 和 Sol Pro。此前,Pro 始终是单一的顶级模型。
- Pro 用户可能很快可以在速度、吞吐量和最大推理能力之间进行选择。
- 论文并未说明这一系列是否会实际在 ChatGPT 中推出,并且 Pro 运行的 token 用量仍未披露。
一份 OpenAI 基准测试论文表明,GPT-5.6 的 Pro 层级可能会以三种变体形式推出。这将是自该计划启动以来 ChatGPT Pro 结构的首次重大变化。
OpenAI 于 6 月底正式发布了 GPT-5.6 系列,将其分为三个模型。Sol 处理最难的任务,Terra 面向高容量业务负载,Luna 覆盖更快、更便宜的日常查询。Pro 变体并未包含在该公告中。
现在,一份关于基因组学基准测试的新 OpenAI 论文首次揭示了 Pro 模型。结果表中包含"GPT-5.6 Luna Pro"、"Terra Pro"和"Sol Pro"的行,每个都标注为"Pro (Extended)"运行。
Pro 不再只是一个顶级模型
在基准测试中,Sol Pro 达到了 31.5% 的通过率,成为所有 60 个测试模型中最强的。它超过了标准 Sol 的 28.7% 以及非 GPT 最佳分数——Claude Opus 4.8 的 16.0%。通过率衡量模型完成完整多步骤分析且无错误并得出正确最终答案的频率。
到目前为止,ChatGPT Pro 只是可用的单一最佳模型,比所有其他模型高出一个层级。论文表明这种情况正在改变。它列出了三个并行的 Pro 变体,反映了标准 GPT-5.6 系列:一个快速的、一个高容量的、一个最高性能的。
将每个标准层级在其最高推理设置("max")下与其 Pro 变体进行比较,可以看出收益如何体现。所有值均为完整 129 任务集上的通过率:
在这个层级中,Pro 的升级幅度随着档位升高而递减。Luna Pro 相比标准版提升了整整七个点,而 Sol Pro 仅提升了不到三个点。额外算力对较弱档位的提升更明显:Terra Pro 达到了 28.5%,几乎与标准版 Sol 的 28.7% 持平,这意味着高用量 Pro 变体的表现几乎可以媲美最佳的标准旗舰型号。
与 Pro 一贯的运作方式截然不同
这种分层模式将是自 ChatGPT Pro 推出以来对 Pro 产品的首次重大调整。Pro 不再是一个昂贵的高端档位,而是可能演变为一个包含三款模型的体系,用户可根据具体任务在速度、吞吐量和最强推理能力之间进行选择。
这种分层结构是否真的会在 ChatGPT 中出现,论文并未明确说明。目前这些名称仅来自基准测试表格。
还有一个细节被隐藏了。对于标准版 GPT 模型,论文报告了平均 token 用量作为算力成本的大致代理指标,Sol 在最高设置下约为 33,200 个 token。而对于 Pro 运行的 token 用量,这个数字缺失了。作者表示没有可比的 token 统计记录,但更可能的解释是 OpenAI 根本不想分享这些数据。