OpenAI 最强 AI 模型:GPT-5.6 系列登场,编程跑分超 Claude Mythos 5
阅读原文· ithome.com6月27日,OpenAI发布GPT-5.6系列,包含旗舰版Sol(输入$5/百万tokens,输出$30)、均衡版Terra($2.5/$15)和速度版Luna($1/$6)。Sol在Terminal-Bench 2.1标准模式下得分88.8%,超Claude Mythos 5的88.0%,Ultra模式达91.9%;GeneBench v1上消耗更少token且胜GPT-5.5;ExploitBench中以约1/3输出token达Mythos Preview相近表现。目前仅向“可信合作伙伴”提供预览,未来几周公开上线,7月在Cerebras上线Sol,速度最高750 token/s。
IT之家 6 月 27 日消息,OpenAI 公司今天(6 月 27 日)正式发布 GPT-5.6 系列模型,不过暂未全面开放,应美国政府要求,现阶段仅向少数“可信合作伙伴”提供预览权限。

在模型方面,IT之家援引博文介绍,OpenAI 本次共发布 3 档模型:
旗舰版 Sol:每 100 万 Tokens 输入 5 美元(现汇率约合 34 元人民币),每 100 万 Tokens 输出 30 美元(现汇率约合 204.3 元人民币)
均衡版 Terra:每 100 万 Tokens 输入 2.5 美元(现汇率约合 17 元人民币),每 100 万 Tokens 输出 15 美元(现汇率约合 102.1 元人民币)
主打速度和成本的 Luna:每 100 万 Tokens 输入 1 美元(现汇率约合 6.8 元人民币),每 100 万 Tokens 输出 6 美元(现汇率约合 40.9 元人民币)
此外 OpenAI 表示优化提示词缓存机制,在调用过程中出现重复提示词,会更加便宜、更加可以预测。

在模型能力方面,OpenAI 称 GPT-5.6 Sol 为该公司最强模型,并引入新的 Max 推理强度,以及借助子智能体加速复杂任务的 Ultra 模式。
在编程场景中,Sol 在 Terminal-Bench 2.1 上刷新最佳成绩,标准模式下得分 88.8%,超过 Claude Mythos 5(88.0%),在开启 Ultra 模式后更是达到 91.9%。

在生物学 GeneBench v1 测试任务中,该模型消耗更少 token,不过性能表现比 GPT-5.5 更强。



网络安全方面,GPT-5.6 Sol 在漏洞研究和利用等长链路安全任务上提升明显。在 ExploitBench 中,它用约 1/3 输出 token 即可达到与 Mythos Preview 相近的表现。


安全设计上,OpenAI 表示 GPT-5.6 Sol、Terra 和 Luna 采用分层防护体系,包括模型内置拒答、生成过程实时分类器、账户级风险审查、差异化访问、监控和执法机制。对于高风险情况,系统可暂停生成,并交由更大推理模型复核;若判定违规,内容会在展示前被拦截。

在开放进度方面,OpenAI 表示计划在未来几周内公开上线 GPT-5.6 Sol、Terra 和 Luna。

OpenAI 还计划于 7 月在 Cerebras 上线 GPT-5.6 Sol,速度最高可达每秒 750 token,初期仅向部分客户开放。