OpenAI 今日发布 GPT-5.6 模型套件有限预览版,包含旗舰模型 Sol、中端模型 Terra 及低成本日常模型 Luna。Sol 在智能体任务上超越 GPT-5.5,Terminal-Bench 2.1 编码基准测试表现突出。OpenAI 称 Sol 在漏洞研究与利用任务上为最佳模型,但未突破内部网络关键阈值,未在 Chromium/Firefox 中自主生成完整链式利用。Sol 新增“max”深度推理与“ultra”子智能体两种模式。定价方面,Sol 为 $5/百万输入 token、$30/百万输出 token,与 GPT-5.5 持平;Terra 性能接近 GPT-5.5 但成本低 2 倍;Luna 为最便宜的大规模工作负载模型。OpenAI 使用超 70 万 A100 等效 GPU 小时进行自动化红队测试。发布受美国政府要求,先从小规模可信合作伙伴预览开始。
OpenAI 今天在 GPT-5.6 的官方博客文章中写道。
关于特朗普政府对新型模型发布的筛选式审批流程。
[引用 @rohanpaul_ai]:突发消息:OpenAI 刚刚发布了其新 GPT-5.6 模型套件的有限预览版:旗舰模型 Sol;用于"高工作量任务"的中端模型 Terra;以及一款"快速且经济实惠"的日常模型 Luna。
最引人关注的是发布门槛:OpenAI 表示,美国政府要求其在更广泛开放之前,先从小范围的信任合作伙伴预览开始。
Sol 是旗舰模型,OpenAI 声称它比 GPT-5.5 更进一步,尤其是在模型必须规划、使用工具、自我纠错以及持续多步骤工作的智能体任务上。
Terminal-Bench 2.1 是一个扎实的编码测试基准,因为它测试的是命令行工作流,因此这里意味着 Sol 是在更接近实际工作的混乱开发者任务上进行评估。
----
一个关键主张来自网络安全领域:OpenAI 表示 Sol 是其迄今为止在漏洞研究和利用任务上表现最好的模型,同时它仍然没有越过内部"网络临界"阈值。
"GPT-5.6 经过训练,会拒绝被禁止的网络协助,包括当用户试图伪装意图或破解模型时。"它还表示,旗舰模型 Sol"在帮助人们发现和修复漏洞方面,比可靠地执行端到端攻击更擅长",并且 Sol 在 OpenAI 的准备框架下没有越过网络临界阈值。
但在经过测试的 Chromium 和 Firefox 环境中,Sol 并没有自主生成完整的漏洞利用链。
他们还为 Sol 引入了两种新模式:"max"用于更深度的推理,"ultra"用于使用子智能体,这让人联想到 OpenClaw,并可能暗示 OpenClaw 创始人 Peter Steinberger 早期在 OpenAI 的影响力。
----
定价:GPT-5.6 Sol 每 100 万输入模型 token 收费 5 美元,每 100 万输出模型 token 收费 30 美元,与 GPT-5.5 水平大致相当。
Terra 定位在接近 GPT-5.5 性能的水平,但成本降低 2 倍,而 Luna 则是适合大工作量任务的最廉价模型。
--
安全方面的故事异常地计算密集:OpenAI 表示,他们使用了超过 70 万 A100 等效 GPU 小时,针对广泛的破解攻击进行了自动化红队测试。
总体而言,OpenAI 在预览阶段似乎采取了更为谨慎的方式,而特朗普政府正在密切关注。
OpenAI 表示,安全防护措施有时可能会阻止合法工作,尤其是在防御性行为与攻击性行为起初看起来相似的双重用途领域。这正是此次预览版旨在测试的问题之一。