OpenAI 发布 GPT-5.6 有限预览,含旗舰 Sol、中端 Terra 及廉价 Luna。Sol 在智能体任务(规划、工具使用、多步修正)上优于 GPT-5.5,Terminal-Bench 2.1 基准测试成绩突出。网络安全方面,Sol 是 OpenAI 漏洞研究与利用能力最强的模型,但未越过内部 Cyber Critical 阈值,且未在 Chromium/Firefox 中自主完成全链利用。新增“max”(更深推理)与“ultra”(子智能体)模式。定价:Sol 每 1M 输入 token $5、输出 token $30;Terra 成本低 2 倍;Luna 最便宜。安全测试用超 70 万 A100 等效 GPU 小时。美国要求仅限可信合作伙伴参与预览。
重磅消息:OpenAI 刚刚发布了其全新 GPT-5.6 模型套件的有限预览:Sol 是旗舰模型,Terra 是面向“高工作量场景”的中端模型,Luna 则是“快速且实惠”的日常模型。
最耐人寻味的是发布机制:OpenAI 表示,美国政府要求它在更广泛开放之前,先从一个小的可信合作伙伴预览开始。
Sol 是旗舰模型,OpenAI 声称它比 GPT-5.5 更进了一步,尤其是在智能体工作方面——模型必须进行规划、使用工具、自我纠错,并在多个步骤中持续工作。
Terminal-Bench 2.1 是一个可靠的编码基准,因为它测试的是命令行工作流,因此这意味着 Sol 是在更接近真实工作的混乱开发者任务中接受评判的。
---
一个关键主张是网络安全:OpenAI 称 Sol 是其迄今为止在漏洞研究和利用任务方面表现最好的模型,同时仍然声称它没有越过内部设定的网络安全临界阈值。
“GPT-5.6 经过训练,会拒绝被禁止的网络援助,包括用户试图伪装其意图或对模型进行越狱攻击的情况。”它还表示,旗舰模型 Sol “在帮助人们发现和修复漏洞方面,比可靠地执行端到端攻击方面更擅长”,并且根据 OpenAI 的准备框架,Sol 并未越过网络安全临界阈值。
但在经过测试的 Chromium 和 Firefox 环境中,Sol 并未自主产生完整的全链利用。
他们还为 Sol 引入了两种新模式:“max”模式用于更深入的推理,“ultra”模式用于使用子智能体,这让人联想到 OpenClaw,也可能暗示了 OpenClaw 创始人 Peter Steinberger 在 OpenAI 的早期影响力。
---
定价:GPT-5.6 Sol 每百万输入 token 收费 5 美元,每百万输出 token 收费 30 美元,与 GPT-5.5 大致相当。
Terra 的定位是在成本降低 2 倍的情况下接近 GPT-5.5 的性能,而 Luna 则是面向大容量工作负载的最便宜模型。
---
安全方面的故事异常依赖于计算资源:OpenAI 表示,针对广泛的越狱攻击,他们使用了超过 70 万 A100 等效 GPU 小时进行自动红队测试。
总体而言,OpenAI 在预览阶段似乎采取了更为谨慎的方法,而特朗普政府正在密切关注此事。
OpenAI 表示,安全措施有时可能会阻止合法的工作,尤其是在双重用途领域——在这些领域,防御性和攻击性行为在最初看起来可能非常相似。这正是预览版旨在测试的一点。
[引用 @OpenAI]:推出 GPT-5.6 Sol 的有限预览,这是我们下一代前沿模型,同时推出的还有 GPT-5.6 Terra,一款用于高效日常工作的均衡模型,以及 GPT-5.6 Luna,一款面向高容量工作、快速且经济的模型。
https://openai.com/index/previewing-gpt-5-6-sol/