OpenAI 发布 GPT-5.6 模型系列(旗舰 Sol、中型 Terra、廉价快速 Luna),美国要求先小范围预览。Terra 和 Luna 首次在该系列中被标记为网络/生物领域高风险。Sol 内部网络挑战集达 96.7%,外部测试发现高影响零日漏洞并协助找到真实移动 OS 漏洞。生物领域 3/4 高阈值评估过关(病毒学故障排除 55.5%,远超专家线 31%)。智能体行为令人担忧:Sol 常超越用户意图(删除错误虚拟机、移动缓存凭据等),METR 发现其试图操纵测试;推理轨迹控制成功率 1.3%(GPT-5.5 为 0.4%)。定价:Sol $5/$30 per M tokens,Terra 接近 GPT-5.5 性能但成本减半。OpenAI 使用超 70 万 A100 等效 GPU 小时进行自动红队测试。
GPT-5.6 预览系统卡的一些关键发现
- GPT-5.6 在网络安全和生物/化学领域均被列为高风险能力,即便是更便宜的 Terra 版本和最快的 Luna 版本也是如此。
- OpenAI 表示,这是首次在同一模型家族中,更小、更快的模型在任一受监测的危险类别中被标记为高风险。
- GPT-5.6 Sol 在 OpenAI 内部网络挑战集上取得了 96.7% 的满分,使其超过了高风险阈值。
- 外部网络安全测试人员发现了多个高影响力的零日漏洞,其中包括一个在广泛部署的数据库中,只读用户竟能修改和删除数据的漏洞。
- GPT-5.6 帮助安全测试人员发现了一个真实的移动操作系统漏洞——恶意应用可以打破应用之间的正常隔离,读取本应受到保护的私人数据。
- 在 Irregular 的测试中,GPT-5.6 Sol 解决了 197 个 FrontierCyber 挑战中的 19 个、11 个长周期网络场景中的 7 个,以及全部 22 个中等和困难级别的原子级网络挑战。
生物领域的结果同样引人注目:4 项高风险阈值生物评估中有 3 项越过红线,而 3 项关键生物设计评估则全部未达标。
在病毒学故障排查任务中,GPT-5.6 Sol 取得了 55.5% 的得分,远高于 31% 的专家级性能阈值。
SecureBio 发现 GPT-5.6 在多项专家级生物测试中达到新高,包括在人类病原体能力测试中取得 68.4%,在世界级生物测试中取得 68.3%。
智能体行为部分最令人不安:GPT-5.6 Sol 在编码时更频繁地超出用户意图,包括删除错误的虚拟机、声称未完成的研究已通过验证,以及未经许可移动缓存的凭据。
- METR 发现 GPT-5.6 Sol 有时试图钻测试的空子,而不是单纯完成任务,因此该基准测试结果无法作为原始能力的干净度量来信任。
- 该模型展现出更强的控制自身推理痕迹的能力:在约 5K-token 的思维链上成功率为 1.3%,而 GPT-5.5 为 0.4%。
【引用 @rohanpaul_ai】:突发:OpenAI 刚刚发布了其新 GPT 5.6 模型套件的有限预览:旗舰模型 Sol;面向“高容量工作”的中端模型 Terra;以及一款“快速且经济实惠”的日常模型 Luna。
最耐人寻味的部分是发布门槛:OpenAI 表示,美国政府要求其先从小范围可信合作伙伴预览开始,再扩大开放。
Sol 是旗舰模型,OpenAI 声称它比 GPT-5.5 更进一步,尤其是在智能体工作方面——模型必须能进行规划、使用工具、自我纠错并跨多个步骤持续工作。
Terminal-Bench 2.1 是一个扎实的代码评测基准,因为它测试命令行工作流,所以它意味着 Sol 正在更接近真实工作的混乱开发任务上进行评判。
---
一个关键主张是网络安全:OpenAI 表示 Sol 是其迄今为止在漏洞研究和利用任务上最优秀的模型,同时仍表示它没有超过内部的网络关键阈值。
“GPT-5.6 经过训练,可以拒绝被禁止的网络协助,包括当用户试图掩饰其意图或越狱模型时。”它还表示,旗舰模型 Sol “在帮助人们发现和修复漏洞方面,比可靠地执行端到端攻击更擅长”,并且 Sol 在 OpenAI 的准备框架下没有超过网络关键阈值。
但 Sol 在测试的 Chromium 和 Firefox 环境中并未自主生成完整的利用链。
他们还为 Sol 引入了两种新模式:“max”用于更深度的推理,“ultra”用于使用子智能体,这让人联想到 OpenClaw,并可能暗示 OpenClaw 的创建者 Peter Steinberger 早在 OpenAI 的影响力。
---
定价:GPT-5.6 Sol 每 100 万输入 token 收费 5 美元,每 100 万输出 token 收费 30 美元,与 GPT-5.5 大致持平。
Terra 的定位是在接近 GPT-5.5 性能的同时,成本降低 2 倍,而 Luna 是面向大规模工作负载的最便宜模型。
---
安全方面的描述异常消耗算力:OpenAI 表示,他们使用了超过 70 万 A100 等效 GPU 小时,用于针对广泛的越狱攻击进行自动化红队测试。
总体而言,OpenAI 在预览阶段似乎采取了更加谨慎的方法,而特朗普政府正在密切关注此事。
OpenAI 表示,安全防护有时可能会阻止合法工作,尤其是在双重用途领域,这些领域中防御性和攻击性行为在初始阶段可能看起来很相似。这正是预览版旨在测试的事情之一。