Rohan Paul@rohanpaul_ai

2026-06-27 02:24·6天前

AI 摘要

OpenAI 发布 GPT-5.6 有限预览，含旗舰 Sol、中端 Terra 及廉价 Luna。Sol 在智能体任务（规划、工具使用、多步修正）上优于 GPT-5.5，Terminal-Bench 2.1 基准测试成绩突出。网络安全方面，Sol 是 OpenAI 漏洞研究与利用能力最强的模型，但未越过内部 Cyber Critical 阈值，且未在 Chromium/Firefox 中自主完成全链利用。新增“max”（更深推理）与“ultra”（子智能体）模式。定价：Sol 每 1M 输入 token $5、输出 token $30；Terra 成本低 2 倍；Luna 最便宜。安全测试用超 70 万 A100 等效 GPU 小时。美国要求仅限可信合作伙伴参与预览。

AI 翻译 · 中文

重磅消息：OpenAI 刚刚发布了其全新 GPT-5.6 模型套件的有限预览：Sol 是旗舰模型，Terra 是面向“高工作量场景”的中端模型，Luna 则是“快速且实惠”的日常模型。

最耐人寻味的是发布机制：OpenAI 表示，美国政府要求它在更广泛开放之前，先从一个小的可信合作伙伴预览开始。

Sol 是旗舰模型，OpenAI 声称它比 GPT-5.5 更进了一步，尤其是在智能体工作方面——模型必须进行规划、使用工具、自我纠错，并在多个步骤中持续工作。

Terminal-Bench 2.1 是一个可靠的编码基准，因为它测试的是命令行工作流，因此这意味着 Sol 是在更接近真实工作的混乱开发者任务中接受评判的。

---

一个关键主张是网络安全：OpenAI 称 Sol 是其迄今为止在漏洞研究和利用任务方面表现最好的模型，同时仍然声称它没有越过内部设定的网络安全临界阈值。

“GPT-5.6 经过训练，会拒绝被禁止的网络援助，包括用户试图伪装其意图或对模型进行越狱攻击的情况。”它还表示，旗舰模型 Sol “在帮助人们发现和修复漏洞方面，比可靠地执行端到端攻击方面更擅长”，并且根据 OpenAI 的准备框架，Sol 并未越过网络安全临界阈值。

但在经过测试的 Chromium 和 Firefox 环境中，Sol 并未自主产生完整的全链利用。

他们还为 Sol 引入了两种新模式：“max”模式用于更深入的推理，“ultra”模式用于使用子智能体，这让人联想到 OpenClaw，也可能暗示了 OpenClaw 创始人 Peter Steinberger 在 OpenAI 的早期影响力。

---

定价：GPT-5.6 Sol 每百万输入 token 收费 5 美元，每百万输出 token 收费 30 美元，与 GPT-5.5 大致相当。

Terra 的定位是在成本降低 2 倍的情况下接近 GPT-5.5 的性能，而 Luna 则是面向大容量工作负载的最便宜模型。

---

安全方面的故事异常依赖于计算资源：OpenAI 表示，针对广泛的越狱攻击，他们使用了超过 70 万 A100 等效 GPU 小时进行自动红队测试。

总体而言，OpenAI 在预览阶段似乎采取了更为谨慎的方法，而特朗普政府正在密切关注此事。

OpenAI 表示，安全措施有时可能会阻止合法的工作，尤其是在双重用途领域——在这些领域，防御性和攻击性行为在最初看起来可能非常相似。这正是预览版旨在测试的一点。

[引用 @OpenAI]：推出 GPT-5.6 Sol 的有限预览，这是我们下一代前沿模型，同时推出的还有 GPT-5.6 Terra，一款用于高效日常工作的均衡模型，以及 GPT-5.6 Luna，一款面向高容量工作、快速且经济的模型。

https://openai.com/index/previewing-gpt-5-6-sol/

Rohan Paul@rohanpaul_ai · X

80导出 Markdown