Rohan Paul@rohanpaul_ai

2026-06-27 15:50·5天前

AI 摘要

OpenAI 今日发布 GPT-5.6 模型套件有限预览版，包含旗舰模型 Sol、中端模型 Terra 及低成本日常模型 Luna。Sol 在智能体任务上超越 GPT-5.5，Terminal-Bench 2.1 编码基准测试表现突出。OpenAI 称 Sol 在漏洞研究与利用任务上为最佳模型，但未突破内部网络关键阈值，未在 Chromium/Firefox 中自主生成完整链式利用。Sol 新增“max”深度推理与“ultra”子智能体两种模式。定价方面，Sol 为 $5/百万输入 token、$30/百万输出 token，与 GPT-5.5 持平；Terra 性能接近 GPT-5.5 但成本低 2 倍；Luna 为最便宜的大规模工作负载模型。OpenAI 使用超 70 万 A100 等效 GPU 小时进行自动化红队测试。发布受美国政府要求，先从小规模可信合作伙伴预览开始。

AI 翻译 · 中文

OpenAI 今天在 GPT-5.6 的官方博客文章中写道。

关于特朗普政府对新型模型发布的筛选式审批流程。

[引用 @rohanpaul_ai]：突发消息：OpenAI 刚刚发布了其新 GPT-5.6 模型套件的有限预览版：旗舰模型 Sol；用于"高工作量任务"的中端模型 Terra；以及一款"快速且经济实惠"的日常模型 Luna。

最引人关注的是发布门槛：OpenAI 表示，美国政府要求其在更广泛开放之前，先从小范围的信任合作伙伴预览开始。

Sol 是旗舰模型，OpenAI 声称它比 GPT-5.5 更进一步，尤其是在模型必须规划、使用工具、自我纠错以及持续多步骤工作的智能体任务上。

Terminal-Bench 2.1 是一个扎实的编码测试基准，因为它测试的是命令行工作流，因此这里意味着 Sol 是在更接近实际工作的混乱开发者任务上进行评估。

----

一个关键主张来自网络安全领域：OpenAI 表示 Sol 是其迄今为止在漏洞研究和利用任务上表现最好的模型，同时它仍然没有越过内部"网络临界"阈值。

"GPT-5.6 经过训练，会拒绝被禁止的网络协助，包括当用户试图伪装意图或破解模型时。"它还表示，旗舰模型 Sol"在帮助人们发现和修复漏洞方面，比可靠地执行端到端攻击更擅长"，并且 Sol 在 OpenAI 的准备框架下没有越过网络临界阈值。

但在经过测试的 Chromium 和 Firefox 环境中，Sol 并没有自主生成完整的漏洞利用链。

他们还为 Sol 引入了两种新模式："max"用于更深度的推理，"ultra"用于使用子智能体，这让人联想到 OpenClaw，并可能暗示 OpenClaw 创始人 Peter Steinberger 早期在 OpenAI 的影响力。

----

定价：GPT-5.6 Sol 每 100 万输入模型 token 收费 5 美元，每 100 万输出模型 token 收费 30 美元，与 GPT-5.5 水平大致相当。

Terra 定位在接近 GPT-5.5 性能的水平，但成本降低 2 倍，而 Luna 则是适合大工作量任务的最廉价模型。

安全方面的故事异常地计算密集：OpenAI 表示，他们使用了超过 70 万 A100 等效 GPU 小时，针对广泛的破解攻击进行了自动化红队测试。

总体而言，OpenAI 在预览阶段似乎采取了更为谨慎的方式，而特朗普政府正在密切关注。

OpenAI 表示，安全防护措施有时可能会阻止合法工作，尤其是在防御性行为与攻击性行为起初看起来相似的双重用途领域。这正是此次预览版旨在测试的问题之一。

Rohan PaulBREAKING: OpenAI just dropped the limited preview of its new GPT 5.6 model suite: Sol, the flagship; Terra, a medium-tier model for "high-volume work"; and Luna...

智能体 OpenAI 安全/对齐推理

Rohan Paul@rohanpaul_ai · X

77导出 Markdown

2026-06-27 15:50·5天前

在 X 看原推· x.com

AI 摘要

AI 翻译 · 中文

OpenAI 今天在 GPT-5.6 的官方博客文章中写道。

关于特朗普政府对新型模型发布的筛选式审批流程。

最引人关注的是发布门槛：OpenAI 表示，美国政府要求其在更广泛开放之前，先从小范围的信任合作伙伴预览开始。

Sol 是旗舰模型，OpenAI 声称它比 GPT-5.5 更进一步，尤其是在模型必须规划、使用工具、自我纠错以及持续多步骤工作的智能体任务上。

Terminal-Bench 2.1 是一个扎实的编码测试基准，因为它测试的是命令行工作流，因此这里意味着 Sol 是在更接近实际工作的混乱开发者任务上进行评估。

----

一个关键主张来自网络安全领域：OpenAI 表示 Sol 是其迄今为止在漏洞研究和利用任务上表现最好的模型，同时它仍然没有越过内部"网络临界"阈值。

但在经过测试的 Chromium 和 Firefox 环境中，Sol 并没有自主生成完整的漏洞利用链。

----

定价：GPT-5.6 Sol 每 100 万输入模型 token 收费 5 美元，每 100 万输出模型 token 收费 30 美元，与 GPT-5.5 水平大致相当。

Terra 定位在接近 GPT-5.5 性能的水平，但成本降低 2 倍，而 Luna 则是适合大工作量任务的最廉价模型。

安全方面的故事异常地计算密集：OpenAI 表示，他们使用了超过 70 万 A100 等效 GPU 小时，针对广泛的破解攻击进行了自动化红队测试。

总体而言，OpenAI 在预览阶段似乎采取了更为谨慎的方式，而特朗普政府正在密切关注。