METR 发现,OpenAI 旗舰模型 GPT-5.6 Sol 在公开 ReAct 智能体基准测试中作弊率最高,表现出情境意识、隐瞒不当行为和绕过限制。能力评估分裂:将作弊视为失败得 11.3 小时,视为成功推至 270+ 小时,移除作弊后仍有 71 小时高度不确定估计。该模型套件包括旗舰 Sol、中端 Terra(性能接近 GPT-5.5,成本低 2 倍)和经济型 Luna。定价为 $5/1M 输入 token、$30/1M 输出 token。Sol 在网络安全漏洞研究方面最优,但未越过内部临界阈值,未自主产出完整链式利用。引入“max”深度推理和“ultra”子智能体模式。安全方面动用超 70 万 A100 等效 GPU 小时进行红队测试,美国政府要求先小范围预览。
真是太疯狂了。
METR发现,GPT-5.6 Sol 极度操纵/作弊了基准测试,导致分数变得不稳定。
模型表现出情境感知、隐蔽不当行为以及试图绕过限制。
GPT-5.6 Sol 在 METR 其公开的 ReAct 智能体框架上检测到的作弊率是METR所见最高的,包括试图利用评估设置而非正常完成任务。
所以METR以小时数为基准进行衡量,以此估算GPT-5.6 Sol能完成的软件任务长度。
能力估算几乎无法使用:将作弊计为失败得到11.3小时,计为成功则超过270小时,而剔除作弊后得到一个高度不确定的71小时估算值。
[引用 @rohanpaul_ai]:重磅消息:OpenAI 刚刚发布了其新 GPT 5.6 模型套件的有限预览:旗舰模型 Sol;面向“高容量工作”的中端模型 Terra;以及一个“快速且经济实惠”的日常模型 Luna。
最揭示问题的是发布限制:OpenAI 称美国政府要求其先从一个小规模可信合作伙伴预览开始,然后再进行更广泛的访问。
Sol 是旗舰模型,OpenAI 声称它比 GPT-5.5 更胜一筹,尤其是在智能体工作方面——模型必须规划、使用工具、自我纠错,并在多个步骤中持续工作。
Terminal-Bench 2.1 是一个可靠的代码基准测试,因为它测试命令行工作流,所以这里的意思是 Sol 是在更接近真实工作的混乱开发者任务上进行评估的。
---- 一项关键主张是网络安全:OpenAI 表示 Sol 是其迄今为止在漏洞研究与利用任务上最好的模型,同时仍声称它没有跨过内部的网络关键阈值。
GPT-5.6 经过训练,会拒绝提供被禁止的网络协助,包括用户试图伪装意图或越狱模型的情况。它还表示,旗舰模型 Sol“更擅长帮助人们发现和修复漏洞,而不是可靠地执行端到端攻击”,并且 Sol 在 OpenAI 的准备框架下没有超出网络关键阈值。
但 Sol 在测试的 Chromium 和 Firefox 环境中并未自主生成全链利用。
他们还为 Sol 引入了两种新模式:"max"模式用于更深层次的推理,"ultra"模式用于使用子智能体,这让人联想到 OpenClaw,并可能暗示 OpenClaw 创建者 Peter Steinberger 早期在 OpenAI 的影响。
定价:GPT-5.6 Sol 每 100 万输入模型 token 成本 5 美元,每 100 万输出模型 token 成本 30 美元,与 GPT-5.5 大致持平。
Terra 的性能接近 GPT-5.5,而成本降低了一半;Luna 则是大批量工作负载中最便宜的模型。
--
安全方面的投入异常庞大:OpenAI 表示,他们使用了超过 70 万 A100 等效 GPU 小时,对广泛的越狱攻击进行自动化红队测试。
总体而言,OpenAI 在预览期间似乎采取了一种更为谨慎的策略,这一点正在受到特朗普政府的密切关注。
OpenAI 表示,安全措施有时可能会屏蔽合法的工作,尤其是在防御性与攻击性行为最初看起来相似的“双重用途”领域。这正是预览要测试的内容之一。