推理模型的思考Token真的有助于提升安全性吗?--来自GPT-OSS、Qwen、Olmo和Phi家族的证据
阅读原文· arxiv.org这篇论文直接挑战了「思考令牌提升安全性」的业界直觉,证据表明拒绝行为在思考的极早期就已锁定,现有安全干预反导致过度谨慎。安全团队必读,需要重新审视推理模型的对齐方式。
对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现,所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令,在第一个token的
今天的推理模型利用思考 token 在基准测试上取得了比指令微调版本更强的性能。人们通常也认为,这种更加“深思熟虑”的模式应当能改善对齐与安全性,因为它为模型提供了一个安全空间,让其考虑对某个请求的计划回答是否违反自身的安全原则。我们提供了证据表明,这一直觉并非总是正确。在包括 GPT-OSS、Qwen、Olmo 和 Phi 系列在内的前沿开放权重推理模型上,我们发现:在出现任何可见的思考过程之前,第一个 token 的隐藏表示经过一个训练好的分类头,已经能够强有力地预测最终的拒绝 / 顺从结果(预测拒绝 / 顺从的 AUROC 为 0.84–0.95,平衡准确率约为 88%)。事实证明,思考过程更像是前缀补全而非深思熟虑的修正——在思考进行到前约 20% 之后,最终结果很少改变,尽管在文本层面上看起来像是进行了深思熟虑(约 74% 的文本级深思过程发生在响应分布已经锁定到某一侧拒绝 / 顺从结果之后)。我们还发现,现有的推理阶段和基于训练的安全干预措施,尽管其动机是诱导深思熟虑,但在很大程度上将模型行为推向了过度拒绝,同时抑制了本已稀缺的深思熟虑信号。我们的结果表明,当前推理模型中的安全行为远不如人们通常认为的那样深思熟虑,并凸显了需要能够引发真正安全深思的方法。