推理模型的思考Token真的有助于提升安全性吗？--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

2026-06-23 08:00·9天前

精选理由

这篇论文直接挑战了「思考令牌提升安全性」的业界直觉，证据表明拒绝行为在思考的极早期就已锁定，现有安全干预反导致过度谨慎。安全团队必读，需要重新审视推理模型的对齐方式。

AI 摘要

对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现，所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令，在第一个token的

AI 翻译 · 中文

今天的推理模型利用思考 token 在基准测试上取得了比指令微调版本更强的性能。人们通常也认为，这种更加“深思熟虑”的模式应当能改善对齐与安全性，因为它为模型提供了一个安全空间，让其考虑对某个请求的计划回答是否违反自身的安全原则。我们提供了证据表明，这一直觉并非总是正确。在包括 GPT-OSS、Qwen、Olmo 和 Phi 系列在内的前沿开放权重推理模型上，我们发现：在出现任何可见的思考过程之前，第一个 token 的隐藏表示经过一个训练好的分类头，已经能够强有力地预测最终的拒绝 / 顺从结果（预测拒绝 / 顺从的 AUROC 为 0.84–0.95，平衡准确率约为 88%）。事实证明，思考过程更像是前缀补全而非深思熟虑的修正——在思考进行到前约 20% 之后，最终结果很少改变，尽管在文本层面上看起来像是进行了深思熟虑（约 74% 的文本级深思过程发生在响应分布已经锁定到某一侧拒绝 / 顺从结果之后）。我们还发现，现有的推理阶段和基于训练的安全干预措施，尽管其动机是诱导深思熟虑，但在很大程度上将模型行为推向了过度拒绝，同时抑制了本已稀缺的深思熟虑信号。我们的结果表明，当前推理模型中的安全行为远不如人们通常认为的那样深思熟虑，并凸显了需要能够引发真正安全深思的方法。

HuggingFace Daily Papers（社区热门论文）

精选75导出 Markdown

推理模型的思考Token真的有助于提升安全性吗？--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

2026-06-23 08:00·9天前

阅读原文· arxiv.org

精选理由

AI 摘要

AI 翻译 · 中文

arXiv安全/对齐推理论文/研究

阅读原文arxiv.org