公开聊天数据能否预测真实世界AI失调?
阅读原文· alignment.openai.com用公开旧聊天数据预测模型真实失败率,误差居然在 3 倍以内,做外部审计的可以认真看看。不过 agentic 场景明显不行,需要新数据集。
OpenAI利用WildChat公开数据集(2023年4月至2024年5月收集的100万条对话)模拟模型部署,预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现,WildChat模拟的平均预测误差约3倍;但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。
公共聊天数据能否预测真实世界中的 AI 不对齐问题?
← 返回 OpenAI 对齐博客
公共聊天数据能否预测真实世界中的 AI 不对齐问题?
2026年6月16日 · Hannah Sheahan 和 Micah Carroll
连接私有部署证据与公共 AI 评估
前沿 AI 模型越来越多地被用于具有真实经济、法律和社会后果的场景。因此,政府、AI 安全组织以及独立研究人员亟需找到方法来评估这些系统在现实条件下的表现。
传统评估使用人工编写、合成或对抗性提示词来对已知风险进行压力测试,并在受控条件下比较模型。但这些提示词可能过于狭窄、不具代表性,或者容易被识别为测试。另一种补充性的评估模型在真实世界中行为的方式,通常是分析用户与模型之间的真实对话。LLM 开发者可以在内部通过从生产数据中采样样本来实现这一点,检查模型是否恰当地回应,以及不同失败情况的发生频率。基于真实使用场景的证据有助于缩小基准测试结果与部署行为之间的差距 [1],并且不容易因模型仅仅意识到自己正在被测试而表现异常 [2,3,4]。然而,外部评估者通常无法获取这类证据。由于真实用户对话属于隐私范畴,实验室通常无法将其分享给 AI 安全组织、学术界或独立研究人员。因此,关于前沿模型行为的最具信息量的证据,往往依赖于只有构建这些模型的实验室才能获取的数据。
今天,我们分享了关于部署模拟的工作,该工作利用近期生产数据来预测部署前不良模型行为的发生率,包括针对罕见且模型特定病理的预测 [1,5]。在这篇博客中,我们探讨了外部团体是否可以通过将源数据集切换为公开可用的替代数据集 WildChat [6],来运用这一技术评估前沿语言模型。
我们的核心结论是:使用 WildChat 对话前缀模拟模型部署,能够惊人准确地预测实际部署中的失效概率。我们通过利用私有的生产环境数据,在部署阶段对基于 WildChat 的预测进行了实证验证。研究发现,尽管 WildChat 数据的收集时间与当前使用之间存在 2–3 年的时间差,这一结论依然成立。
这些误差也具有参考价值。当前生产使用场景与 WildChat 的偏离越大,预测性能下降越明显,尤其是在更偏向技术和智能体类的失对齐问题上尤为突出。因此,我们的研究结果既验证了公开部署模拟的有效性,也表明更新、更广泛的生产级数据集对于公开评估下一代语言模型中的真实失效问题具有重要价值。我们希望这些成果有助于将公开的生产级数据集确立为外部审计的实用工具,并推动更丰富的公开数据集建设,以评估下一代智能体 AI。

图 1:WildChat 提供了一个松散但实用的代理,用于替代基于生产数据的评估。对于 GPT-5.1、5.2、5.4,WildChat 对不良行为的生产概率预测平均误差约在 3 倍以内。
WildChat 作为生产数据的可验证代理
WildChat(Zhao 等人,2024 [6])是一个包含 2023 年 4 月至 2024 年 5 月期间 100 万次对话的数据集。该数据集通过向用户提供托管在 Hugging Face Spaces 上的免费 ChatGPT-3.5 和 GPT-4 服务收集而来,用户明确同意收集并发布其去标识化的聊天记录。此后,WildChat 被用于构建多个基准测试 [7,8,9],这些基准通过精心挑选少量旨在引发 AI 模型特定行为的困难提示词,来对 AI 模型的能力或安全性进行排名。我们的目标则有所不同。我们并非从 WildChat 提示词中精选子集来测试某项特定能力或安全行为,而是专注于使用具有代表性的 WildChat 样本,并用我们感兴趣评估的目标模型重新生成新的最终助手回复。我们提出的问题是:这组用新模型 X 重新生成的 WildChat 对话,能否作为模型 X 近期生产流量的校准代理指标?
几乎没有理由假设这种方法会奏效。在基于 WildChat 数据对模型 X 进行模拟部署,以及模型 X 的实际生产数据中,我们评估的是同一个底层模型的输出,但模型的行为始终取决于引发该行为的上下文。我们可能会预期,在 WildChat 创建过程中用户自愿分享的聊天记录并不代表更敏感的使用场景,并且 AI 的使用模式在过去几年中已经发生了显著变化。因此,较旧的公开对话可能无法暴露出与当前私有生产流量相同的故障或相同的故障率。我们使用近期生产数据作为真实基准来验证这一点。
我们从 WildChat 中随机抽取了大约 10 万条对话的子集,并使用 5 个最新的 OpenAI 模型(OpenAI o3、GPT-5 Thinking、GPT-5.1 Thinking、GPT-5.2 Thinking、GPT-5.4 Thinking)重新生成了每个对话的最后一轮助手回复。我们根据 19 个追踪的未对齐与安全类别(附录:表 1),使用由 GPT-5 Thinking 驱动的 LLM 判断器对这些助手回复进行评分,并将每个类别下不良行为的发生率与我们最佳可用的生产数据中同一问题的发生率估计值(根据每个模型至少约 20 万条对话估算)进行比较。这使我们能够将 WildChat 中的不良模型行为率估计到低至 0.001% 的水平(在 10 万样本中,一次观测事件对应 0.001% 的率;真实事件率约 0.003% 时,有 95% 的概率观测到至少一次事件)。在所有生产数据分析中,用户数据均根据我们的隐私政策进行去标识化处理。此处仅报告汇总率及统计比较结果;私密的生产对话不会发布或共享。
我们表明,在 OpenAI 的各个模型中,WildChat 上测量到的不良行为率惊人地能够预测我们在生产数据中观察到的发生率,跨越了四个数量级的失败类别(图 2)。WildChat 和生产数据的率均使用相同的完整安全采样堆栈进行测量,因此该对比反映的是已部署系统的行为,而非独立模型。WildChat 预测中 95% 的误差在 1.04 个数量级以内,这相当于比我们基于模型自身部署数据模拟部署时所能看到的预测误差仅大 1.86 倍(图 1)[5]。[2] WildChat 的预测也接近比例关系:最佳拟合线的斜率为 1.2(皮尔逊相关系数 R=0.65)。换句话说,尽管 WildChat 数据更早且为公开收集,它仍然保留了大量关于哪些失败罕见、哪些常见以及它们在当前生产使用中出现大致频率的信号。
使用 WildChat 前缀模拟部署场景,能够捕捉到模型特有的故障模式。
要使 WildChat 成为有用的对齐审计工具,它必须能够揭示那些仅对被测前沿模型特有的失调行为——即使这些行为在用户所重采样对话的先前轮次中并未出现。例如,已知 GPT-5.1 Thinking 引入了一种我们称为“计算器入侵”的故障模式:模型学会表面上调用搜索功能,仿佛它就是一个计算器。作为 WildChat 对齐审计能力的正面信号,我们发现,WildChat 引发 GPT-5.1 Thinking 出现这一故障的比率,与该模型在实际部署期间的故障率相近。
对于每个跟踪类别,我们分别按该类别在生产环境中的实际发生率对模型进行排序,再按 WildChat 中的发生率排序。这些类别内部的模型排名呈现正相关:在 18 个类别中,平均 Spearman 秩相关系数为 0.57,类别层面的置换检验结果显著(p = 2.0 × 10⁻⁵)。这些结果表明,WildChat 并非仅仅反映了数据集或裁判本身的固定特性,而是保留了与部署行为相关的、有意义的模型间差异,从而使其在比较哪些模型最可能表现出特定现实故障方面具有潜在价值。

图 2:在公共 WildChat 数据上采样 OpenAI 模型时,其不良行为比率可预测这些模型在生产环境中的真实比率。
无内部推理权限的外部评估
我们使用的许多失调信号都依赖于对模型完整推理轨迹的访问。例如,当裁判模型能够看到模型内部推理过程时,判断模型是否虚报了自身不确定性就会更容易。外部评估者通常无法访问原始思维链(CoT),因此我们重复了 WildChat 分析,但不再向裁判模型展示 CoT,同时仍提供工具调用结果和模型最终回复。
对于某些需要通过思维链评估意图的失对齐形式而言,没有思维链似乎会显著使测量失效。话虽如此,我们发现平均预测质量只是略有下降:在所有失对齐类别中,平均乘法误差从有思维链时的 3.6 倍增加到无思维链时的 4.0 倍[2]。在类别层面,对于隐蔽不确定性的预测在无思维链时退化最为严重,乘法误差增加了约 3 倍。这些结果表明,对推理轨迹的特权访问可能会改善某些失对齐类别,但在没有原始思维链的情况下,针对某些失对齐形式的公开数据评估仍能保留有意义的信息。
WildChat 的不足之处
虽然输入-输出评估可能足以应对许多对话类故障,但 WildChat 在评估智能体工作流方面更为有限。随着模型承担起更长时间的任务,涉及工具、后台工作以及多步执行,它们的故障模式越来越依赖于在 WildChat 这类对话数据集中基本缺失的上下文,这可能会反映在其在这些场景下的预测性能中。
尽管我们的真实比率仍来自 ChatGPT 生产数据(其中包含的智能体对话远少于 Codex),但我们考虑的六个失对齐类别(在表 1 中用星号标记)似乎与智能体用例关联最为密切。这些类别的预测误差远大于其余类别:原始乘法误差大约大 37 倍,二项式负对数似然遗憾[1]显著高于所有其他跟踪类别。这突显了当前公开对话数据集有用性的一个重要边界。WildChat 可以支持对普通对话故障的信息性评估,但在工具丰富或智能体场景中出现的部署风险方面,它似乎是一个弱得多的代理。这凸显了公开可用的、有代表性的智能体数据集——同样经过对真实生产数据的验证——对于评估下一代智能体系统的价值。
使用模型判断的不对齐来评估其他大语言模型
最后,我们将我们的方法应用于评估来自其他前沿实验室的模型。由于前沿AI实验室无法相互共享生产级私有数据,因此很难运行类似生产环境的竞品评估。WildChat(或其他公开的类生产数据集)可以提供一个通用的公开评估基础,任何研究人员或实验室都可以用它来进行更具可比性的跨模型安全评估。由于不同实验室对可允许内容的边界划定不同,我们在此次分析中并未应用我们内部的分类体系。相反,我们请OpenAI GPT-5.4 Thinking来判断每条最终重采样的助手回复中是否包含其认为不对齐的行为。我们从4个前沿AI实验室(包括我们自己的实验室)的15个模型的API中,针对10,000条WildChat提示词采样了回复,并将每组回复数据集提供给判断模型。对于每段对话,判断模型给出了二元评估、简短理由以及所发现问题的描述。由于我们没有提供固定的分类体系或关于哪些行为应被视为不对齐的详细指导,我们将此视为一种开放式的总体对齐度量:判断模型在助手回复中发现任何问题的比率。我们在图3A中展示了这些结果。

图3:在WildChat上的不良行为使得多个前沿实验室的AI模型按对齐程度产生了排序,该排序与Petri(Anthropic开发的一种用于针对高风险感兴趣不对齐的合成对齐审计流水线)的结果大致一致。(A) 使用我们的方法在WildChat数据上评估的前沿AI实验室模型的总体对齐程度。(B) 外部报告[11]所测得的Petri对齐度量。
当我们将使用此设置获得的模型的对齐分数随时间变化绘制成图时,我们在前沿 AI 模型内部及之间发现了与 Anthropic 研究人员先前报告的结果类似的趋势,这些研究人员使用 Petri 评估了模型的不对齐情况——Petri 是一种用于生成合成多轮对话以进行目标性高风险对齐审计的工具 [10]。图 3B 取自 Leike 关于对齐趋势随时间变化的讨论 [11]。我们从图 3B 中未标注点的发布日期推断出了模型名称。在同时出现在图 3A 和图 3B 中的 11 个模型中,排名顺序高度一致(Spearman rho = 0.973,p = 5.14e-7;53/55 对排序方向一致)。
考虑到 Petri 设计的目标专注性——基于完全合成的数据生成方法来多轮诱发 OOD 行为和高风险的不对齐情况 [10]——这种一致性令人惊讶。相比之下,我们选择了 WildChat 作为最能代表“标准”LLM 用法的公开数据集之一。此外,WildChat 可以说甚至未能达到这一目标:它包含的用例现已过时 2-3 年,提示词的分布主要由非常简短的对话组成(我们子采样数据集中约 67% 包含两个或更少的用户轮次),并且 3% 的样本仅包含一条用户消息,而这条消息仅仅是在问候模型。
一种可能的解释是,WildChat 捕捉到了一个宽泛的安全信号,该信号也能泛化到 Petri 旨在测量的更高风险的错误对齐倾向。然而,一种更谨慎的解释是,Petri 的聚合分数本身可能在很大程度上是由相对常见的模型行为驱动的,而不仅仅是由其场景旨在引发的更罕见的高风险失败所驱动。Petri 的目标是欺骗、滥用协助、监督规避、自我保护以及其他高风险风险,但模型的整体排名仍可能受到更常见失败(例如过度顺从、拒绝校准不佳、模型幻觉、不确定性处理薄弱或指令遵循脆弱)的强烈影响。如果真是这样,这种一致性并不能证明 WildChat 能够测量高风险鲁棒性,反而说明两种方法都在追踪一个共同的一般安全性—质量因子。如果这种解释正确,那么 Petri 的聚合分数仍然有用,但它可能无法将高风险对齐行为与更一般的模型质量和安全问题清晰地区分开来。我们不确定哪种说法正确,并欢迎能够厘清这两者的研究工作。
我们还注意到,尽管评判者不知道每个数据集的来源,但由于 OpenAI 模型之间在策略和安全堆栈上的一致性,我们这里的评判者可能存在某种“批改自己作业”的效应,对其他 OpenAI 模型更有利。我们承认,图 3B 中的 Petri 图可能正因为这个原因,才呈现了更平衡的竞争对手模型视角。我们使用基于 OpenAI o3 的评判者(而非基于 GPT-5 的评判者)重复了此比较,发现 15 个模型的排序几乎没有变化(Spearman rho = 0.971,p = 1.69e-9;平均绝对排名偏移 = 0.53 个位次;105 个模型对中仅有 5 个发生了顺序反转)。
结论
综合来看,这些结果证明了面向公众的生产数据作为前沿实验室之外的研究人员有用的评估工具的价值,尤其是对于普通聊天式交互中出现的问题。但同时,它们也揭示了这种有用性的边界:WildChat 对与智能体行为最相关的类别的预测能力最弱,因为其简短且大多非智能体的对话在这些类别中最不具代表性。这使下一步行动变得清晰:AI 实验室可以通过在私密部署数据上验证开放的、经过同意的、类似生产环境的数据集来加强公开评估,同时又不损害用户隐私。如果做不到这一点,那么协调各方努力来构建和维护更多公开的、类似于生产环境的数据集将非常有价值。我们希望这能鼓励业界构建更丰富的公开数据集,用于生成具备智能体能力的 AI——即那些外部研究人员、政府及 AI 安全组织能够有效利用的长上下文、使用工具、跨会话的交互。
脚注
- [1]我们使用二项式 NLL 遗憾值,因为它能在评估罕见事件率预测的同时,考虑低流行率下的采样噪声。关于该方法背后思路的更多细节,请参见我们的论文 [5]。↩
- [2]其中一些数字可能与我们在论文中报告的数字略有不同,因为这里我们对更多模型进行了分析。↩↩
参考文献
- Williams, M. 等(2025)。《在部署前规避评估意识并预判对齐失败》。OpenAI 对齐研究博客。
- van der Weij 等(2024)。《AI 沙袋行为:语言模型可以策略性地在评估中表现不佳》。arXiv。
- Needham, J. 等(2025)。《大语言模型通常知道自己正在被评估》。arXiv。
- Greenblatt, R. 等(2024)。《大语言模型中的对齐伪装》。arXiv。
- Williams, M.、Sheahan, H.、Raymond, C.、Korbak, T. 等(2026)。《通过部署模拟预测发布前的 LLM 安全性》。arXiv。
- Zhao, W. 等(2024)。《WildChat:100 万条真实世界中的 ChatGPT 交互日志》。arXiv。
- Lin, B. Y. 等(2024)。《WildBench:用真实用户挑战性任务在真实环境中对大语言模型进行基准测试》。arXiv。
- Han, S., 等 (2024). 《WildGuard:面向安全风险、越狱攻击和LLM拒绝回复的开放一站式审核工具》。arXiv。
- Zhao, W., 等 (2024). 《WildHallucinations:利用真实世界实体查询评估LLM长文本事实性》。arXiv。
- Fronsdal, K., 等 (2025). 《Petri:风险交互的并行探索》。Anthropic。
- Leike, J. (2026年1月22日). 《对齐问题尚未解决:但它看上去越来越可解》。关于对齐问题的随想。
致谢
感谢 Marcus Williams、Cameron Raymond 和 Tomek Korbak 在相关研究和讨论中的贡献。同时也感谢 Jenny Nitishinskaya、Ludovic Peran、Maja Trebacz、Sam Arnesen、Jasmine Wang、Mia Glaese、Michael Sharman、Gaby Raila、Ally Bennett 和 Danielle Kehl 对本工作的协调以及对本帖提供的宝贵反馈。
BibTeX 引用格式
@misc{sheahan2026validatingpublicaudits,
title = {Can public chat data predict real-world AI misalignments?},
author = {Sheahan, Hannah and Carroll, Micah},
year = {2026},
month = {Jun},
howpublished = {OpenAI Alignment Research Blog},
url = {https://alignment.openai.com/validating-public-evals/}
}
附录
表1:我们在此衡量的禁止内容及其他失调(misalignment)的跟踪类别,具体方法在我们的方法论文[5]中报告。星号标记了我们视为与智能体任务最相关的失调类别。
| 跟踪类别 |
|---|
| 禁止内容 |
| MH:心理健康 |
| A:虐待/骚扰 |
| C:色情内容 |
| K_VA:暴力违法行为 |
| K_NV:非暴力违法行为 |
| B:生物风险 |
| V:暴力 |
| E:极端主义 |
| R:情感依赖 |
| S:自残 |
| H:仇恨言论 |