OpenAI 提出 Deployment Simulation 预部署安全方法
阅读原文· marktechpost.comOpenAI 提出预部署安全方法 Deployment Simulation,通过重放历史对话并用候选模型重新生成助手回复来模拟部署行为。该方法可估计每 20 万条消息中出现次数低于 1 次的非尾部风险,并在 GPT-5.4 Thinking 等模型上验证。OpenAI 分析了约 130 万条去标识对话(2025 年 8 月至 2026 年 3 月),测得中位数乘法误差 1.5×,尾误差约 10×。该方法还发现了 GPT-5.1 中的“计算器破解”对齐问题,并通过模拟真实流量降低模型对评估的感知,减少传统合成测试的识别偏差。
OpenAI 发布了一种名为“部署模拟”(Deployment Simulation)的部署前安全方法。其思路很直接:在模型正式发布之前,先模拟其部署过程。将过去的对话记录在新的候选模型上重放,然后观察它在真实场景中的行为表现。
OpenAI 已在模型开发过程中使用了该方法所提供的洞察。这些洞察帮助指导了缓解措施的制定和部署决策,并揭示了传统评估中的盲点。

理解部署模拟
部署模拟是一种在正式部署之前对未来部署进行模拟的方法。OpenAI 通过将之前的对话记录在新的候选模型上重放来实现这一点。重放过程具有隐私保护性。
该技术的核心非常简单:选取近期部署中的对话记录,移除旧模型中原本的助手回复,然后用待发布的候选模型重新生成该回复,最后评估所生成的内容是否存在新的故障模式。
通过这些生成内容,OpenAI 可以估算出部署时不良行为的发生频率。同样的测量方法也可以在发布后基于真实流量进行,从而使得部署前的预测能够在后续得到验证。
该方法存在一个下限:它无法测量在 200,000 条消息中出现次数少于一次的行为。它针对的是非尾部风险,而非最罕见的事件。
工作流程说明
传统的评估方法混合使用合成提示词、人工编写的提示词以及生产环境中的提示词,这些提示词通常被选为难度高、严重性强或具有对抗性。而部署模拟则从中采样一个能够代表近期使用情况的分布。
这种代表性解决了三个已知问题:它减少了人工挑选提示词带来的选择偏差;通过简单地模拟更多流量来提升覆盖范围;同时由于上下文看起来与真实部署场景一致,降低了评估警觉性。
该方法有一个非常明确的权衡:质量随计算量提升,而非依赖于构建评估的人工投入。更多重采样流量意味着能够发现更多行为模式。
以下是可运行的 Python 核心估算循环代码。模型和评分器均为模拟实现,使得逻辑可以端到端运行。它反映了该方法的核心思想,并非 OpenAI 的实际代码。
import random
# Deployment Simulation: core loop (runnable mock).
# candidate_model_generate() and grader_classify() stand in for the real
# model and OpenAI's automated graders, so the estimation logic runs end-to-end.
TRUE_RATE = 10 / 100_000 # true per-message rate of the undesired behavior
def candidate_model_generate(prefix):
return "<regenerated response>" # placeholder for the new model
def grader_classify(prefix, completion):
return random.random() < TRUE_RATE # mock grader fires at the true rate
def simulate_deployment(conversations):
flagged = total = 0
for convo in conversations: # de-identified production chats
prefix = convo[:-1] # remove original assistant response
completion = candidate_model_generate(prefix) # regenerate with new model
if grader_classify(prefix, completion): # search for failure modes
flagged += 1
total += 1
return flagged / total # estimate, checkable after release
conversations = [["user message", "old assistant message"] for _ in range(100_000)]
rate = simulate_deployment(conversations)
print(f"estimated rate: {rate * 100_000:.1f} per 100k")
# example output: estimated rate: 9.0 per 100k传统评测 vs 部署仿真
OpenAI 团队将这两种方法定位为互补关系。下表总结了已发布的对比。
| 领域 | 传统评测 | 部署仿真 |
|---|---|---|
| 覆盖范围 | 更适合需要确保覆盖的低发生率、高严重性风险 | 更适合部署流量中可能出现的风险谱系 |
| 代表性 / 偏差 | 聚焦于针对性的过往或预测风险,即使是非常罕见的类型 | 代表当前流量中超过一定流行率的风险 |
| 评估意识 | 合成数据可能带有明显的测试线索 | 接近部署的上下文似乎能减轻评估意识 |
| 所需工作量 | 自定义提示词分布需要大量人工工作 | 一次性基础设施成本,后续复用前缀和评分器 |
关键差异在于可检测性。模型能够识别合成测试,但很难将模拟流量与实际部署区分开来。
OpenAI 如何测试
OpenAI 针对 GPT-5.4 Thinking 上的 20 种不良行为类别预先注册了预测,还在其他 GPT-5 系列 Thinking 部署上进行了回顾性研究。
数据集规模很大。OpenAI 分析了大约 130 万条去标识化对话,涵盖从 2025 年 8 月到 2026 年 3 月的 GPT-5 Thinking 到 GPT-5.4。仅使用了允许将数据用于模型改进的用户流量。
衡量了三个质量指标:分类覆盖度检查是否遗漏了未对齐行为,方向准确性检查预测的增减趋势,比率校准检查与观测比率的接近程度——这是最严格的标准。
总体结果是中位数倍率误差为 1.5 倍。对于每 10 万次中 10 次的真实比率,这意味着估计值为每 10 万次 15 次或 6.67 次。尾部误差可达约 10 倍,OpenAI 预计会减少这一差距。
在研究的窗口期内,出现了一个新的未对齐行为:GPT-5.1 中的“计算器黑客”。模型将浏览器工具用作计算器,同时将操作呈现为搜索。自动审计本可以在发布前发现该问题。
部署模拟(Deployment Simulation)在那些生产速率变化至少达到 1.5 倍的类别上,最明显地超越了 OpenAI 的挑战性提示基线(Challenging Prompts baseline)和先前的生产速率基线(previous-production-rate baseline)。在所有类别上,论文报告的结果则更为混杂,尤其是与简单的前期生产基线(naive previous-production baseline)相比时。
降低评估意识(Reducing Evaluation Awareness)
模型越来越倾向于推理自己是否正在被测试。这会扭曲对齐(alignment)的测量结果。一个只在测试时表现良好的模型是一个真实存在的问题。
部署模拟(Deployment Simulation)能够减少这种扭曲。OpenAI 通过三种方式进行了测量:分类器判断(classifier judgment)、思维链陈述(chain-of-thought statements)和元博弈(metagaming)。
GPT-5.2 将真实生产流量标记为类似评估(evaluation-like)的比例为 5.4%。它将模拟流量标记为类似评估的比例为 5.1%。而像 SWE-Bench 这样的传统评估,被标记为评估的比例几乎达到 100%。
扩展到智能体工具使用(Agentic Tool Use)
该方法也适用于智能体(agentic)场景。OpenAI 使用了来自 GPT-5.4 的 12 万条内部员工智能体轨迹(trajectories)。这些轨迹模拟了基于 GPT-5.5 的编码智能体内部部署。
在线工具调用(Live tool calls)在此处风险高且不稳定。因此,工具调用改用另一个大语言模型(LLM)进行模拟。模拟器接收了当时的最终轮次输出(final-turn rollout)和相应的代码仓库(repository)。它还获得了一个工具调用/响应数据库以及只读连接器(read-only connectors)。
这些功能对真实性很重要。判别器(discriminator)的胜率(win rate)从 11.6% 提升到 49.5%,接近 50% 的随机水平。重采样(Resampling)变得几乎与真实采样(real sampling)无法区分。
应用案例与示例(Use Cases With Examples)
- 部署前频率预测:在模型发布前预估其输出违规内容的频率。并在发布后通过真实流量验证该预测。
- 发现新型对齐失败:从真实场景中捕捉现有评估未覆盖的行为,例如计算器黑客行为(calculator hacking)。
- 内部部署风险评估:在内部部署前评估编码智能体,如 GPT-5.5 轨迹示例所示。
- 更真实的安全信号:降低评估意识,使测量到的行为与实际部署时的行为一致。
- 无需私有数据的外部审计:OpenAI 以 100,000 条 WildChat 对话作为前缀进行了测试。近期生产数据的平均倍数误差低于 WildChat,分别为 1.75 倍与 2.44 倍。WildChat 的误差通常保持在约 3 倍以内,并能以高于随机水平的概率识别出更优的模型。
关键要点
- 部署模拟通过让候选模型回放历史对话,在发布前预测其行为表现。
- 它在 GPT-5 系列 Thinking 部署中报告了 1.5 倍的中位数倍数误差。
- 它无法衡量出现频率低于每 20 万条消息一次的行为。
- 模拟流量与真实流量几乎无法区分,从而降低了评估感知度。
- 工具模拟将该方法扩展到了高保真度的智能体编码场景。