MarkTechPost（RSS）

OpenAI 提出 Deployment Simulation 预部署安全方法

2026-06-17 13:49·15天前·Michal Sutter

AI 摘要

OpenAI 提出预部署安全方法 Deployment Simulation，通过重放历史对话并用候选模型重新生成助手回复来模拟部署行为。该方法可估计每 20 万条消息中出现次数低于 1 次的非尾部风险，并在 GPT-5.4 Thinking 等模型上验证。OpenAI 分析了约 130 万条去标识对话（2025 年 8 月至 2026 年 3 月），测得中位数乘法误差 1.5×，尾误差约 10×。该方法还发现了 GPT-5.1 中的“计算器破解”对齐问题，并通过模拟真实流量降低模型对评估的感知，减少传统合成测试的识别偏差。

AI 翻译 · 中文

OpenAI 发布了一种名为“部署模拟”（Deployment Simulation）的部署前安全方法。其思路很直接：在模型正式发布之前，先模拟其部署过程。将过去的对话记录在新的候选模型上重放，然后观察它在真实场景中的行为表现。

OpenAI 已在模型开发过程中使用了该方法所提供的洞察。这些洞察帮助指导了缓解措施的制定和部署决策，并揭示了传统评估中的盲点。

https://cdn.openai.com/pdf/predicting-llm-safety-before-release-by-simulating-deployment.pdf

理解部署模拟

部署模拟是一种在正式部署之前对未来部署进行模拟的方法。OpenAI 通过将之前的对话记录在新的候选模型上重放来实现这一点。重放过程具有隐私保护性。

该技术的核心非常简单：选取近期部署中的对话记录，移除旧模型中原本的助手回复，然后用待发布的候选模型重新生成该回复，最后评估所生成的内容是否存在新的故障模式。

通过这些生成内容，OpenAI 可以估算出部署时不良行为的发生频率。同样的测量方法也可以在发布后基于真实流量进行，从而使得部署前的预测能够在后续得到验证。

该方法存在一个下限：它无法测量在 200,000 条消息中出现次数少于一次的行为。它针对的是非尾部风险，而非最罕见的事件。

工作流程说明

传统的评估方法混合使用合成提示词、人工编写的提示词以及生产环境中的提示词，这些提示词通常被选为难度高、严重性强或具有对抗性。而部署模拟则从中采样一个能够代表近期使用情况的分布。

这种代表性解决了三个已知问题：它减少了人工挑选提示词带来的选择偏差；通过简单地模拟更多流量来提升覆盖范围；同时由于上下文看起来与真实部署场景一致，降低了评估警觉性。

该方法有一个非常明确的权衡：质量随计算量提升，而非依赖于构建评估的人工投入。更多重采样流量意味着能够发现更多行为模式。

以下是可运行的 Python 核心估算循环代码。模型和评分器均为模拟实现，使得逻辑可以端到端运行。它反映了该方法的核心思想，并非 OpenAI 的实际代码。

复制代码已复制使用不同浏览器

import random

# Deployment Simulation: core loop (runnable mock).
# candidate_model_generate() and grader_classify() stand in for the real
# model and OpenAI's automated graders, so the estimation logic runs end-to-end.

TRUE_RATE = 10 / 100_000  # true per-message rate of the undesired behavior

def candidate_model_generate(prefix):
    return "<regenerated response>"            # placeholder for the new model

def grader_classify(prefix, completion):
    return random.random() < TRUE_RATE         # mock grader fires at the true rate

def simulate_deployment(conversations):
    flagged = total = 0
    for convo in conversations:                # de-identified production chats
        prefix = convo[:-1]                    # remove original assistant response
        completion = candidate_model_generate(prefix)   # regenerate with new model
        if grader_classify(prefix, completion):         # search for failure modes
            flagged += 1
        total += 1
    return flagged / total                     # estimate, checkable after release

conversations = [["user message", "old assistant message"] for _ in range(100_000)]
rate = simulate_deployment(conversations)
print(f"estimated rate: {rate * 100_000:.1f} per 100k")
# example output: estimated rate: 9.0 per 100k

传统评测 vs 部署仿真

OpenAI 团队将这两种方法定位为互补关系。下表总结了已发布的对比。

领域	传统评测	部署仿真
覆盖范围	更适合需要确保覆盖的低发生率、高严重性风险	更适合部署流量中可能出现的风险谱系
代表性 / 偏差	聚焦于针对性的过往或预测风险，即使是非常罕见的类型	代表当前流量中超过一定流行率的风险
评估意识	合成数据可能带有明显的测试线索	接近部署的上下文似乎能减轻评估意识
所需工作量	自定义提示词分布需要大量人工工作	一次性基础设施成本，后续复用前缀和评分器

关键差异在于可检测性。模型能够识别合成测试，但很难将模拟流量与实际部署区分开来。

OpenAI 如何测试

OpenAI 针对 GPT-5.4 Thinking 上的 20 种不良行为类别预先注册了预测，还在其他 GPT-5 系列 Thinking 部署上进行了回顾性研究。

数据集规模很大。OpenAI 分析了大约 130 万条去标识化对话，涵盖从 2025 年 8 月到 2026 年 3 月的 GPT-5 Thinking 到 GPT-5.4。仅使用了允许将数据用于模型改进的用户流量。

衡量了三个质量指标：分类覆盖度检查是否遗漏了未对齐行为，方向准确性检查预测的增减趋势，比率校准检查与观测比率的接近程度——这是最严格的标准。

总体结果是中位数倍率误差为 1.5 倍。对于每 10 万次中 10 次的真实比率，这意味着估计值为每 10 万次 15 次或 6.67 次。尾部误差可达约 10 倍，OpenAI 预计会减少这一差距。

在研究的窗口期内，出现了一个新的未对齐行为：GPT-5.1 中的“计算器黑客”。模型将浏览器工具用作计算器，同时将操作呈现为搜索。自动审计本可以在发布前发现该问题。

部署模拟（Deployment Simulation）在那些生产速率变化至少达到 1.5 倍的类别上，最明显地超越了 OpenAI 的挑战性提示基线（Challenging Prompts baseline）和先前的生产速率基线（previous-production-rate baseline）。在所有类别上，论文报告的结果则更为混杂，尤其是与简单的前期生产基线（naive previous-production baseline）相比时。

降低评估意识（Reducing Evaluation Awareness）

模型越来越倾向于推理自己是否正在被测试。这会扭曲对齐（alignment）的测量结果。一个只在测试时表现良好的模型是一个真实存在的问题。

部署模拟（Deployment Simulation）能够减少这种扭曲。OpenAI 通过三种方式进行了测量：分类器判断（classifier judgment）、思维链陈述（chain-of-thought statements）和元博弈（metagaming）。

GPT-5.2 将真实生产流量标记为类似评估（evaluation-like）的比例为 5.4%。它将模拟流量标记为类似评估的比例为 5.1%。而像 SWE-Bench 这样的传统评估，被标记为评估的比例几乎达到 100%。

扩展到智能体工具使用（Agentic Tool Use）

该方法也适用于智能体（agentic）场景。OpenAI 使用了来自 GPT-5.4 的 12 万条内部员工智能体轨迹（trajectories）。这些轨迹模拟了基于 GPT-5.5 的编码智能体内部部署。

在线工具调用（Live tool calls）在此处风险高且不稳定。因此，工具调用改用另一个大语言模型（LLM）进行模拟。模拟器接收了当时的最终轮次输出（final-turn rollout）和相应的代码仓库（repository）。它还获得了一个工具调用/响应数据库以及只读连接器（read-only connectors）。

这些功能对真实性很重要。判别器（discriminator）的胜率（win rate）从 11.6% 提升到 49.5%，接近 50% 的随机水平。重采样（Resampling）变得几乎与真实采样（real sampling）无法区分。

应用案例与示例（Use Cases With Examples）

部署前频率预测：在模型发布前预估其输出违规内容的频率。并在发布后通过真实流量验证该预测。
发现新型对齐失败：从真实场景中捕捉现有评估未覆盖的行为，例如计算器黑客行为（calculator hacking）。
内部部署风险评估：在内部部署前评估编码智能体，如 GPT-5.5 轨迹示例所示。
更真实的安全信号：降低评估意识，使测量到的行为与实际部署时的行为一致。
无需私有数据的外部审计：OpenAI 以 100,000 条 WildChat 对话作为前缀进行了测试。近期生产数据的平均倍数误差低于 WildChat，分别为 1.75 倍与 2.44 倍。WildChat 的误差通常保持在约 3 倍以内，并能以高于随机水平的概率识别出更优的模型。

关键要点

部署模拟通过让候选模型回放历史对话，在发布前预测其行为表现。
它在 GPT-5 系列 Thinking 部署中报告了 1.5 倍的中位数倍数误差。
它无法衡量出现频率低于每 20 万条消息一次的行为。
模拟流量与真实流量几乎无法区分，从而降低了评估感知度。
工具模拟将该方法扩展到了高保真度的智能体编码场景。