OpenAI 发布 Deployment Simulation 方法：通过模拟部署预测模型发布前行为

2026-06-16 08:00·16天前

精选理由

虽然只是安全评估方法，但OpenAI用130万真实对话验证，把预部署风险预测误差压到1.5倍，这套方法很可能成为未来模型发布前的标准动作。

AI 摘要

OpenAI 近日发布 Deployment Simulation 方法，通过在隐私保护下重放历史对话、用新候选模型重新生成回复，模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中，该方法比传统评估更准确地估计了不良行为频率，发现新型对齐问题，并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限，而 Deployment Simulation 使用真实对话分布缓解了这些问题，但无法测量频率低于每 20 万条消息 1 次的行为。

AI 翻译 · 中文

通过模拟部署在发布前预测模型行为 | OpenAI

OpenAI

2026 年 6 月 16 日

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74导出 Markdown