OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI 发布 Deployment Simulation 方法:通过模拟部署预测模型发布前行为
阅读原文· openai.com精选理由
虽然只是安全评估方法,但OpenAI用130万真实对话验证,把预部署风险预测误差压到1.5倍,这套方法很可能成为未来模型发布前的标准动作。
AI 摘要
OpenAI 近日发布 Deployment Simulation 方法,通过在隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中,该方法比传统评估更准确地估计了不良行为频率,发现新型对齐问题,并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限,而 Deployment Simulation 使用真实对话分布缓解了这些问题,但无法测量频率低于每 20 万条消息 1 次的行为。
AI 翻译 · 中文
通过模拟部署在发布前预测模型行为 | OpenAI
OpenAI
2026 年 6 月 16 日