OpenAI 产品负责人介绍了 Auto Review 功能,其核心是一个 AI 智能体执行任务时,由另一个 AI 智能体实时验证其动作的安全性。该功能是 OpenAI 安全与对齐团队的研究成果,旨在让“AI 对齐”从研究概念变为实际产品,使用户能放心地让智能体处理敏感任务。
让一个AI 实时监督另一个 AI 干活
OpenAI 产品负责人 Nick Turley 在采访里讲的介绍了他们的 Auto Review功能
• 主 Agent 干活 • 第二 Agent 实时验证主 Agent 的每个动作 • 检查它没在做任何可能伤害你的事
"这是OpenAI安全团队和对齐团队的研究的成果",内部是用一个AI来监督另一个AI防止它干坏事…
然后无意是它解锁了一种全新的用法:
你终于敢把生活里很多东西的访问权交给 Agent,让它整夜跑着处理敏感数据,第二天起床你只批准几件关键的,剩下的它自己搞完。
不用担心半夜你的 Agent 给一个陌生人发了一封带你个人信息的邮件…
说白了,这是"AI 对齐研究"第一次以普通用户摸得着的方式落地。
以前对齐是论文里的曲线,现在变成了"我能放心睡过夜"。