# OpenAI四层框架管住Codex，实现AI代理安全可控

- 来源：meng shao (@shao__meng)
- 发布时间：2026-05-09 09:14
- AIHOT 分数：53
- AIHOT 链接：https://aihot.virxact.com/items/cmoxnwpvi037fsllhtb74621g
- 原文链接：https://x.com/shao__meng/status/2052920140464005349

## AI 摘要

OpenAI为确保Codex这类Coding Agent在研发流水线中的安全与可控性，设计了一套四层管控框架。核心原则是让低风险操作零摩擦，高风险操作必须显式审批。框架包括：通过沙箱和审批机制定义技术执行边界，其中创新的Auto-review模式利用子代理自动审阅Codex动作，实现AI审AI；实施默认拒绝、显式允许的网络策略；通过身份与凭证管理将Codex活动绑定至企业工作区并纳入合规日志；以及按命令语义分级放行或拦截。真正的重点是Agent-Native Telemetry，它通过OpenTelemetry导出用户意图、Agent推理路径、审批决策等完整因果链，弥补了传统日志无法解释“为什么”的缺陷。这份遥测数据既用于安全运营，如由AI安全三角分诊Agent自动分析EDR警报并分类响应，也复用于内部运营分析，实现安全与效率的统一。

## 正文

当 Agent 自己审批 Agent：OpenAI 是怎么管住 Codex 的？

当 Codex 这样的 Coding Agent 能读写仓库、运行命令、调用开发工具，它进入研发流水线，你如何同时保住效率和可控性？保证企业安全？

OpenAI 给出的答案是一套四层框架：受限执行 + 网络策略 + 身份治理 + Agent-Native Telemetry。指导原则：让低风险的日常操作零摩擦，让高风险操作必须显式停下来等审查。
https://openai.com/index/running-codex-safely/

# 四个控制面

1. 沙箱 + 审批
· 沙箱定义"技术执行边界"：能写哪里、能不能联网、哪些路径只读。
· 审批策略定义"什么情况下必须停下来问人"：通常是越界沙箱时触发。

值得关注的新机制是 Auto-review 模式：一个独立的子代理负责审阅 Codex 的待执行动作和上下文，对低风险请求自动放行，仅在风险升高时才打断用户。这是用 AI 审 AI，把审批本身做成了智能层。

2. 网络访问
OpenAI 不允许 Codex 拥有开放出站权限。策略是三段式：
· 允许已知合规目的地
· 拉黑明确不希望访问的域名（示例中是 pastebin. com，典型的数据外泄渠道）
· 对陌生域名要求审批

这是默认拒绝、显式允许的网络模型，配合 proxy 实施。

3. 身份与凭证
控制点：
· CLI 和 MCP 的 OAuth 凭证强制存入 OS keyring（macOS Keychain）
· 强制通过 ChatGPT 登录
· 锁定到指定的企业工作区 UUID

效果：Codex 的所有活动都被绑回工作区级别的统一管控，并自动落入 ChatGPT 合规日志平台。这一步把"Codex 是谁在用、属于哪个组织"变成不可绕过的事实。

4. 命令规则
不是把 shell 命令一视同仁。gh pr view、kubectl get 这类只读命令直接放行；危险命令显式拦截或要求审批。这种"按命令语义分级"的做法，让代理在常规工程流程里几乎感觉不到摩擦，同时保留对危险动作的强制刹车。

5. 配置分发
OpenAI 用三层分发：云端 managed requirements + macOS 托管偏好 + 本地 requirements 文件。其中 requirements 是管理员强制项，用户无法覆盖。这套机制保证全公司基线一致，又允许按团队/环境差异化测试。

# 真正的重点：Agent-Native Telemetry

传统日志的局限
传统 EDR、审计日志只能告诉你"发生了什么"：进程起来了、文件改了、连接尝试了。但面对 AI Agent，安全团队真正缺的信息是 "为什么"--用户的原始意图、Agent 的推理路径、审批决策、工具调用链。

Codex 给的东西
通过 OpenTelemetry 导出以下事件：
· 用户原始提示词
· 工具审批决策
· 工具执行结果
· MCP 服务器使用情况
· 网络代理放行/拒绝事件

也就是说，安全团队可以重建 "用户说了什么 → Agent 打算做什么 → 系统批准了什么 → 实际发生了什么 → 网络层是否拦下" 的完整因果链。

# 实战用法：AI 审 AI

OpenAI 自己的做法非常具体：当 EDR 报警提示 Codex 行为异常，他们的 AI 安全三角分诊 Agent 会主动拉取 Codex 的遥测，自动区分三类情况：
· 预期内的 Agent 行为
· 良性失误
· 真正需要升级响应的事件
只把第三类推给人。这是一个"Agent 的行为由另一个 Agent 来解释"的安全运营范式。

同一份遥测还被复用于运营分析：内部采用率、工具/MCP 使用分布、网络沙箱拦截频率、配置调优方向。一份数据同时服务安全和增长。

### 引用推文

> Fotis Chantzis：We've spent a lot of time on the framework underneath Codex, so it can move quickly on routine work while stopping for review when the risk changes. Here's how ...
