meng shao@shao__meng

2026-05-02 20:57·61天前

AI 摘要

OpenAI Codex App的「Computer Use」功能通过获取macOS屏幕录制和辅助功能权限，使AI能直接观察并操作图形界面，自动化执行应用测试、浏览器操作、GUI Bug复现等任务。使用时需在prompt中@目标应用并清晰描述流程。其权限分为系统层和Codex内部应用白名单两层，安全上强调任务需具体、可中断，并禁止自动化终端或进行管理员认证。开发者应注意隔离浏览器会话，并让Codex在修改代码后重跑流程以形成验证闭环。

OpenAI Codex App「Computer Use」是我最近用过最惊讶和满意的功能，应该没有之一，快、准！如果你在用 Codex 却还没用过 Computer Use，或者还没用过 Codex 想找一个用起来的理由，Computer Use 必须用起来！

Computer Use：通过屏幕录制 + 辅助功能两项 macOS 系统权限，让 Codex 直接「看屏幕、动鼠标键盘」，操作 macOS 上的图形界面应用。 https://developers.openai.com/codex/app/computer-use

什么时候用它？ · 测试 macOS app、iOS 模拟器流程、Codex 自己正在构建的桌面应用 · 需要浏览器操作的任务 · 复现只在 GUI 中出现的 bug · 改那些必须点 UI 才能改的应用设置 · 查看没有插件接入的应用或数据源里的信息 · 跨多个应用协作的工作流 · 在后台跑一个有界限的任务，自己同时做别的事

两个重要原则 · 本地在开发的 Web 应用，优先用 Codex 自带的 in-app browser，而不是 Computer Use 去开 Chrome · 目标应用如果有专属 plugin / MCP server，优先走结构化集成；Computer Use 仅用于必须「视觉操作」的场景

怎么触发？在 prompt 里 @ Computer Use 或直接 @ AppName（如 @ Chrome），并清晰描述目标应用、窗口和流程。这种「操作 → 改代码 → 再跑同一流程」的闭环，是它最有价值的用法之一：让 agent 能自己验证自己的修改。

权限模型（最容易误读的部分）存在两层独立的权限： 1. macOS 系统权限：Screen Recording（看）+ Accessibility（点/打字/导航）。决定 Codex 是否能感知和操作 GUI。 2. Codex 内部的 App Approvals：决定 Codex 被允许操作哪些应用。每个应用首次使用都会询问，可选「Always allow」加白名单，可在设置里移除。

此外： · 文件读写、shell 命令仍然走原有的 sandbox 与审批策略，Computer Use 不绕过它。 · 敏感/破坏性操作会再次请求确认。

安全模型与硬限制 Codex 在任务期间会处理：屏幕内容、截图、窗口/菜单、键盘输入、剪贴板状态--这些都被视为模型上下文。因此官方反复强调： · 任务要窄而具体，一次一个目标 app 或流程 · 任意时刻可中断、可接管 · 涉密 app 不必要时别开着 · 涉及秘密、账号、安全、隐私、网络、支付、凭证的环节必须人在场 · 「Always allow」只给信任的 app · 一旦 Codex 操作了错误窗口，立即取消

浏览器特别提醒：Codex 用你的浏览器时，会带着你的登录态--网站会把这些点击/提交当作你本人发起。若想边干活边让 Codex 跑，让它用另一个浏览器。

硬性禁止（写死的安全边界）： · 不能自动化终端应用与 Codex 自身（避免绕过自身安全策略） · 不能以管理员身份认证 · 不能批准系统的安全/隐私权限弹窗

实用建议（给开发者） · 任务描述里写清目标 app、目标窗口、要走的流程、判定成功的标准 · 让 Codex 在改代码后重跑同一 UI 流程，形成自动验证回路 · 涉登录/支付/系统设置时，别开 Always allow，逐步审批 · 要并行工作时，把 Codex 关到另一个浏览器或另一个用户会话里，避免抢焦点和登录态污染 · 记得把「保存文件」作为流程显式步骤，确保改动进入 review

meng shao@shao__meng · X

66导出 Markdown

2026-05-02 20:57·61天前

在 X 看原推· x.com

AI 摘要