Jason 区分三种方式:Computer Use 像人一样看屏幕点鼠标,可操作任何桌面应用(如 Xcode、iOS 模拟器),Mac 可后台运行,Windows 需占前台;Chrome 扩展使用已登录浏览器的 cookies 和账号状态,适合 Gmail、LinkedIn 等需登录或同时操作多标签页的场景;内置浏览器是对话线程内的沙盒,无登录状态,适合前端开发、本地预览和页面标注改代码。选型:需登录用 Chrome,操作桌面应用用 Computer Use,前端开发用内置浏览器;有现成插件或 MCP 时优先用结构化工具。
Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南,把三者的区别和适用场景理清楚了,这里做个精简版。
【1】Computer Use:最广,也最慢
Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘,操作你电脑上的任何图形界面应用。Spotify、Xcode、系统设置、iOS 模拟器,甚至 iPhone Mirroring 都能控制。
代价是慢。结构化插件可以直接调 API,Computer Use 得一步步看界面、找按钮、等响应、再检查结果。但它能搞定没有 API 的应用,这是其他方式做不到的。
Mac 和 Windows 的体验差距很大:Mac 上 Codex 可以在后台静悄悄地操作,你继续用自己的电脑不受影响;Windows 上它必须占据前台,操作期间你没法用那台机器。
Jason 举了个例子:有次他的快递被偷了,Amazon 说要等 25 分钟才能接通客服。他让 Codex 每五分钟检查一次聊天窗口,客服出现后改为每分钟一次,自动完成退款流程。他去洗了个澡,回来退款已经办好了。
【2】Chrome 扩展:带着你的登录状态