Anthropic发布了Claude计算机操作官方指南,核心解决了截图发送至API时因静默压缩导致的点击坐标偏移问题。关键在于客户端预先将截图缩放至1280x720等标准分辨率,并将指令置于截图前发送以提高精度。模型方面,Sonnet 4.6机械点击精度更高,Opus 4.7则支持更高分辨率。安全上必须在隔离环境中运行并设置高风险操作人工确认。Browser Use适合结构化Web任务,Computer Use则适用于桌面应用等非结构化场景。
使用 Claude 进行计算机和浏览器操作的最佳实践
Anthropic 针对 Claude 4.6 系列和 Opus 4.7 发布了 Computer Use 的官方最佳实践指南。如果你正在构建任何需要控制浏览器或桌面的 AI Agent,这篇是目前最权威的第一手资料。
核心问题是一个几乎所有人都踩过却不知道原因的坑。把截图发给 Computer Use API 的时候,API 有内部尺寸上限:Claude 4.6 系列是最长边不超过 1568 像素、总像素不超过 1.15 兆;Opus 4.7 是最长边不超过 2576 像素、总像素不超过 3.75 兆。超过上限之后,API 会在把图片交给模型之前静默压缩,但返回的坐标仍然是按原始分辨率计算的,结果就是点击位置系统性偏移。这个失败是静默的,没有任何报错提示,单纯表现为点击总是差那么一点。
解法直接:在发送截图之前,先在客户端把截图缩放到 1280x720(使用 Opus 4.7 可以从 1080p 起步)。这个分辨率既在两个限制之内,也是模型在训练中大量见过的标准分辨率,实测对现代 Web 界面和传统桌面应用都能良好支持。还有一个容易忽略的细节:macOS 上的截图默认是 2x 分辨率(Retina 屏幕),看起来正常但实际像素数是双倍,同样会触发压缩陷阱。
API 调用格式也有讲究:把文字指令放在截图之前(而不是之后)发送,模型先接收指令再处理图片,点击精度会有明显提升。