Anthropic发布最佳实践指南,核心包括:控制图像分辨率以避免降采样导致坐标偏移,Claude 4.6系列推荐1280x720,Opus 4.7推荐1080p。构建API请求时,文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token,200k上下文窗口会较快用尽。文中指出:截图切块或画网格无益精度;开启Low thinking比不设更省token(因减少错误);而Max thinking在视觉任务中性价比低,Medium设置更优且更便宜。
Anthropic 出了一篇Computer Use的最佳实践,总结学习下,评论区有原文。
- 原图分辨率太高,超 API 限制时,系统自动降采样,会导致画面和代码坐标系不匹配,就会点偏。
Claude 4.6 系列上限:最长边 1568 像素,总像素 1.15 mp。 Claude Opus 4.7 上限:最长边 2576 像素,总像素 3.75 mp。
最佳实践:4.6 系列推荐默认 1280x720;Opus 4.7 推荐默认 1080p。
- 构建 API 请求时,文本指令必须放在图片之前。
推荐:【 {文本: "点击提交按钮"}, {图片: base64} 】
让AI先看到文本,知道要找啥,找的更准。
- 每张截图大约消耗 1000-1800 个 token,200k 的上下文很快就会满,文章给了三种解法,感兴趣的可以看。
反常识内容:
- 截图切块发送不会提升精度,画坐标网格也没用。
- 开 Low thinking 比不开还省 token,因为犯错少。