向阳乔木@vista8

2026-05-28 23:52·35天前

AI 摘要

Anthropic发布最佳实践指南，核心包括：控制图像分辨率以避免降采样导致坐标偏移，Claude 4.6系列推荐1280x720，Opus 4.7推荐1080p。构建API请求时，文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token，200k上下文窗口会较快用尽。文中指出：截图切块或画网格无益精度；开启Low thinking比不设更省token（因减少错误）；而Max thinking在视觉任务中性价比低，Medium设置更优且更便宜。

Anthropic 出了一篇Computer Use的最佳实践，总结学习下，评论区有原文。

原图分辨率太高，超 API 限制时，系统自动降采样，会导致画面和代码坐标系不匹配，就会点偏。

Claude 4.6 系列上限：最长边 1568 像素，总像素 1.15 mp。 Claude Opus 4.7 上限：最长边 2576 像素，总像素 3.75 mp。

最佳实践：4.6 系列推荐默认 1280x720；Opus 4.7 推荐默认 1080p。

构建 API 请求时，文本指令必须放在图片之前。

推荐：【 {文本： "点击提交按钮"}， {图片： base64} 】

让AI先看到文本，知道要找啥，找的更准。

每张截图大约消耗 1000-1800 个 token，200k 的上下文很快就会满，文章给了三种解法，感兴趣的可以看。

反常识内容：

截图切块发送不会提升精度，画坐标网格也没用。

开 Low thinking 比不开还省 token，因为犯错少。

开到Max Thinking 完全没必要，开到medium性价比更高，比Max便宜一半。

因为视觉操作是"感知和机械任务"，不是逻辑任务。

智能体 Anthropic 教程/实践

在 X 查看原推导出 Markdown

向阳乔木@vista8 · X

62导出 Markdown