ginobefun@hongming731

精选77

2026-05-14 07:15·45天前

精选理由

三篇来自 Anthropic 和 OpenAI 的生产级 Agent 实践精华，从坐标偏移坑到沙箱自研方案到评估框架，都是工程团队踩坑后的一手经验，做 Agent 落地的可以直接抄作业。

AI 摘要

BestBlogs早报聚焦AI智能体的工程化落地。Anthropic官方指南详解Claude Computer Use最佳实践，包括解决点击偏移的根本原因、推荐分辨率策略及必须采用虚拟机隔离与人工确认门控的安全原则。OpenAI工程师分享了为Codex构建Windows安全沙箱的历程，其最终方案通过专属安全标识符和写受限令牌，实现了操作系统层面的强制文件系统隔离。早报同时指出，基准测试优异的RAG Agent在生产环境中可能出现高达30%的幻觉率。

http：//x.com/i/article/2054698692955996160

BestBlogs 05.14 早报 · Claude Computer Use 最佳实践、Codex 沙箱安全与生产级 Agent 评估框架

在线阅读和收听早报：https：//www.bestblogs.dev/explore/brief/2026-05-14

BestBlogs Pro 早鸟内测开放：你可以自定义订阅源、配置兴趣标签，每天获得一份属于自己的头条早报。欢迎抢先体验，并把反馈发回给我们：https：//bestblogs.dev

导语

AI 智能体的工程化落地，今天这期带来三篇拿来就能用的深度实战。

Anthropic 和 OpenAI 分别给出了 Claude Computer Use 与 Codex 沙箱的第一手架构经验，直接回答生产环境最棘手的安全与性能问题。评估体系那篇则揭示了一个让人警醒的现实：基准测试 95% 准确率的 RAG Agent，上线后幻觉率可能高达 30%--测试集永远无法覆盖生产流量的真实分布。

速览部分有李想与罗永浩的 AI 转型深度对话、Shopify 从零构建多 Agent 系统的工程教训、Databricks 用精度换延迟的速率限制重构，以及快手电商搜索的生成式新框架。

今天是 2026 年 5 月 14 日，星期四，欢迎收听 BestBlogs EP56 早报。

精讲一：使用 Claude 进行计算机和浏览器操作的最佳实践

来源：Claude Blog

如果你正在构建任何形式的桌面或浏览器自动化 Agent，这篇来自 Anthropic 的官方最佳实践指南是目前最权威的参考文档。它针对 Claude 4.6 系列（Opus 4.6、Sonnet 4.6、Haiku 4.5）和 Claude Opus 4.7 发布，覆盖了从分辨率配置、安全架构到场景取舍的完整生产经验。

点击不准的根本原因：坐标系偏移

许多开发者在构建 Computer Use 集成时遭遇点击落点系统性偏移，往往以为是模型能力问题，反复尝试提示工程优化却收效甚微。实际上，根本原因更底层、更隐蔽：截图超过 API 内部尺寸上限后会被静默下采样，但坐标系仍然按你指定的原始分辨率空间返回，导致模型点的地方和你的界面坐标对不上。

Claude 4.6 系列的 API 内部处理限制是：最长边不超过 1568 像素，总像素不超过 1.15 兆像素。Opus 4.7 支持更高分辨率：最长边不超过 2576 像素，总像素不超过 3.75 兆像素。超出任意一个限制都会触发内部下采样，进而引发坐标偏移。官方明确指出，这个单一修复的收益超过几乎所有其他优化手段。

推荐分辨率策略

对大多数场景，推荐从 1280×720 起步。这个分辨率使用约 80% 的像素预算，始终在两个限制之内，是模型训练期间见过的标准分辨率，对现代 Web UI 和传统桌面应用都能良好支持。

如果使用 Opus 4.7，建议从 1080p 起步，相比 720p 有明显的画质提升，同时保持 token 使用量和性能的合理平衡。

对于想最大化视觉信息量的开发者，文章还提供了「最大 API 适配」方案：按每张截图的原始宽高比动态计算最优分辨率，充分利用可用像素预算而不引入宽高比失真。这种方式在准确率上比固定 1280×720 略有提升，但实现稍复杂。

文章也给出了明确的「应当避免的分辨率」指导，帮助开发者排除高分辨率下的常见误区。

模型思考能力与任务复杂度

文章在内部测试了不同思考努力等级在端到端 UI 自动化任务上的表现，覆盖桌面应用、浏览器和跨应用工作流。测试结果印证了两个关键模式：Opus 4.7 在 OSWorld Verified 基准上表现优于整个 4.6 系列，高思考等级在复杂多步骤任务中的收益最为显著，而简单重复性任务则不一定需要开启高思考。这为开发者在成本和性能之间的取舍提供了实验依据。

安全架构：不容妥协的底线

文章在安全架构上的态度非常明确，提出了几条硬性原则：

任何 Computer Use 集成都必须在专用虚拟机或完全隔离的容器环境中运行，绝不能将包含敏感凭证、个人数据或业务数据的主机文件系统暴露在 Agent 可访问的范围内。Agent 循环中必须设置人工确认门控，对高风险操作--包括表单提交、文件删除、账号操作、支付相关流程--必须暂停等待人工确认，而不是让 Agent 自主完成。

这些原则背后的逻辑是：Computer Use Agent 本质上是在执行任意操作序列，攻击面远大于普通的 API 调用型 Agent。任何一次误操作都可能造成不可逆后果。

Browser Use 与 Computer Use 的场景取舍

文章对这两种模式提供了清晰的场景划分：Browser Use（通过 Playwright 等浏览器自动化 API 控制浏览器）适合结构化 Web 任务，API 层面的操作精度高、可靠性强、可重复；Computer Use（通过截图 + 点击控制整个屏幕）适合无 API 可用的桌面应用、遗留系统或需要跨多个应用的工作流。两者并不互斥，复杂任务可以组合使用--先用 Browser Use 完成可 API 化的部分，遇到需要截图感知的场景再切换到 Computer Use。

智能体AnthropicOpenAI安全/对齐

在 X 查看原推

ginobefun@hongming731 · X

精选77

2026-05-14 07:15·45天前

在 X 看原推· x.com

精选理由

AI 摘要

http：//x.com/i/article/2054698692955996160

BestBlogs 05.14 早报 · Claude Computer Use 最佳实践、Codex 沙箱安全与生产级 Agent 评估框架

在线阅读和收听早报：https：//www.bestblogs.dev/explore/brief/2026-05-14

导语

AI 智能体的工程化落地，今天这期带来三篇拿来就能用的深度实战。

今天是 2026 年 5 月 14 日，星期四，欢迎收听 BestBlogs EP56 早报。

精讲一：使用 Claude 进行计算机和浏览器操作的最佳实践

来源：Claude Blog

点击不准的根本原因：坐标系偏移

BestBlogs 05.14 早报 · Claude Computer Use 最佳实践、Codex 沙箱安全与生产级 Agent 评估框架

导语

精讲一：使用 Claude 进行计算机和浏览器操作的最佳实践

BestBlogs 05.14 早报 · Claude Computer Use 最佳实践、Codex 沙箱安全与生产级 Agent 评估框架

导语

精讲一：使用 Claude 进行计算机和浏览器操作的最佳实践

精讲二：在 Windows 上为 Codex 构建安全有效的沙箱

精讲三：为生产级 AI 智能体构建评估框架：来自 100+ 次部署的 12 项指标体系

速览

扩展阅读

今日阅读路径

精讲二：在 Windows 上为 Codex 构建安全有效的沙箱

精讲三：为生产级 AI 智能体构建评估框架：来自 100+ 次部署的 12 项指标体系

速览

扩展阅读

今日阅读路径