BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev
导语
AI 智能体的工程化落地,今天这期带来三篇拿来就能用的深度实战。
Anthropic 和 OpenAI 分别给出了 Claude Computer Use 与 Codex 沙箱的第一手架构经验,直接回答生产环境最棘手的安全与性能问题。评估体系那篇则揭示了一个让人警醒的现实:基准测试 95% 准确率的 RAG Agent,上线后幻觉率可能高达 30%--测试集永远无法覆盖生产流量的真实分布。
速览部分有李想与罗永浩的 AI 转型深度对话、Shopify 从零构建多 Agent 系统的工程教训、Databricks 用精度换延迟的速率限制重构,以及快手电商搜索的生成式新框架。
今天是 2026 年 5 月 14 日,星期四,欢迎收听 BestBlogs EP56 早报。
精讲一:使用 Claude 进行计算机和浏览器操作的最佳实践
来源:Claude Blog
如果你正在构建任何形式的桌面或浏览器自动化 Agent,这篇来自 Anthropic 的官方最佳实践指南是目前最权威的参考文档。它针对 Claude 4.6 系列(Opus 4.6、Sonnet 4.6、Haiku 4.5)和 Claude Opus 4.7 发布,覆盖了从分辨率配置、安全架构到场景取舍的完整生产经验。
点击不准的根本原因:坐标系偏移
许多开发者在构建 Computer Use 集成时遭遇点击落点系统性偏移,往往以为是模型能力问题,反复尝试提示工程优化却收效甚微。实际上,根本原因更底层、更隐蔽:截图超过 API 内部尺寸上限后会被静默下采样,但坐标系仍然按你指定的原始分辨率空间返回,导致模型点的地方和你的界面坐标对不上。
Claude 4.6 系列的 API 内部处理限制是:最长边不超过 1568 像素,总像素不超过 1.15 兆像素。Opus 4.7 支持更高分辨率:最长边不超过 2576 像素,总像素不超过 3.75 兆像素。超出任意一个限制都会触发内部下采样,进而引发坐标偏移。官方明确指出,这个单一修复的收益超过几乎所有其他优化手段。
推荐分辨率策略
对大多数场景,推荐从 1280×720 起步。这个分辨率使用约 80% 的像素预算,始终在两个限制之内,是模型训练期间见过的标准分辨率,对现代 Web UI 和传统桌面应用都能良好支持。
如果使用 Opus 4.7,建议从 1080p 起步,相比 720p 有明显的画质提升,同时保持 token 使用量和性能的合理平衡。
对于想最大化视觉信息量的开发者,文章还提供了「最大 API 适配」方案:按每张截图的原始宽高比动态计算最优分辨率,充分利用可用像素预算而不引入宽高比失真。这种方式在准确率上比固定 1280×720 略有提升,但实现稍复杂。
任何 Computer Use 集成都必须在专用虚拟机或完全隔离的容器环境中运行,绝不能将包含敏感凭证、个人数据或业务数据的主机文件系统暴露在 Agent 可访问的范围内。Agent 循环中必须设置人工确认门控,对高风险操作--包括表单提交、文件删除、账号操作、支付相关流程--必须暂停等待人工确认,而不是让 Agent 自主完成。
这些原则背后的逻辑是:Computer Use Agent 本质上是在执行任意操作序列,攻击面远大于普通的 API 调用型 Agent。任何一次误操作都可能造成不可逆后果。
Browser Use 与 Computer Use 的场景取舍
文章对这两种模式提供了清晰的场景划分:Browser Use(通过 Playwright 等浏览器自动化 API 控制浏览器)适合结构化 Web 任务,API 层面的操作精度高、可靠性强、可重复;Computer Use(通过截图 + 点击控制整个屏幕)适合无 API 可用的桌面应用、遗留系统或需要跨多个应用的工作流。两者并不互斥,复杂任务可以组合使用--先用 Browser Use 完成可 API 化的部分,遇到需要截图感知的场景再切换到 Computer Use。
BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev
导语
AI 智能体的工程化落地,今天这期带来三篇拿来就能用的深度实战。
Anthropic 和 OpenAI 分别给出了 Claude Computer Use 与 Codex 沙箱的第一手架构经验,直接回答生产环境最棘手的安全与性能问题。评估体系那篇则揭示了一个让人警醒的现实:基准测试 95% 准确率的 RAG Agent,上线后幻觉率可能高达 30%--测试集永远无法覆盖生产流量的真实分布。
速览部分有李想与罗永浩的 AI 转型深度对话、Shopify 从零构建多 Agent 系统的工程教训、Databricks 用精度换延迟的速率限制重构,以及快手电商搜索的生成式新框架。
今天是 2026 年 5 月 14 日,星期四,欢迎收听 BestBlogs EP56 早报。
精讲一:使用 Claude 进行计算机和浏览器操作的最佳实践
来源:Claude Blog
如果你正在构建任何形式的桌面或浏览器自动化 Agent,这篇来自 Anthropic 的官方最佳实践指南是目前最权威的参考文档。它针对 Claude 4.6 系列(Opus 4.6、Sonnet 4.6、Haiku 4.5)和 Claude Opus 4.7 发布,覆盖了从分辨率配置、安全架构到场景取舍的完整生产经验。
点击不准的根本原因:坐标系偏移
许多开发者在构建 Computer Use 集成时遭遇点击落点系统性偏移,往往以为是模型能力问题,反复尝试提示工程优化却收效甚微。实际上,根本原因更底层、更隐蔽:截图超过 API 内部尺寸上限后会被静默下采样,但坐标系仍然按你指定的原始分辨率空间返回,导致模型点的地方和你的界面坐标对不上。
Windows 没有类似的内置能力。Codex 在 Windows 上的默认模式是以真实用户权限运行,也就是说,如果用户能做某件事,Codex 就能做某件事--包括删除任意文件、修改系统配置、访问所有用户数据。在没有沙箱的情况下,用户只有两个糟糕的选择:批准几乎每一条命令(高频中断,失去自动化价值),或者开启完全访问模式(放弃监督)。
逐一评估现有方案及其不足
工程师先系统评估了 Windows 提供的现有工具:
AppContainer 是 Windows 内置的应用沙箱机制,但其权限模型是为 Store 应用设计的,粒度过于粗放--要么完全隔离,要么保留所有用户权限,无法实现「允许读取任意位置、但只允许向指定目录写入」这种精细控制。
Windows Sandbox 本质上是一个轻量虚拟机,Home 版 Windows 不可用,并且每次启动都需要独立的虚拟机实例,资源消耗和启动时间都不适合作为每条命令的执行环境。
这个「专属 SID + 写受限令牌 + ACL 白名单」的设计模式,对所有需要在 Windows 上运行不完全受信代码的系统都有参考价值:AI 编程工具、自动化测试框架、RPA 产品,乃至任何需要给用户提供「让 AI 帮你跑命令」能力的服务。文章清晰呈现了从需求分析、方案评估到工程实现的完整思路,是难得的 Windows 系统安全工程案例。
精讲三:为生产级 AI 智能体构建评估框架:来自 100+ 次部署的 12 项指标体系
来源:Towards Data Science
这篇文章来自真实的生产教训,而不是理论框架。作者团队在为医疗行业客户部署 AI Agent 系统三个月后,被合规官问了一个无法回答的问题:「你如何知道你的 Agent 没有在幻觉患者症状?」当时他们有单元测试、集成测试、在 demo 数据集上表现漂亮的模型,但没有任何能够在生产环境度量幻觉率、上下文忠实度或工具选择准确率的框架。
理想汽车创始人李想在这期长达两小时的播客中,深入阐述了公司从传统车企向 AI 与具身智能公司转型的战略逻辑。新旗舰 SUV L9 Livis 搭载了自研马赫 M100 芯片,算力达到 2560 TOPS,以及全球首个完全体全线控底盘和 800V 主动式悬架系统。李想的核心判断是:自动驾驶不会显著影响购车需求,人形机器人是继汽车之后规模最大的硬件赛道,而 AI 技术的终极价值在于让普通人享受到此前只有富豪才能获得的服务质量--从专属管家到全天候健康顾问。播客还涉及 AI 时代顶级人才的标准、激进的组织调整、以及新能源车企出海的路径。对汽车行业 AI 转型方向感兴趣的读者,这是近期最有深度的一手资料。
任何 Computer Use 集成都必须在专用虚拟机或完全隔离的容器环境中运行,绝不能将包含敏感凭证、个人数据或业务数据的主机文件系统暴露在 Agent 可访问的范围内。Agent 循环中必须设置人工确认门控,对高风险操作--包括表单提交、文件删除、账号操作、支付相关流程--必须暂停等待人工确认,而不是让 Agent 自主完成。
这些原则背后的逻辑是:Computer Use Agent 本质上是在执行任意操作序列,攻击面远大于普通的 API 调用型 Agent。任何一次误操作都可能造成不可逆后果。
Browser Use 与 Computer Use 的场景取舍
文章对这两种模式提供了清晰的场景划分:Browser Use(通过 Playwright 等浏览器自动化 API 控制浏览器)适合结构化 Web 任务,API 层面的操作精度高、可靠性强、可重复;Computer Use(通过截图 + 点击控制整个屏幕)适合无 API 可用的桌面应用、遗留系统或需要跨多个应用的工作流。两者并不互斥,复杂任务可以组合使用--先用 Browser Use 完成可 API 化的部分,遇到需要截图感知的场景再切换到 Computer Use。
Windows 没有类似的内置能力。Codex 在 Windows 上的默认模式是以真实用户权限运行,也就是说,如果用户能做某件事,Codex 就能做某件事--包括删除任意文件、修改系统配置、访问所有用户数据。在没有沙箱的情况下,用户只有两个糟糕的选择:批准几乎每一条命令(高频中断,失去自动化价值),或者开启完全访问模式(放弃监督)。
逐一评估现有方案及其不足
工程师先系统评估了 Windows 提供的现有工具:
AppContainer 是 Windows 内置的应用沙箱机制,但其权限模型是为 Store 应用设计的,粒度过于粗放--要么完全隔离,要么保留所有用户权限,无法实现「允许读取任意位置、但只允许向指定目录写入」这种精细控制。
Windows Sandbox 本质上是一个轻量虚拟机,Home 版 Windows 不可用,并且每次启动都需要独立的虚拟机实例,资源消耗和启动时间都不适合作为每条命令的执行环境。
这个「专属 SID + 写受限令牌 + ACL 白名单」的设计模式,对所有需要在 Windows 上运行不完全受信代码的系统都有参考价值:AI 编程工具、自动化测试框架、RPA 产品,乃至任何需要给用户提供「让 AI 帮你跑命令」能力的服务。文章清晰呈现了从需求分析、方案评估到工程实现的完整思路,是难得的 Windows 系统安全工程案例。
精讲三:为生产级 AI 智能体构建评估框架:来自 100+ 次部署的 12 项指标体系
来源:Towards Data Science
这篇文章来自真实的生产教训,而不是理论框架。作者团队在为医疗行业客户部署 AI Agent 系统三个月后,被合规官问了一个无法回答的问题:「你如何知道你的 Agent 没有在幻觉患者症状?」当时他们有单元测试、集成测试、在 demo 数据集上表现漂亮的模型,但没有任何能够在生产环境度量幻觉率、上下文忠实度或工具选择准确率的框架。
理想汽车创始人李想在这期长达两小时的播客中,深入阐述了公司从传统车企向 AI 与具身智能公司转型的战略逻辑。新旗舰 SUV L9 Livis 搭载了自研马赫 M100 芯片,算力达到 2560 TOPS,以及全球首个完全体全线控底盘和 800V 主动式悬架系统。李想的核心判断是:自动驾驶不会显著影响购车需求,人形机器人是继汽车之后规模最大的硬件赛道,而 AI 技术的终极价值在于让普通人享受到此前只有富豪才能获得的服务质量--从专属管家到全天候健康顾问。播客还涉及 AI 时代顶级人才的标准、激进的组织调整、以及新能源车企出海的路径。对汽车行业 AI 转型方向感兴趣的读者,这是近期最有深度的一手资料。