OSWorld2.0：长时域真实世界计算机使用工作流基准

2026-06-28 08:00·4天前

精选理由

第一个真正长周期、真实工作流的计算机使用基准，结果显示当前最先进的 agent 仍不及格，关键短板不在 GUI 操作而在状态跟踪和验证，做 agent 的人必须读。

AI 摘要

OSWorld2.0 发布，包含108个长时域计算机使用工作流，覆盖日常与专业任务。每项任务用户中位数约1.6小时完成，Claude Opus 4.7（最大思考）平均需318次工具调用（OSWorld 1.0约30次）。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案，附安全报告。500步二元完成指标下，Claude Opus 4.8（最大思考+批量调用）得分最高仅20.6%（部分54.8%）；GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级：瓶颈不在基本GUI控制或编码，而是丢失约束、错过中途信息、猜测而非询问、跳过验证，尤其依赖隐藏状态时最差。

AI 翻译 · 中文

现有的计算机使用基准无法捕捉真实世界计算机使用的现实性、复杂性和长周期需求，从而限制了它们揭示前沿智能体局限性的能力。我们推出了 OSWorld 2.0，一个包含 108 个长周期计算机使用工作流的基准，涵盖日常和专业任务，旨在捕捉复杂且具有挑战性的现实世界现象。每个任务都代表一个真实的自始至终工作流，人类用户完成其中位数耗时约 1.6 小时，并且 Claude Opus 4.7 在启用最大思考模式下平均需要 318 次工具调用，而 OSWorld 1.0 中这一数字约为 30 次。OSWorld 2.0 针对现实工作流中常见但在先前基准中代表性不足的挑战现象，涵盖了交互设计挑战（如流式交互和动态环境）以及智能体模式挑战（如跨源推理、隐式状态推断和视觉空间精度）。任务基于真实的输入工件，并与真实的有状态用户档案数据进行交叉参考，同时包含独立的审查安全敏感执行的安全报告。在我们以 500 步为上限的二元完成主要指标下，Claude Opus 4.8 启用最大思考模式和批量工具调用表现最佳，但仅完成了 20.6% 的任务，部分得分为 54.8%；GPT-5.5 在 token 效率上远胜一筹，但得分在 13% 附近停滞。这些结果表明，当前智能体距离专业级别的计算机使用仍有很大差距：它们并非在基本的 GUI 控制或编码上犯错，而是会丢失约束条件、遗漏任务中途到达的信息、猜测而非询问用户，并且跳过验证，在任务依赖必须恢复的隐藏状态时最为挣扎。

HuggingFace Daily Papers（社区热门论文）

精选82导出 Markdown

OSWorld2.0：长时域真实世界计算机使用工作流基准

2026-06-28 08:00·4天前

阅读原文· arxiv.org

精选理由

AI 摘要

AI 翻译 · 中文

智能体论文/研究评测/基准