OSWorld2.0:长时域真实世界计算机使用工作流基准
阅读原文· arxiv.org第一个真正长周期、真实工作流的计算机使用基准,结果显示当前最先进的 agent 仍不及格,关键短板不在 GUI 操作而在状态跟踪和验证,做 agent 的人必须读。
OSWorld2.0 发布,包含108个长时域计算机使用工作流,覆盖日常与专业任务。每项任务用户中位数约1.6小时完成,Claude Opus 4.7(最大思考)平均需318次工具调用(OSWorld 1.0约30次)。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案,附安全报告。500步二元完成指标下,Claude Opus 4.8(最大思考+批量调用)得分最高仅20.6%(部分54.8%);GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级:瓶颈不在基本GUI控制或编码,而是丢失约束、错过中途信息、猜测而非询问、跳过验证,尤其依赖隐藏状态时最差。
现有的计算机使用基准无法捕捉真实世界计算机使用的现实性、复杂性和长周期需求,从而限制了它们揭示前沿智能体局限性的能力。我们推出了 OSWorld 2.0,一个包含 108 个长周期计算机使用工作流的基准,涵盖日常和专业任务,旨在捕捉复杂且具有挑战性的现实世界现象。每个任务都代表一个真实的自始至终工作流,人类用户完成其中位数耗时约 1.6 小时,并且 Claude Opus 4.7 在启用最大思考模式下平均需要 318 次工具调用,而 OSWorld 1.0 中这一数字约为 30 次。OSWorld 2.0 针对现实工作流中常见但在先前基准中代表性不足的挑战现象,涵盖了交互设计挑战(如流式交互和动态环境)以及智能体模式挑战(如跨源推理、隐式状态推断和视觉空间精度)。任务基于真实的输入工件,并与真实的有状态用户档案数据进行交叉参考,同时包含独立的审查安全敏感执行的安全报告。在我们以 500 步为上限的二元完成主要指标下,Claude Opus 4.8 启用最大思考模式和批量工具调用表现最佳,但仅完成了 20.6% 的任务,部分得分为 54.8%;GPT-5.5 在 token 效率上远胜一筹,但得分在 13% 附近停滞。这些结果表明,当前智能体距离专业级别的计算机使用仍有很大差距:它们并非在基本的 GUI 控制或编码上犯错,而是会丢失约束条件、遗漏任务中途到达的信息、猜测而非询问用户,并且跳过验证,在任务依赖必须恢复的隐藏状态时最为挣扎。