恢复策略引发的错误:鲁棒GUI智能体的基准测试与轨迹合成
阅读原文· arxiv.orgGUI Agent 能不能从自己犯的错里爬起来,才是落地的关键,阿里这篇论文给出了一个不错的基准和训练方案,做 Agent 的可以看看。
针对GUI智能体缺乏从自身错误中恢复能力的问题,本研究提出了GUI-RobustEval基准测试和RoTS轨迹合成框架。GUI-RobustEval包含1216个可执行测试用例,系统评估智能体在多种错误模式下的恢复能力。RoTS框架通过基于树的流程合成了80万条高质量数据。在此基础上训练的RoTS-7B和RoTS-32B模型,在GUI-RobustEval及传统基准上均获得显著提升。其中RoTS-32B在OSWorld上取得了47.4%的成功率和33.8%的All-Pass@4分数,表明长时程错误恢复能力的增强对鲁棒性和整体性能均有贡献。
虽然 GUI 智能体发展迅速,但它们往往缺乏从自身错误中恢复的能力,这阻碍了其实际部署。为了在评估和数据两个层面弥补这一差距,我们引入了 GUI-RobustEval 并提出了 Robustness-driven Trajectory Synthesis。GUI-RobustEval 包含 1,216 个可执行测试用例,能够系统地衡量在广泛且真实的错误模式集合下的错误恢复能力。在数据层面,RoTS 是一个可扩展的合成框架,它通过基于树的流水线主动发现多种错误模式并合成相应的恢复步骤,从而创建了 80 万条高质量数据。我们在该数据集上微调的两个模型 RoTS-7B 和 RoTS-32B,在 GUI-RobustEval 和传统 GUI 基准测试上均展现出显著提升。值得注意的是,RoTS-32B 在 OSWorld 上取得了最优结果,成功率达到 47.4%,All-Pass@4 得分为 33.8%,这表明改进的长程错误恢复能力有助于提升鲁棒性和整体性能。我们的代码已发布在 https://github.com/AlibabaResearch/RoTS。