OpenWebRL:面向视觉网页智能体的在线多轮强化学习开源框架
阅读原文· arxiv.org做 Web Agent 的同行终于不用再羡慕闭源了。OpenWebRL 用 4B 模型和 2.2K RL 任务就逼近 OpenAI CUA,而且全开源,这路子值得认真读一读。
OpenWebRL是一个用于在真实网站上通过在线多轮强化学习训练视觉网页智能体的开源框架,覆盖了完整的训练流程。基于该框架训练的OpenWebRL-4B模型,在仅使用0.4K条监督初始化轨迹和2.2K个开放式RL训练任务的情况下,在Online-Mind2Web基准上达到67.0%成功率,在DeepShop基准上达到64.0%,超越了同规模或更大规模的先前开源智能体,性能可与OpenAI CUA和Gemini CUA等闭源系统竞争。该工作为构建更强、可复现且高性价比的开源网页智能体提供了实践路径。
构建具备能力的视觉网络智能体需要长程推理、精准定位以及与动态真实网站进行稳健交互。尽管进展迅速,最强的系统在很大程度上仍是专有的,而开放智能体仍然严重依赖于对大量精心策划的网络轨迹进行监督式后训练。这种依赖性造成了严重的可扩展性瓶颈:高质量示范数据的收集成本高昂,而静态数据集对多样化、不断变化的开放网络的覆盖范围有限。尽管在线RL在基于文本的智能体上已展现出潜力,但将其直接用于在实时网站上训练视觉网络智能体的潜力在很大程度上仍未得到充分探索。在本文中,我们介绍了OpenWebRL,这是一个开放框架,用于在真实网站上通过在线多轮RL训练视觉网络智能体。OpenWebRL涵盖了完整的训练流程,包括可扩展的实时浏览器基础设施、监督式初始化、多模态上下文管理、轨迹级成功判断以及高效的多轮策略优化。利用这一框架,我们训练了OpenWebRL-4B,该模型在具有挑战性的实时网络基准测试上建立了新的开源最先进水平。仅使用0.4K初始化轨迹和2.2K开放式RL训练任务,OpenWebRL-4B在Online-Mind2Web上达到了67.0%的成功率,在DeepShop上达到了64.0%,超越了以往类似或更大规模的开放智能体,并与包括OpenAI CUA和Gemini CUA在内的专有系统保持竞争力。除了强劲的基准性能之外,我们系统地研究了使在线RL对视觉网络智能体有效的关键设计选择,并分析了RL如何改进智能体推理。总体而言,我们的工作为构建更强大、可复现且成本效益更高的开放网络智能体提供了一条实用路径。我们将发布训练数据、模型和代码,以支持未来的研究。