OmniGameArena:面向VLM游戏智能体的统一UE5基准与改善动态
阅读原文· arxiv.org在 UE5 里直接测 agent 的自我改进,这个思路让游戏 benchmark 从一次性的刷榜变成动态成长观测,对做多模态 agent 的团队是个新标尺。
OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准,涵盖单人(7个)、PvP(3个)和合作(2个)模式,提供统一动作接口。除冷启动排行榜分数外,还引入Improvement Dynamics Curve (IDC),一种智能体反射评估机制:通过工具调用反射大语言模型自动优化技能提示词,追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现,以及4个顶级智能体在IDC下的指标。
视觉语言模型(VLM)智能体越来越多地被部署在交互式游戏环境中。然而,针对VLM智能体的游戏基准测试通常只为每个(智能体,游戏)对报告单一的首轮得分,侧重于单智能体的Solo模式,并且缺乏统一协议来在同一标准下评估异构的智能体类别(商业VLM、开放权重VLM和专用游戏策略)。我们通过OmniGameArena(一个包含十二个新构建的Unreal Engine 5游戏的实时基准测试,涵盖Solo(7个)、PvP(3个)和Coop(2个),并具有统一的动作接口)以及改进动力学曲线(IDC,一种智能体反思框架,其中使用工具的反思型大语言模型自主地在多轮中优化一个有边界的技能提示词)来填补这些空白。除了冷启动排行榜得分之外,IDC还为每个(智能体,游戏)对揭示了两个额外的可观测指标:得分如何在反思轮次中演变,以及习得的技能如何在留出任务变体上表现。我们报告了冷启动排行榜上十二个VLM智能体的这些可观测指标,以及IDC下的四个顶级智能体的结果。