WorldMemArena:通过行动-世界交互循环评估多模态智能体记忆
阅读原文· arxiv.org首个能定位多模态 Agent 记忆“写、维、取、用”哪一步出问题的基准,头对头比较长上下文、RAG 和自管理记忆,结论是写得好未必用得上,做 Agent 的值得认真看。
针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段,研究提出了“行动-世界交互循环”记忆模型,并构建了WorldMemArena基准。该基准包含400个多会话多模态任务,涵盖“终身进化”和“智能体执行”两类场景,支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较,发现记忆写入与存储质量的提升不直接带来性能改善,且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。
多模态大语言模型越来越多地被部署为长期智能体,在这种情况下,记忆必须做的不仅仅是回忆:它必须追踪一个不断变化的世界,修正已经过时的信息,并在决策时呈现正确的证据。现有基准测试衡量的是静态对话上的回忆,将记忆简化为单一的任务结束准确率,并将视觉观察简化为文字描述,使我们无法将失败定位到写入、维护、检索或使用环节。能够自主编写记忆的智能体框架的兴起加剧了这一差距,因为我们没有原则性的方法来比较手动设计的流水线与自我管理的替代方案。为了弥合这些差距,我们将多模态智能体记忆形式化为一个可观察的四阶段生命周期的动作-世界交互循环,并在WorldMemArena中实例化:包含400个多会话多模态任务,涵盖终身演化(持续演变的个人和任务状态)和智能体执行(来自真实观察、动作和反馈的记忆),并标注了黄金记忆点、更新、干扰项和证据链,用于阶段级诊断。这使得首次能够对长上下文、手动设计(RAG和外部记忆系统)以及基于框架的记忆智能体进行面对面比较。结果表明:(1) 更好的记忆写入和存储并不能保证更好的性能;(2) 多模态记忆仍然难以充分利用视觉证据;(3) 系统在不同领域间不稳定,并且在真实的智能体轨迹上性能下降;(4) 框架记忆虽然更灵活,但成本高且可靠性较低。