QUACK:多模态社交推理智能体通信知识的质询、理解与审计
阅读原文· arxiv.org多模态社交 agent 的幻觉问题被严重低估了,QUACK 这套审计框架直接把 20% 的空间谎言和过半的无据指控摊在桌面上,做 agent 安全的必须跟进。
QUACK 是一个开源评估框架,用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述,自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型,结果显示即使最强的智能体,其15.1%的可验证空间主张也存在幻觉,且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。
社交推理游戏已成为测试大语言模型(LLM)智能体在推理、欺骗、协作和信念建模方面能力的流行试验平台。然而,大多数环境仅通过胜率等游戏结果进行评分,且主要局限于纯文本交互,这使得难以判断智能体的语言是否真正基于其感知和行动,也难以识别其行为背后的失败模式。为弥补这一空白,我们推出了QUACK——一个用于审计多模态社交推理中智能体语言接地性的开源环境和评估框架。QUACK在三个层面评估智能体:游戏结果、行为轨迹以及话语层面的一致性。其核心的陈述验证管线(Statement Verification Pipeline)从引擎日志中重构每个智能体的真实轨迹,并对照该轨迹检查每一句讨论主张,自动标记空间模型幻觉、无依据指控、欺骗崩溃以及语言-行动不一致。我们在同构和跨模型对抗设置下评估了三款前沿视觉语言模型(VLM),发现即使是最强的智能体,其可验证空间主张中也有15.1%出现模型幻觉,并且超过一半的指控缺乏经得起验证的证据。我们在 https://github.com/AAAAA-Academia-Attractions/QUACK 上发布了完整的引擎、评估框架、工具包和日志。