超越最终答案:审计多智能体工业工作流中的轨迹级模型幻觉
阅读原文· arxiv.org现有的幻觉测试只看最终答案,但真正危险的错误往往埋在中间步骤。Trajel把多智能体工业流程的每一步都审计了,发现近一半故障同时包含多种幻觉类型,做智能体安全的人该换评估方式了。
提出了Trajel,一个用于审计多智能体工业工作流中轨迹级模型幻觉的数据集和评估框架。它基于专家标注的智能体轨迹,引入了五种幻觉分类:事实性、引用性、逻辑性、程序性和范围性。基准测试表明,现有基准遗漏了最常见故障模式,近半数幻觉轨迹涉及多种类型。自动化检测器尽管二分类准确度高,但仍会误判最微妙的类型。轨迹感知的检测显著优于标准的事后验证,表明基于分类法的评估对于更安全的智能体部署是必要的。
大语言模型(LLMs)正越来越多地被部署为自主智能体,它们能够推理、使用工具并执行多步骤操作。然而,大多数幻觉评测基准仍只评估最终输出,忽略了源于中间思考-行动-观察步骤的失败。我们提出了Trajel,一个用于审计多智能体工业工作流中轨迹级幻觉的数据集和评估框架。Trajel引入了基于AssetOpsBench专家标注的智能体轨迹的五类幻觉分类法(事实型、指代型、逻辑型、流程型和范围型)。我们在子任务、轨迹和长上下文层面评测了监督检测模型。我们的结果表明,最常见的失败模式被现有基准所忽略,近一半的幻觉轨迹同时涉及多种类型,并且具有高二分类准确率的自动检测器仍会错误分类最微妙的类型。轨迹感知检测显著优于标准的事后验证,这使得基于分类法的评估对于更安全的智能体部署成为必要。