VibeSearchBench:面向真实世界中长期主动搜索的评测基准
阅读原文· arxiv.org所有前沿模型在长程主动搜索上都翻车了,最高F1才30,说明现在AI离真正理解你的模糊需求还有距离,做搜索的同学该重新想想架构了。
基于LLM的智能体在现有搜索基准上表现优异,但真实用户体验不佳,这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估,无法反映用户与智能体通过多轮对话协同澄清模糊意图的真实搜索行为。为此,研究提出了“VibeSearch”范式并发布了VibeSearchBench,该基准包含200个手工策划的双语任务,覆盖20个领域,分为专业与日常生活两个子集。评估通过用户模拟器和图匹配框架进行。对七个前沿模型的测试显示,所有模型在VibeSearch任务上表现均不充分(最佳F1分数为30.30),凸显了在长期上下文推理、主动意图激发等方面取得根本进展的必要性。
基于大语言模型的AI智能体在搜索基准测试中表现良好,但真实用户始终觉得结果不尽如人意,这揭示了持续存在的评估-体验差距。我们将这一差距归因于现有基准测试过度依赖过于明确的查询、单轮交互和固定模式的评估,而这些都无法反映真实的搜索行为——在真实搜索中,用户与AI智能体通过多轮对话协作,逐步明确模糊的意图。我们将这一范式称为 VibeSearch,并推出了 VibeSearchBench 基准测试,包含 200 个手工整理的跨 20 个领域的双语(中文和英文)任务,分为 VibeSearch-Pro(专业)和 VibeSearch-Daily(日常生活)两个子集。每个任务将一个用户画像与一个无模式的真实知识图谱配对,并通过渐进式披露的用户模拟器和图匹配评估框架进行评测。我们在 ReAct 框架和 OpenClaw AI 智能体工具套件下对七个前沿模型进行了基准测试。结果显示,所有模型在 VibeSearch 上仍然明显不足(最佳 F1 为 30.30),这凸显了在长上下文推理、主动意图引导和结构化知识构建方面需要取得根本性进展。