精确性不等于忠实度:完整Oracle下的覆盖感知接地生成评估
阅读原文· arxiv.org这个研究戳破了自动评估里 Faithfulness 的泡沫,指标只看模型「说对多少」不看「说全没有」,沉默的模型反而拿高分,以后评测不能只看精确度了,做评估的得补上覆盖度这一环。
无参考忠实度度量仅衡量精确率(陈述是否被支持),鼓励模型少说甚至不说以获得高分。本研究利用F1遥测(确定性完整ground truth)和NOAA天气预报两个完整Oracle领域,证明此盲点:在多语言(EN/ES/PT)共7253个决策实例(覆盖150场比赛)的基准上,最精确的前沿模型仅覆盖不到一半相关事实,按F1排名垫底。引入覆盖度(召回率)后系统排序改变;显式要求详尽也无法弥补差距。作者提出将忠实度与覆盖度合并为单一分数,并给出无参考验证器引导生成方法,同时提升精确率和召回率。相关基准、标注、度量、基线及交互演示已开源。
无参考忠实度指标会验证模型做出的每个原子性主张是否与真实情况相符,并越来越多地被用于评估有根据的生成。我们表明它们存在一个共同盲点:它们只衡量精确度——即所陈述的主张是否被支持?——因而会奖励回避行为,因为模型几乎什么也不说就能获得接近完美的忠实度分数。我们利用一级方程式赛车遥测数据使这一盲点变得可量化——在该领域,策略性真实情况是确定性地推导出来的,而且关键的是,它是完整的:对于每个决策,我们都能知道所有相关的事实集。这种完整性——在开放域忠实度评测基准中是不存在的——使我们能够精确地衡量召回率(相关事实的覆盖率),同时也能衡量精确度。在一个涵盖150场比赛、包含7,253个决策实例的多语言(英语/西班牙语/葡萄牙语)评测基准上,精确度最高的前沿模型覆盖了不到一半的相关事实,并按F1分数排名垫底,因此要求覆盖率会重新排序系统;同样的效应在第二个具有完整真实信息的领域(NOAA天气预报)中再次出现。一项提示词消融实验表明,低覆盖率并非提示词不足的人为产物:明确要求模型做到详尽并未能缩小这一差距。我们将忠实度与覆盖率合并为一个统一分数,验证了该指标(通过受控扰动;无模型正则表达式提取器与跨系列大语言模型提取器之间的一致性,系统级斯皮尔曼相关系数为1.0),并给出了一种验证器引导的生成方法,可在无参考情况下提高精确度和召回率。我们发布了该评测基准、结构化标注、指标、基线方案以及一个交互式演示。