九位评委，两个有效投票：相关错误削弱LLM评审面板

2026-06-23 08:00·1天前

精选理由

这篇Apple论文揭示了一个反直觉的事实：在LLM评估面板中，9个法官实际上只提供约2个独立票的信息，因为模型会犯相似错误。这解释了为何简单聚合面板往往不如最佳单模型，做评估的团队必须重视法官相关性。

AI 摘要

苹果机器学习研究团队发现，LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明，9位评委实际仅提供约2个独立投票的信息量，面板准确率比独立投票理想值低8–22个百分点，最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微，即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证，瓶颈在于评委间的相关性而非聚合算法。

AI 翻译 · 中文

研究领域：数据科学与标注，研究领域：语音与自然语言处理

内容类型：论文，发表于 2026 年 6 月

九位评委，两张有效票：相关误差削弱大语言模型评估专家组

作者：Guneet Kohli

查看论文

大语言模型作为评委的专家组汇总多个模型的投票，期望通过多样化的模型获得更可靠的评估结果。我们建立了一个框架来衡量此类专家组的真实信息价值，并量化其可靠性距离独立投票理想值有多远。我们在三个自然语言推理数据集（每个数据项有 100 个人工标注）上测试了一个由来自 7 个模型家族的 9 个前沿大语言模型组成的专家组，发现这 9 位评委实际上只提供了大约 2 票独立投票的信息量。专家组标称独立性的约四分之三因模型在同一数据项上犯相同错误而丧失。后果十分显著：专家组的实际准确率比独立投票所能达到的准确率低 8 到 22 个百分点，而最好的单一评委在所有条件下都匹配或超越了整个专家组的表现。增加更多评委或使用更聪明的聚合算法均无济于事——即使能拿到正确答案，现有方法最多也只能弥补这一差距的 11%。我们使用 Kish 有效样本量（n_eff）和孔多塞零模型量化了这些发现，并证明该缺陷在提示词变体、温度参数、链式推理以及一项成对偏好任务（RewardBench）中均稳健存在。瓶颈在于评委之间的相关性，而非聚合算法本身，这意味着扩大专家组规模无法替代真正独立的评估。

相关阅读和更新。

识别物品到物品推荐中的争议对

2023 年 11 月 3 日，研究领域：方法与算法，会议：RecSys

*同等贡献者

大型在线市场中的推荐系统对帮助用户发现新内容至关重要。然而，用于物品到物品推荐任务的最先进系统往往基于浅层的上下文相关性，这可能使得系统在处理物品关系更为微妙的场景时力不从心。上下文相关的物品对有时可能存在有问题的关系，这些关系会……

基于张量分解的协同过滤一致性方法

2023年8月16日，研究领域：知识库与搜索，研究领域：方法与算法

协同过滤是分析用户活动和构建物品推荐系统的事实标准。在这项工作中，我们开发了切片反对称分解（SAD），一种基于隐式反馈的新型协同过滤模型。与估算用户潜在表示（用户向量）和物品潜在表示（物品向量）的传统方法不同，SAD 为每个用户和物品引入了一个额外的潜在向量……

在机器学习领域发现机遇。

我们的机器学习研究每天都在突破新领域。

加入我们。

论文/研究评测/基准

Apple Machine Learning Research（RSS）

精选68