NLP领域2018-2025年人类标注报告实践的大规模审计

2026-06-01 08:00·32天前

精选理由

NLP论文里的标注环节一直是个黑箱，这篇首次用大规模数据把各家怎么标注、哪些信息缺失扒了个遍，值得每个做数据和评估的人细看。

AI 摘要

本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线，其在Annotated-gold数据集（41篇论文，72个标注任务）上与人工裁决的一致性（Krippendorff's alpha）达到0.606。基于此，研究构建了Annotated-llm数据集，涵盖ACL会议论文，从1603篇论文中提取了2667个标注任务。分析发现，论文常报告招募策略、标注者专长等操作细节，但经常遗漏评估标注效度所需的关键信息，如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡，并提出了一个可扩展的框架和最低报告标准。

AI 翻译 · 中文

人类注释是大量自然语言处理（NLP）研究的实证基础，从数据集构建到模型评估皆是如此，但论文往往未能说明是谁进行了注释以及注释过程是如何控制的。我们针对主要NLP会议中的人类注释报告情况，开展了首次大规模、任务层级的审计，探究哪些注释细节被记录、哪些被遗漏，以及报告质量如何随时间、主题、会议和人类判断的预期用途而变化。我们引入了一套统一的注释报告实践分类体系，并基于Annotated-gold——一个由41篇论文和72个注释任务组成、经过人工裁决的金标准数据集——对LLM辅助的提取流水线进行了验证，其中最佳模型与裁决标签之间达到了与人类间一致性相当的水平（Krippendorff alpha值为0.606，人类间一致性为0.585）。利用该流水线，我们构建了Annotated-llm数据集，覆盖2018年至2025年ACL会议论文，从1,603篇论文中提取了2,667个注释任务。我们发现，论文通常报告操作细节，如招募策略、注释者专业背景和注释量，但往往省略评估注释有效性所需的细节，包括培训、语言能力、报酬、社会人口学信息、裁决和一致性数值——尤其在模型评估研究中。我们的结果显示，NLP领域的注释报告质量随时间推移有所改善，但仍不均衡；我们为此建立了一个可扩展的框架，并提出了最低限度的报告建议，以使人类注释更加可靠、可复现和可解释。

HuggingFace Daily Papers（社区热门论文）

精选71导出 Markdown