NLP领域2018-2025年人类标注报告实践的大规模审计
阅读原文· arxiv.orgNLP论文里的标注环节一直是个黑箱,这篇首次用大规模数据把各家怎么标注、哪些信息缺失扒了个遍,值得每个做数据和评估的人细看。
本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线,其在Annotated-gold数据集(41篇论文,72个标注任务)上与人工裁决的一致性(Krippendorff's alpha)达到0.606。基于此,研究构建了Annotated-llm数据集,涵盖ACL会议论文,从1603篇论文中提取了2667个标注任务。分析发现,论文常报告招募策略、标注者专长等操作细节,但经常遗漏评估标注效度所需的关键信息,如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡,并提出了一个可扩展的框架和最低报告标准。
人类注释是大量自然语言处理(NLP)研究的实证基础,从数据集构建到模型评估皆是如此,但论文往往未能说明是谁进行了注释以及注释过程是如何控制的。我们针对主要NLP会议中的人类注释报告情况,开展了首次大规模、任务层级的审计,探究哪些注释细节被记录、哪些被遗漏,以及报告质量如何随时间、主题、会议和人类判断的预期用途而变化。我们引入了一套统一的注释报告实践分类体系,并基于Annotated-gold——一个由41篇论文和72个注释任务组成、经过人工裁决的金标准数据集——对LLM辅助的提取流水线进行了验证,其中最佳模型与裁决标签之间达到了与人类间一致性相当的水平(Krippendorff alpha值为0.606,人类间一致性为0.585)。利用该流水线,我们构建了Annotated-llm数据集,覆盖2018年至2025年ACL会议论文,从1,603篇论文中提取了2,667个注释任务。我们发现,论文通常报告操作细节,如招募策略、注释者专业背景和注释量,但往往省略评估注释有效性所需的细节,包括培训、语言能力、报酬、社会人口学信息、裁决和一致性数值——尤其在模型评估研究中。我们的结果显示,NLP领域的注释报告质量随时间推移有所改善,但仍不均衡;我们为此建立了一个可扩展的框架,并提出了最低限度的报告建议,以使人类注释更加可靠、可复现和可解释。