# 研究显示医学论文中的虚假参考文献数量激增，AI 难辞其咎

- 来源：IT之家（RSS）
- 发布时间：2026-05-26 21:07
- AIHOT 分数：50
- AIHOT 链接：https://aihot.virxact.com/items/cmpmnp9ft0q9qsl01k46a49es
- 原文链接：https://www.ithome.com/0/955/597.htm

## 正文

IT之家 5 月 26 日消息，一项针对 250 万篇生物医学论文的核查显示，同行评审研究中的虚假参考文献已演变为系统性问题。2023 年至今，虚假参考文献的出现率飙升至原先的十二倍以上。

哥伦比亚大学及多家机构的研究团队在《柳叶刀》期刊上发布了迄今为止规模最大的生物医学论文引文分析报告。该研究由马克西姆・托帕兹牵头，检索了公共文献库 PubMed Central 中，2023 年 1 月至 2026 年 2 月期间发表的 247 万篇论文。

据IT之家了解，研究人员共核查 9710 万条参考文献，其中 4046 条被判定为伪造，分布在 2810 篇论文中。判定标准为：若参考文献标注的标题，无法在 PubMed、Crossref、OpenAlex、谷歌学术这四大主流数据库中检索到，即认定为伪造文献。

数据变化趋势十分明显。2023 年全年，虚假参考文献的比例基本稳定，每万篇论文中约出现 4 条伪造文献。2024 年年中起，该数值快速攀升：2025 年底升至每万篇 51.3 条，2026 年前七周进一步达到每万篇 56.9 条，相较 2023 年基准值增长超十二倍。

研究团队认为，这一现象与 2022 年末开始普及的 ChatGPT 等大语言模型存在明显关联。由于论文从投稿到发表通常需要 100 至 200 天，人工智能生成内容直到 2024 年年中才开始在 PubMed Central 中大量出现。不过研究人员并未排除其他诱因，包括代写论文产业泛滥、文献索引规则变动等。

这类虚假参考文献隐蔽性极强：内容贴合论文主题、格式规范、署名真实研究者，发表年份也看似合理。在一篇泌尿外科学论文里，抽检的 30 条参考文献中有 18 条为伪造，且全部精准对应细分的外科研究方向。

研究还发现了代写团伙批量操作的痕迹：同一外科期刊的 11 篇论文中出现两名相同作者，涉及 CRISPR 诊断、肠道微生物组等领域，累计存在 15 条虚假参考文献。

本次核查发现，98.4% 问题论文的出版商尚未作出任何处理。综述类论文受影响最为严重，其参考文献伪造率比其他类型论文高出 57%。研究人员表示，这一情况令人担忧，综述文章往往是临床诊疗指南的制定依据。一旦指南引用了含虚假参考文献的论文，诊疗决策背后的整套证据链都会受到破坏。

目前科研界虽已开始应对，但举措参差不齐。预印本平台 arXiv 加大了对稿件中大语言模型生成不实内容（包括虚构文献）的惩处力度，违规作者将被禁发一年。而针对 2025 年神经信息处理系统大会（NeurIPS）录用论文的分析显示，即便是顶尖人工智能学术会议，也难以有效甄别伪造引文。

开源自动引文核查系统 CiteAudit 是目前可行的应对手段之一，但相关测试也暴露出，商用大语言模型很难识别自身生成的虚假参考文献问题。

研究团队提出四项改进建议：同行评审前开展自动化参考文献核验、在论文数据库中增设科研诚信元数据、对已发表论文开展回溯筛查，以及在科研诚信数据库中单独设立“虚假参考文献”分类。本次研究过程中，研究人员也使用了 Claude 模型进行代码编写与语法校对。