AI研究智能体窄化科学探索
阅读原文· arxiv.org这篇论文用3万多个AI生成的想法证明,当前AI研究代理更像是在现有研究上修修补补,而不是开拓新方向。所有想靠AI加速科研的团队都该看一下,别高估了AI的「创造力」。
本研究将AI研究智能体视为科学搜索系统进行评估。通过四个框架和六个大语言模型,从共享种子文献中生成了37,802个科学想法,并与人类论文、后续研究及种子文献进行对比。实验揭示了四个一致的模式:AI生成的想法比同领域人类论文更为集中;更贴近其起始文献,而非后续人类研究;与AI想法最相似的论文后续引用量往往较低;当AI想法与已有工作不同时,差异主要源于对现有技术方法的重组,而非引入全新的研究问题。总体而言,当前的AI研究智能体更擅长局部细化,而非拓展科学探索的广度。
AI 研究智能体现在能够生成研究思路、设计实验、运行代码并撰写论文,这引发了大规模 AI 辅助科学发现的可能性。许多当前的智能体框架明确鼓励生成新颖且高影响力的思路。然而,AI 辅助的构思究竟能拓宽科学探索的范围,还是主要围绕现有工作集中展开,目前仍不清楚。我们将 AI 研究智能体视为科学搜索系统进行研究。利用四种 AI 研究智能体框架和六个大语言模型,我们从人工智能和机器学习领域内由引用定义的研究领域中,基于共享的种子文献生成了 37,802 个科学思路。然后,我们将生成的 AI 思路与同一研究领域由人类撰写的论文、源于同一种子文献的后续人类研究成果以及种子文献本身进行了比较。在多项实验中,出现了四个一致的规律。第一,AI 生成的思路比同一研究领域由人类撰写的论文集中得多。第二,AI 生成的思路比人类后续的研究工作更接近其起始文献。第三,与 AI 生成思路最为相似的论文,其后续引用量往往较低。第四,当 AI 生成的思路与先前工作不同时,其差异主要来源于对现有技术方法的重新组合,而非引入全新的研究问题。总体而言,当前的 AI 研究智能体似乎更擅长局部性的精炼,而非拓宽科学探索的广度。