26000名学生研究显示AI隐藏学习成本需两年才显现
阅读原文· the-decoder.comAI助学短期提分但会偷走真正的学习,这2.6万人的研究用两年数据揭穿了安逸的幻觉,是每位家长和开发者都该看的预警。
一项追踪26000名7-12年级中学生30个月的面板数据研究发现:使用AI后作业分数提升18%,完成时间从64分钟降至45分钟,但闭卷考试分数下降20%,升学考试成绩下降18%至24%,且完全影响约两年才显现。81%长期用户作业完成时间低于50分钟(外包迹象)。社会学科下降27%,STEM下降22%,英语下降17%,语文下降9%。每周使用AI一小时损失约5%,五小时损失30%。早期损失从约25%降至16%但未消失。
一项涵盖26,000名学生的研究表明,AI的隐性学习成本需要整整两年才会显现。
使用AI的学生完成作业更快,成绩也更好。但在考试中,他们的分数下降了最多24%,而在入学考试中学习差距的全面影响直到大约两年后才显现。
一项来自中国中部的新研究记录了使用AI的中学生出现的学习损失。研究人员分析了一个拥有超过100万居民的县中超过26,000名7至12年级学生30个月的面板数据。数据涵盖月考、作业成绩与完成时间,以及高中和大学的重要入学考试。
在研究期间,自我报告的AI使用率从接近零上升到约80%,其中一次大幅增长与2024年9月DeepSeek V2.5和2025年1月DeepSeek R1的发布相吻合。最受欢迎的工具是豆包、DeepSeek、ChatGLM、文心一言和通义千问。

该研究利用了学生自行发现AI的时间点不同这一事实。作者采用了双重差分设计,这是一种衡量处理组在干预前后结果变化,并减去未处理对照组同期变化的方法。
在此,他们追踪每个学生开始使用AI前后成绩的变化,然后将这一趋势与尚未使用AI的学生进行对比。首次使用的时间点来自自我报告数据,而因果推断假设在没有AI的情况下两组学生的发展轨迹相似。
作业成绩提升,考试成绩下降
首次使用AI六个月后,作业成绩上升了18%,而每项作业的平均完成时间从64分钟降至45分钟。与此同时,月考闭卷成绩下降了20%。
对高风险入学考试的影响同样巨大,但显现得更为缓慢。常规考试成绩在半年内出现下滑,但入学考试的全部影响大约需要两年才能显现,降幅在18%至24%之间。因此,研究人员指出,短期研究无法捕捉到学习过程中长期付出的代价。

五分之四的长期使用者表现出“外包”迹象
在使用AI超过五个月后,约81%的学生在50分钟内完成作业,甚至比最快的非使用者还要快。他们的作业成绩很高,但考试却表现糟糕。作者写道,完成时间短、作业成绩高、考试分数低这三者的组合表明,这些学生将作业外包给了AI。

另一方面,在作业上花费时间与不使用AI的同学相近的AI使用者,在考试中表现同样出色,同时作业成绩也更好。这一群体没有表现出基于先前成绩的积极选择迹象,意味着他们并非一开始就是更好的学生,而AI本身也并非天然有害。它主要在取代独立思考时造成损害。
社会科学受到的冲击最大
政治、地理等社会科学科目的平均成绩下降了27%,STEM科目下降了22%,英语下降了17%,语文下降了9%。这一点之所以重要,是因为以往大多数实验都聚焦于数学、编程和外语。

不同学生群体受到的影响也差异显著。低年级的初中生比高年级学生损失更大(分别为 24% 和 17%),男生受到的影响比女生更严重(分别为 21.6% 和 18.4%),研究认为这主要归因于男生更频繁地使用 AI。
成绩最好的学生受影响最大,排名前三分之一的学生效果下降达 24%,而排名后三分之一的学生下降幅度为 16%。剂量反应模式同样显现:每周使用 AI 不超过一小时的学生约损失 5%,而使用五小时或以上的学生则损失 30%。
为何几乎无人反对
预估的学习损失从 2023 年初的约 25% 下降至 2025 年 6 月的 16%。这一下降趋势在固定的早期采用者群体中也有所体现,表明学生和教师在一定程度上已经适应,但损失并未完全消失。
该研究解释了外界反应平淡的原因。教师通常只关注学生某一科目的成绩,而单科 20% 的分数下降本身并不罕见。直到 2025 年 6 月,对全县平均水平的累积影响才达到约负 10%,因为很少有学生长期、持续地使用 AI 以让损害累积起来。学生自己也常常无法将这些点联系起来,误将独立学习所需的心智努力视为自己学得不好的表现。
作为应对措施,研究建议向学生提供关于依赖 AI 长期代价的可信信息,加大现场考试的权重,并追踪作业完成时间而非作业成绩。AI 削弱了作业作为学习信号的参考价值,在那些作业成绩高于平均水平的 AI 使用者中,更高的作业分数实际上预示着更差的考试成绩。
Anthropic 研究员 Andrej Karpathy 曾主张,学校应停止对 AI 生成的作业进行围堵,而应将大部分评分转向课堂测试。他的推理与该研究的发现一致。当学生知道自己将在没有 AI 辅助的情况下接受考试时,他们才会有动力真正学习知识。
这一趋势与其他场景下的最新发现相吻合。Anthropic 最近的一项研究显示,在 AI 辅助下学习新编程技能的参与者,在后续知识测试中的得分比对照组低 17%,而且并未节省任何实际时间。结果取决于人们使用工具的方式。那些直接复制 AI 答案的人表现更差,而利用 AI 来更好理解任务的人则没有出现同样的下降。
瑞士商学院的一项研究发现,AI 使用与批判性思维之间存在负相关。另一项由多所英美大学研究人员开展的研究表明,那些主要把 AI 当作答案机器的人,认知能力下降得最快。
加州大学伯克利分校一项分析了超过 50 万个成绩的研究也显示,自 ChatGPT 推出以来,在写作和编程密集型课程中,获得最高等级 A 的比例上升了 13 个百分点。同样,这一效果集中体现在无人监督的作业上,而监考考试则没有出现类似的提升。