The Decoder：AI News（RSS）

精选73

26000名学生研究显示AI隐藏学习成本需两年才显现

2026-07-04 17:08·14小时前·Jonathan Kemper

精选理由

AI助学短期提分但会偷走真正的学习，这2.6万人的研究用两年数据揭穿了安逸的幻觉，是每位家长和开发者都该看的预警。

AI 摘要

一项追踪26000名7-12年级中学生30个月的面板数据研究发现：使用AI后作业分数提升18%，完成时间从64分钟降至45分钟，但闭卷考试分数下降20%，升学考试成绩下降18%至24%，且完全影响约两年才显现。81%长期用户作业完成时间低于50分钟（外包迹象）。社会学科下降27%，STEM下降22%，英语下降17%，语文下降9%。每周使用AI一小时损失约5%，五小时损失30%。早期损失从约25%降至16%但未消失。

AI 翻译 · 中文

一项涵盖26,000名学生的研究表明，AI的隐性学习成本需要整整两年才会显现。

乔纳森·肯珀查看乔纳森·肯珀的领英资料

Jul 4, 2026

由 THE DECODER 生成的 Nano Banana Pro

使用AI的学生完成作业更快，成绩也更好。但在考试中，他们的分数下降了最多24%，而在入学考试中学习差距的全面影响直到大约两年后才显现。

一项来自中国中部的新研究记录了使用AI的中学生出现的学习损失。研究人员分析了一个拥有超过100万居民的县中超过26,000名7至12年级学生30个月的面板数据。数据涵盖月考、作业成绩与完成时间，以及高中和大学的重要入学考试。

在研究期间，自我报告的AI使用率从接近零上升到约80%，其中一次大幅增长与2024年9月DeepSeek V2.5和2025年1月DeepSeek R1的发布相吻合。最受欢迎的工具是豆包、DeepSeek、ChatGLM、文心一言和通义千问。

作业成绩上升18%，完成时间从64分钟降至45分钟，而闭卷考试成绩则下降20%。 | 图片：Strömberg 等人

该研究利用了学生自行发现AI的时间点不同这一事实。作者采用了双重差分设计，这是一种衡量处理组在干预前后结果变化，并减去未处理对照组同期变化的方法。

在此，他们追踪每个学生开始使用AI前后成绩的变化，然后将这一趋势与尚未使用AI的学生进行对比。首次使用的时间点来自自我报告数据，而因果推断假设在没有AI的情况下两组学生的发展轨迹相似。

作业成绩提升，考试成绩下降

首次使用AI六个月后，作业成绩上升了18%，而每项作业的平均完成时间从64分钟降至45分钟。与此同时，月考闭卷成绩下降了20%。

对高风险入学考试的影响同样巨大，但显现得更为缓慢。常规考试成绩在半年内出现下滑，但入学考试的全部影响大约需要两年才能显现，降幅在18%至24%之间。因此，研究人员指出，短期研究无法捕捉到学习过程中长期付出的代价。

对常规考试的负面影响在六个月内达到顶峰，而对中考和高考入学考试的下滑则大约需要两年才能完全显现。| 图片来源：Strömberg 等

五分之四的长期使用者表现出“外包”迹象

在使用AI超过五个月后，约81%的学生在50分钟内完成作业，甚至比最快的非使用者还要快。他们的作业成绩很高，但考试却表现糟糕。作者写道，完成时间短、作业成绩高、考试分数低这三者的组合表明，这些学生将作业外包给了AI。

Zwei Kurven nach Bearbeitungszeit: KI-Nutzer mit unter 50 Minuten erzielen hohe Hausaufgaben-, aber sehr niedrige Klausur-Scores; wer so lange arbeitet wie Nicht-Nutzer, erreicht vergleichbare Klausurergebnisse. — 学习损失主要集中在完成作业异常快的学生身上，这种模式指向将任务外包给AI而非真正学习。| 图片来源：Strömberg 等

另一方面，在作业上花费时间与不使用AI的同学相近的AI使用者，在考试中表现同样出色，同时作业成绩也更好。这一群体没有表现出基于先前成绩的积极选择迹象，意味着他们并非一开始就是更好的学生，而AI本身也并非天然有害。它主要在取代独立思考时造成损害。

社会科学受到的冲击最大

政治、地理等社会科学科目的平均成绩下降了27%，STEM科目下降了22%，英语下降了17%，语文下降了9%。这一点之所以重要，是因为以往大多数实验都聚焦于数学、编程和外语。

尽管过去的实验重点集中在数学和语言上，但学习损失对社会科学的冲击最为严重。| 图片来源：Strömberg 等

不同学生群体受到的影响也差异显著。低年级的初中生比高年级学生损失更大（分别为 24% 和 17%），男生受到的影响比女生更严重（分别为 21.6% 和 18.4%），研究认为这主要归因于男生更频繁地使用 AI。

成绩最好的学生受影响最大，排名前三分之一的学生效果下降达 24%，而排名后三分之一的学生下降幅度为 16%。剂量反应模式同样显现：每周使用 AI 不超过一小时的学生约损失 5%，而使用五小时或以上的学生则损失 30%。

为何几乎无人反对

预估的学习损失从 2023 年初的约 25% 下降至 2025 年 6 月的 16%。这一下降趋势在固定的早期采用者群体中也有所体现，表明学生和教师在一定程度上已经适应，但损失并未完全消失。

该研究解释了外界反应平淡的原因。教师通常只关注学生某一科目的成绩，而单科 20% 的分数下降本身并不罕见。直到 2025 年 6 月，对全县平均水平的累积影响才达到约负 10%，因为很少有学生长期、持续地使用 AI 以让损害累积起来。学生自己也常常无法将这些点联系起来，误将独立学习所需的心智努力视为自己学得不好的表现。

作为应对措施，研究建议向学生提供关于依赖 AI 长期代价的可信信息，加大现场考试的权重，并追踪作业完成时间而非作业成绩。AI 削弱了作业作为学习信号的参考价值，在那些作业成绩高于平均水平的 AI 使用者中，更高的作业分数实际上预示着更差的考试成绩。

Anthropic 研究员 Andrej Karpathy 曾主张，学校应停止对 AI 生成的作业进行围堵，而应将大部分评分转向课堂测试。他的推理与该研究的发现一致。当学生知道自己将在没有 AI 辅助的情况下接受考试时，他们才会有动力真正学习知识。

这一趋势与其他场景下的最新发现相吻合。Anthropic 最近的一项研究显示，在 AI 辅助下学习新编程技能的参与者，在后续知识测试中的得分比对照组低 17%，而且并未节省任何实际时间。结果取决于人们使用工具的方式。那些直接复制 AI 答案的人表现更差，而利用 AI 来更好理解任务的人则没有出现同样的下降。

瑞士商学院的一项研究发现，AI 使用与批判性思维之间存在负相关。另一项由多所英美大学研究人员开展的研究表明，那些主要把 AI 当作答案机器的人，认知能力下降得最快。

加州大学伯克利分校一项分析了超过 50 万个成绩的研究也显示，自 ChatGPT 推出以来，在写作和编程密集型课程中，获得最高等级 A 的比例上升了 13 个百分点。同样，这一效果集中体现在无人监督的作业上，而监考考试则没有出现类似的提升。