关键发现
- 在先前研究基础上,我们提出了一个研究交互式智能体编程的框架,基于对约40万次 Claude Code 会话(时间跨度从2025年10月至2026年4月)的隐私保护分析。我们评估了任务构成、人机协作以及成功率。
- 在典型会话中,人类做出大部分规划决策(做什么),而 Claude 做出大部分执行决策(如何做)。一个人带入会话的领域专业知识越多,Claude 每条指令完成的工作量就越大。在编程任务上,每个主要职业的成功率——即完成用户设定的目标,并有可验证的证据(如通过测试或提交的代码)——平均而言与软件工程师几乎持平。
- 一个人拥有的领域专业知识越多,会话以成功结束的频率就越高——尽管中级用户与专家用户之间的差距并不大。在我们观察的七个月中,用于调试的会话占比下降了近一半,使用模式转向更多的端到端智能体用途:部署和运行代码、分析数据以及编写非代码文档。
- 在这七个月中,典型任务的价值(我们通过与自由职业招聘信息对比来估算)在几乎所有类型的工作中都有所上升——平均增长约25%。
引言
智能体编程已迅速兴起。自2025年底以来,涉及编程智能体活动的 GitHub 项目占比翻了一倍多¹,Claude Code 用户现在平均每周使用该工具20小时²。没有正式编程经验的人能否成功引导智能体完成复杂的技术工作?这些工具的快速普及和改进对广泛的知识工作意味着什么?虽然我们尚未完全回答这些问题,但我们通过 Claude Code 的使用数据来寻找早期信号。
这份报告基于一项隐私保护分析,涵盖了2025年10月至2026年4月期间约23.5万人的约40万个交互会话,提供了Claude Code在实际使用中的证据。它建立在先前工作的基础之上,那些工作聚焦于Claude Code会话中的自主性度量,以及Claude Code如何改变Anthropic内部的工作方式。在此,我们引入了一个描述交互式AI编程助手使用情况的框架:正在完成哪种类型的工作、谁在完成这些工作,以及这些工作是否成功。我们重点关注通过命令行界面(CLI)、Claude.ai或Claude Code桌面应用程序使用Claude Code的情况。通过追踪随着模型能力增强,智能体编程使用方式如何变化,我们可以更好地理解这些工具对编程专业人员和知识工作者的劳动力市场产生的影响。
当智能体逐渐嵌入非编程类工作时,Claude Code上发生的情况或许预示了知识工作的未来走向。我们发现Claude正在处理更复杂、更有价值的任务。与此同时,智能体编程中依然存在着明确的分工:由人决定构建什么,而由智能体决定如何构建。
我们还看到证据表明,能够放大人对工具有效使用的因素在于领域专业知识,而非编程熟练度。具体而言,领域专家成功的频率更高,并且更容易从错误和误解中恢复过来。然而,专家与中等水平用户之间的差距并不大——这表明,只要精通某个领域,就足以几乎像那些拥有深厚专业知识的人一样有效地使用这一工具。
这些发现让我们得以初步洞察劳动力市场可能出现的转变。在我们的数据中,决定成功与否的关键在于一个人对试图解决的问题的理解程度,而不在于他是否受过编程训练。如果这些模式在整个经济领域成立,那么这意味着:虽然智能体编程工具可能正在承接一部分以实现为重点的工作,但它们同时也在回报那些对自己工作中需要解决的问题有深刻理解的人。编程智能体并不能替代领域专业知识——用户带给智能体的理解越多,智能体就能完成越多的优质工作。
劳动分工
人们用Claude Code做什么
为了了解人们使用 Claude Code 的场景,我们将每个会话划分到九种工作模式之一——即最能描述该会话试图达成目标的单一活动。5 四种模式直接涉及编写或维护代码:构建新功能、修复问题、测试代码,以及编排其他智能体或自动化流程。另一类是操作软件——部署、配置、运行流程、监控系统。还有两类更侧重于确定要做什么:理解现有系统的工作原理,以及在做出变更前进行规划。最后两类执行与代码无关的操作,或者代码仅是最终产品的附带内容:数据分析,以及通过演示文稿和其他基于文本的文档进行沟通。
约 56% 的会话涉及编码(25%)、修复(26%)以及测试和编排代码(5%)。操作软件占 17%,14% 的会话用于规划或探索,13% 用于分析或文案类产出(图 1)。

我们让一个模型读取每个会话的转录文本来进行分类,然后使用我们的隐私保护分析工具,将会话与自动记录的遥测数据(包括代码行数是否增加或删除)进行比对。两类数据高度一致——例如,分类器标记为创建或修改代码的会话中,超过 90% 在遥测数据中显示有代码更改。详见附录。
谁来决策
Claude Code 的自主性有多高?能力评估表明其上限很高且仍在上升:在 METR 的时间跨度评估等基准测试中,前沿模型现已能自主完成需要人类花费数小时的软件任务,并一路独立克服障碍。但实际使用情况如何呢?这里,我们观察真实会话中人类和 Claude 各自在多大程度上进行引导。
我们从两个角度探究这一问题。首先,我们关注人们在多大程度上将决策权交给 Claude;其次,我们考察他们赋予 Claude 的行动数量。为理解一次会话中决策的划分情况,我们基于会话内容构建了一个隐私保护的决策归因分类器。我们让分类器列举出会话中所有有意义的决策。然后将这些决策分为规划(做什么、采取哪种方法、什么算完成)和执行(修改哪些文件、写什么代码、用什么语言写、运行哪些命令)。分类器随后将每个决策归因给 Claude 或用户,为每次会话给出两个数值:用户在规划决策中的占比,以及用户在执行决策中的占比。
平均而言,用户做出约 70% 的规划决策,但仅做出约 20% 的执行决策(图 2)。实际上,在智能体编程中存在明确的分工——用户决定构建什么,而智能体决定如何构建。
为了解一次会话中行动的委托情况,我们查看会话的结构而非内容。Claude Code 会话涉及 Claude 与用户之间的来回交互——用户发送提示词,Claude 执行行动——用户写一个提示词,Claude 去完成一些工作,然后用户再写下一个提示词,如此反复。在典型会话中,大约有 4 轮这样的交互。根据我们从 10 月到 4 月的历史数据,用户发出的每个提示词平均会触发 Claude 执行约 10 个行动——有时甚至超过 100 个。在每一轮交互中,Claude 会读取文件、编辑代码、运行命令,并平均输出 2,400 字的内容。
Claude 在两次检查点之间所做的工作量,很大程度上与谁在做决策相关。当用户掌控执行(即做出超过 80% 的执行决策)时,Claude 每轮采取的行动较少(约 8 个行动)。而当 Claude 掌控规划(即做出超过 80% 的规划决策)时,它采取的行动数量最多(约 16 个)。

专业水平
从每段对话记录中,Claude 会按照从新手到专家五级量表评估用户在此任务上的明显专业水平。专业水平分类器会寻找三个信号:用户提出指令的精确程度、用户要求 Claude 核验什么,以及是用户倾向于纠正 Claude 还是 Claude 倾向于纠正用户。请注意,专业水平衡量的是与职位头衔或通用能力截然不同的内容,而且关键是,它因任务而异。一位高级工程师第一次问 Rust 问题,在 Rust 上就是新手。一位从未用过 Python 的会计师,如果他能精确告诉 Claude 一段 Python 脚本必须强制执行哪些对账规则,并能发现脚本在月末结账时处理不当的边界情况,那么在此任务上他就是专家。
下表展示了我们如何为分类器定义每个专业水平,同时附上一个来自编码智能体会话公开数据集 SWE-chat 的示例请求。被归类为“新手”的对话给出的是通用指令,不含隐含的领域知识。被归类为“专家”的对话则体现了对代码库和技术环境的深入理解。

我们量化了专业水平与 Claude 每次提示词输出和活动之间的关系。在典型的新手会话中,每个提示词会触发约 5 个 Claude 动作和约 600 个单词的输出;而专家会话触发的动作链长度是前者的两倍以上(12 个动作),输出量则是前者的五倍(3200 个单词)(图 3)。新手和专家会话之间的这种差距出现在每种工作类型和每个任务价值区间中。
这些措施补充了我们此前关于 Claude Code 报告中的自主性指标——后者追踪智能体运行时长以及用户自动批准其操作的频率。相比之下,我们的决策归因指标捕捉的是整个会话中谁在做实质性决策,而输出和每次提示词的动作数量则衡量每个人类提示词引发了 Claude 多少自主活动。

谁在使用 Claude Code,以及用于什么目的
用户
为了解从事这项工作的用户身份,我们根据会话记录推断每个用户的职业,将其映射到美国劳工统计局标准职业分类(SOC)中的 23 个主要群组之一。分类器被指示仅依赖以下信号:智能体在会话开始时加载的项目上下文、文件名称和结构、用户引用的任何工件(例如法律文件、临床数据、财务报告、课程等)以及使用的词汇。7 分类器被明确指示不得将编码行为视为编码职业的证据。仅当存在明确信号表明软件或数据工作是用户的职业时,才会将会话归类到编码 SOC 代码(计算机与数学职业)。如果律师编写脚本来自动标记跨合同文件夹中缺失的条款,则该会话被归入法律职业,即使会话的主要工作是软件开发。当没有关于用户职业的信号时,会话被标记为未分类。
我们能够在大约 70% 的会话中推断出用户的职业。在这一群体中,计算机与数学相关职业(涵盖大多数软件相关工作的类别)不出意外地占比最大。其次是商业与金融运营、艺术设计与媒体、管理、生命科学以及物理与社会科学。在我们样本中,增长最快的非软件职业群体是管理、销售和法律相关职业。
工作内容
从 2025 年 10 月到 2026 年 4 月,通过 Claude Code 完成的工作内容构成发生了显著变化。最明显的变化是,用于修复问题代码的会话占比从 33% 下降到了 19%(图 4)。取而代之的是,围绕代码的周边工作占比有所增加。操作软件的会话占比从 14% 增长到了 21%。撰写文档和数据分析的会话占比大约翻了一番,从约 10% 增长到了 20%。
任务本身的价值也在提升。我们通过估算每项工作在自由职业市场上的成本(并对照一个真实的公开招聘数据集进行校准)来近似评估每次会话的经济价值。根据这一衡量标准,从 10 月到 4 月,平均每次会话的预估价值上升了 27%。这一增长在多种工作类型中都有体现。构建、操作和修复类任务的价值均增长了大约三分之一或更多(分别约为 43%、34% 和 32%)。这些价格估算较为粗略,因此我们主要用它们来比较不同任务随时间的变化,而非作为逐字照搬的美元数值。8 关于任务估算器的构建细节,请参见附录。

成功与否取决于用户自身带来的能力。
任务估算价值只是了解 Claude Code 如何帮助人们完成工作的一个角度。另一个角度是观察有多少会话是成功的,以及成功会话具备哪些特征。在我们所有的成功衡量指标中,都能看到一个清晰的模式:一个人在会话中展现的专业能力越强,成功的可能性就越高。大部分收益集中在专业能力等级较低的一端——新手会话与中级会话之间的差距,大于中级会话与专家会话之间的差距。
在讨论成功会话的特征之前,我们需要明确如何衡量成功。我们无法观察到用户的真实世界结果,也不能直接询问他们是否从 Claude 中得到了想要的东西。因此,我们依赖两种基于对话记录的互补衡量方法。第一种是“判定成功”,由一个分类器读取完整对话记录,判断用户是否完成了他们原本打算做的事情(选项:成功、部分成功、失败、目标不明确)。随后,两个配套分类器会评判该判断的证据强度,从而确定“验证成功”。一个“成功信号分类器”会寻找可验证的成功证据,具体来说,它会检查与工作匹配的 git 活动(如提交和拉取请求)、测试套件是否通过,以及用户的明确确认。该分类器将会话得分从“无信号”到“弱信号”(1 分)再到“多个强信号”(5 分)进行评分。一个并行的“失败信号”则对出错证据进行评分——错误、测试失败、重试、用户对输出提出异议。验证成功要求会话被判定为成功,并且至少有一个可验证的强成功信号。在接下来的分析中,我们聚焦于会话的成功或失败程度,因此排除了被归类为“目标不明确”的会话,这类会话约占我们完整样本的 7.7%。
专业能力的回报
那么,哪些类型的会话最为成功?事实证明,上面提到的会话专业能力评分,对会话的成功程度起着至关重要的作用。
人们可能会担心,真正的驱动因素并非专业能力——也许专家只是选择了不同的任务,或者在其他方面存在差异。在本节中,我们通过对比同一类工作、同一预估价值、同一月份、同一主题、同一大类职业群体的会话,来部分回应这一担忧,并探究结果如何随人员评定专业水平而变化。

在我们所有的成功衡量标准中,一个人在一次会话中展现的专业水平越高,该会话成功的可能性就越大。被评为新手水平的会话,在我们最严格的标准(验证成功)下成功率为15%,至少部分成功的概率为77%。而被评定为中级或以上水平的会话,验证成功率为28%-33%,部分成功率为91%-92%(图5)。
在每项衡量标准中,大部分提升来自于从新手到中级的过渡;从中级到专家之间,提升斜率有所下降。在附录中,我们提供了图5背后回归分析的详细信息。

类似的变化趋势也出现在中途遇到困难的会话中。当失败信号记录到已验证的失败证据时,我们称该会话“遇到了麻烦”。这可能包括错误、测试未通过、重复尝试同一操作,或者用户表达了沮丧或不满。在遇到麻烦的会话中,经验证的成功会话占比从新手等级会话的 4% 上升到专家等级会话的 15%——这已经考虑了上述所有控制变量(图 5)。若采用更宽松的衡量标准,我们发现至少部分成功的占比在新手会话中为 60%,在中等至专家会话中为 80–81%。
我们还追踪了反向关系——专业程度与各种失败指标之间的联系。请注意,在此分析中,被判定为失败的会话是指那些连部分成功都未达到的会话。如果某个遇到麻烦的会话被判定为失败且没有任何代码行被写入,则视为“放弃”:在用户表现为新手的会话中,有 19% 最终被放弃,而其他用户群体则为 5–7%。换句话说,经验最少的用户在难以达成预期结果时更容易放弃。专业能力的部分价值似乎在于能够引导智能体朝着正确的方向前进⁹。
职业可能与专业程度关系不大。
软件相关职业的用户在所有会话中约30%的时间达到了已验证成功,而其他职业的用户约26%的时间达到。在生成代码的会话(即至少添加或修改了一行代码的会话)中,这两个数字分别为34%和29%(图6)。在我们更宽松的成功定义下,软件相关职业与其他职业之间的差距缩小了——两组在代码生成会话中至少部分成功的比例分别为89%和88%。这五个百分点的差距很小,并且在七个月内既没有扩大也没有缩小,即使两组的成功率都在上升。在代码生成会话中,我们数据集中十个最大职业的每一个在成功率上都与软件工程师相差不到七个百分点。管理职业在已验证成功上最高,略高于软件工程职业。他们更高的已验证成功率可能反映了可用于指导智能体的管理技能。但也可能部分反映了我们的衡量方式:验证部分依赖于对话记录中的明确确认,而管理者在获得所需内容时可能更倾向于沟通。10

展望未来
本报告中的结果初步展示了智能体编码如何放大某些形式的知识和技能,同时替代其他形式。在生成代码的会话中,每个主要职业的成功率都与软件相关职业相差无几。看来,编码智能体正在使编程背景对成功编程的相关性降低。
与此同时,成功的会话更有可能展现出领域专长。被评定为专家级别的会话达成成功的频率是新手级别的两倍以上,而当会话遇到困难时,新手放弃会话的频率是其他人的数倍。从协作的形态来看,这幅图景更加丰富——领域专家能够引导 Claude 用每条指令完成更多工作。因此,引导 Claude 走向成功的能力更多来自对领域的掌控,而非编写代码的能力。任何领域中拥有这种掌控力的人,如今或许能够完成之前无法胜任的技术工作。而缺乏任何此类专长的人,从同一工具中获得的收益将少得多。这些收益主要来自胜任力而非精通——对领域有实用性的掌握即可获得绝大部分收益,而深入的专业化在此基础上只会带来有限提升。
这些发现是初步的。与我们大多数研究一样,我们无法衡量现实世界的结果,例如会话中编写的代码是否被实际使用或之后被丢弃,或者它是否产生了具有经济价值的成果。此外,本报告排除的非交互式使用方式在总活动中占了相当大的比例。开发衡量这种使用方式的框架是未来工作的重点。而且,我们对所有会话的分类都依赖于模型对对话记录的理解。在附录中,我们展示了我们的分类器在预期方向上与独立遥测数据保持一致,并在大多数会话上与强参考模型达成一致。但分类器在大规模验证上仍具挑战性,而 Claude Code 会话进一步增加了难度,因为其中包含的会话可能过于冗长和复杂,以至于人类标注无法作为可靠参照。
随着模型、用户以及它们之间的分工不断变化,本报告中的图景也将持续更新。我们希望这些衡量指标能够让我们实时追踪重大的变化。例如,如果专业知识的回报率开始随时间下降,那就表明模型正在开始提供用户当前所带入的关键判断力,而这些工具带来的收益正在从领域专家扩展到更广的范围。如果非软件行业用户成功完成编码会话的比例持续上升,这可能意味着软件开发正在成为各行各业日常工作的一部分,而不再只是单一职业的产物。这些转变将改变谁能从智能体编码中受益、受益程度如何,并且会对劳动力市场中最受重视的能力产生深远影响。
附录
可在此处查阅。
引用
@online{hitzig2026agentic,
author = {Zoe Hitzig and Maxim Massenkoff and Eva Lyubich and Ryan Heller and Peter McCrory},
title = {Agentic coding and persistent returns to expertise},
date = {2026-06-16},
year = {2026},
url = {https://www.anthropic.com/research/claude-code-expertise},
}
致谢
感谢以下人员:Jake Eaton、Sarah Pollack、Hanah Ho、Szymon Sacher、Anton Korinek、Santi Ruiz、Kerry Persen、Ankur Rathi、Alex Tamkin、Heather Whitney、Cat Wu、Kacie Jenkins、Jennifer Martinez、Amie Rotherham、Boris Cherny、Eleanor Dorfman、Miles McCain 以及 Jack Clark。