聊天机器人的黄昏
工作如何随指数级变化而变化
如果你感觉人工智能领域的进展正在加速,那很可能是对的。美国领先AI实验室发布更强大模型的频率比以往任何时候都要快(尽管政府干预导致两个最强模型——Claude Fable和GPT-5.6——无法被访问)。
但不仅仅是发布节奏。证据表明,能力提升同样在加速(尽管前沿仍参差不齐,AI在许多方面依然薄弱)。这一点在考察AI完成实际工作的能力时尤为明显。目前有几种可靠的评估方法试图衡量AI能替代多少人类劳动。其中最有名的两项——来自METR和英国官方政府人工智能安全研究所——评估了AI仅凭单次提示词就能完成相当于多少人类程序员工时的工作量。GDPval则通过专业评审比较多个领域的专家与AI的表现。这些指标都在以超指数级速度增长。
另一个进行类似实验的机构Epoch近期发现,Opus 4.7在独立工作14小时后,能够构建一个需要人类工程师耗时2至17周才能完成的软件包(耗费了251美元的模型token)。同样,AI系统并非能通过所有测试,运行成本也不总是低廉,但它们确实在以非常快的速度改进。在我自己的实验中,我发现Fable能够自主工作9小时,执行非常复杂的软件项目,而这些项目如果由团队完成通常需要一周多时间。
到目前为止,我一直聚焦于前沿模型,也就是那些“智能”最高的模型。它们出自三家美国公司——Anthropic、OpenAI 和 Google(尽管 Google 已经有一段时间没有发布新模型了)。但还有第二类 AI 模型,它们通常落后前沿模型 6-12 个月,全部来自中国。这些都是开放权重模型,意味着发布后任何人都可以使用或修改(与专有前沿模型相反)。这使得它们的运行成本非常低廉。它们同样在沿着一条指数级改进曲线攀升,尽管落后于美国模型。你可以在我的 AI 性能图中看到这一点,该图采用名为 AA-Briefcase 的测试,该测试模拟一个复杂的、为期数周的咨询项目,AI 需要执行多种类型的分析。开放权重模型位于它们自己的指数曲线之上,落后于美国闭源模型。
但抽象的图表也只能告诉你这么多,它们可能会掩盖前沿模型的崎岖不平(同时也会掩盖这样一个事实:开放权重模型虽然令人印象深刻,但实际表现并不总像其基准测试所显示的那样好)。要获得真正的洞察,你需要尝试将 AI 用于不同的用例,并严格评估它们在对你重要的领域中有多出色。举一个有趣的例子,我创建了一个测试,让 AI 构建一个随时间演变的海港交互式模拟。你可以在这里操作所有结果。我认为这提供了一个有趣的视角,展示了模型在设计、风格方法甚至判断力等方面彼此之间可以有多么大的差异。随着系统执行的任务越来越长,这些难以基准化的因素变得更加重要。
我们使用 AI 的方式正在改变
随着 AI 能够执行越来越长的任务,人们使用 AI 的方式也在发生变化。直到最近,使用 AI 的主要方式仍是将其作为协同智能。你让 AI 做某件事,检查结果,然后让它执行你工作的下一步。通过仔细的提示词设计和人工关注,你可以引导 AI 完成复杂且长期的任务。
这种使用AI的方法虽然仍然普遍且有用,但越来越不是AI被用于有价值工作的方式了。运行时间长、智能且能自我纠正的AI系统不需要持续的人工干预,它们需要一种不同的工作方式(这也是我即将出版的新书《Co-Existence》的主题,或许你可以在这里预购)。而且,与聊天机器人不同,智能体配备了额外的“引擎”:这些引擎赋予AI访问工具和在其中行动的环境的能力,以及像Claude Code或OpenAI的Codex这样为智能体构建的应用程序。因此,一个好的引擎或应用程序可以进一步提升AI模型本就日益增强的能力。
因此,工作越来越多地变成向智能体分配任务,而不是与聊天机器人协作。OpenAI与学术经济学家共同进行的一项研究显示了这种情况在他们自己组织内部发生的速度有多快。关键是,使用智能体的不仅仅是程序员。法律、人力资源和其他非技术职能岗位采用智能体的速度几乎相同。OpenAI或许可以看作是一只能预示其他工作领域未来发展趋势的“矿井金丝雀”。
在OpenAI,工作形态正日益变得像在管理AI。四分之一的OpenAI员工每周会同时运行至少4个智能体。并且,当编码工作由AI在专门的引擎和应用中完成时,其他角色也开始某种程度地转变为“编码者”,而且他们还做得很好。另一项针对Claude Code用户的研究发现,在编码任务中实际使用Claude Code时,软件工程师的成功率与其他职业的用户相近。
真正重要的不是用户的职业,而是他们的专业知识。一个人在某个领域拥有的经验越多,他们在该领域使用Claude Code时就越成功。更有趣的是,他们从每个提示词中从Claude那里获得的有用输出也更多。
我们正在从一个非专家使用聊天机器人来填补空白的时代,转向一个专家利用智能体来完成工作的时代。而使用智能体的最佳方式,是将自己视为一名管理者。
一个历史性时刻
处于指数曲线上意味着,每一段固定时间内的变化都比前一段更大。如果你的组织在 2025 年冬季之前的任何时候制定了一项 AI 计划,那么它描述的是一个能完成几小时工作但错误率相当高的系统。而短短几个月后,你就能通过一个提示词获得十六小时甚至更长时间的工作成果。这就是为什么 AI 总让人感觉在飞跃——尽管从图表上看它只是一条曲线,但我们却在不断经历能力平稳翻倍所带来的一次次冲击。我们非常不擅长从内部感知指数增长,而我们现在正身处其中。
我认为这也比那些关于炒作的常见叙事更能解释围绕 AI 的动荡。AI 并不是逐渐变得能够构成真正的网络安全威胁,而是突然之间就做到了,从而在最顶层的政府层面引发了仓促且临时性的政策变化。市场会低估 AI 可能威胁到某种商业模式的潜力,直到有一天它真的做到了,从而导致股票的大幅波动。这些剧烈摇摆通常被视为一个尚未成熟的领域终将趋于稳定的迹象。但我不认为它会很快稳定下来。这种不稳定性正是当以人的速度(或者更糟,以委员会的速度)运转的机构试图追赶一条本质远非人类特性的能力曲线时,所必然发生的事情。而只要我们还在某种指数曲线上——只要这种增长持续下去——这个差距只会越来越大。









