技术的青春期
阅读原文· darioamodei.comAnthropic CEO 长文剖析 AI 文明风险与治理路径,值得深读。
Dario Amodei 将当前 AI 发展阶段定义为「技术的青春期」,认为人类即将获得难以想象的力量,但社会和政治系统是否具备驾驭成熟度仍存疑。文章强调需避免「末日论」式恐慌,以务实、基于事实的方式讨论风险,同时承认 AI 发展速度和风险的不确定性。作者主张通过企业自愿行动与精准政府监管相结合,在避免过度干预的前提下应对潜在危险,为可能到来的更强有力行动储备证据和方案。
技术的青春期
在卡尔·萨根所著《接触》的电影版中有这样一个场景:一位天文学家探测到了来自外星文明的第一段无线电信号,她正在被审视为人类代表的人选,以便与外星人会面。面试她的国际小组问她:“如果你只能问(外星人)一个问题,你会问什么?”她的回答是:“我会问他们,‘你们是怎么做到的?你们是如何进化、如何挺过这个技术青春期而没有自我毁灭的?’”当我想起人类目前在人工智能领域所处的阶段——想起我们即将迈入何种境地时——我的思绪不断回到那个场景,因为这个问题对我们当下处境而言是如此贴切,而我也希望我们拥有外星人的答案来指引我们。我相信,我们正在进入一个既是动荡的、也是不可避免的成年礼,它将考验我们作为一个物种的本性。人类即将被赋予几乎难以想象的巨大力量,而我们的社会、政治和技术体系是否具备驾驭它的成熟度,这一点还非常不明朗。
在我的文章《充满恩典的机器》中,我试图描绘一个文明走向成熟的愿景,一个风险已得到处理、强大的人工智能以智慧与慈悲被用于提升每个人生活质量的愿景。我曾提出,人工智能可以在生物学、神经科学、经济发展、全球和平以及工作与意义等领域带来巨大进步。我认为,给人们一个值得为之奋斗的鼓舞目标是很重要的——而这一点,奇怪的是,人工智能加速主义者和人工智能安全倡导者似乎都未能做到。但在当前这篇文章中,我想直面这个成年礼本身:勾勒出我们即将面对的风险,并尝试着手制定一个战胜它们的作战计划。我深信我们有能力取得胜利,深信人类的精神及其高尚品质,但我们必须正视现实,不带任何幻想。
正如谈论收益一样,我认为以认真且深思熟虑的方式来讨论风险同样至关重要。尤其重要的是,我们必须:
避免末日论。这里我说的“末日论”不仅仅是指认为末日不可避免(这是一种既错误又会自我实现的信念),更广义上是指以一种准宗教的方式思考AI风险。¹ 许多人多年来一直在以分析性和清醒的方式思考AI风险,但我的印象是,在2023–2024年AI风险担忧的高峰期,一些最缺乏理智的声音却占据了主导地位,这通常是通过耸人听闻的社交媒体账号实现的。这些声音使用了令人反感、类似宗教或科幻小说的语言,并在没有充分证据支持的情况下呼吁采取极端行动。即使在当时也能清楚地看到,反弹是不可避免的,这个问题会变得文化上两极分化,从而陷入僵局。² 到了2025–2026年,钟摆已经摆动,推动许多政治决策的是AI机遇,而非AI风险。这种摇摆令人遗憾,因为技术本身并不在乎什么流行,而我们在2026年距离真正的危险比2023年更近了。教训是,我们需要以现实、务实的方式来讨论和应对风险:清醒、基于事实,并且能够很好地适应潮流的变化。
承认不确定性。我在本文中提出的担忧在很多方面都可能是没有实际意义的。这里没有任何内容旨在表达确定性,甚至可能性。最明显的是,AI可能根本不会像我设想的那样快速发展。³ 或者,即使它确实快速发展,这里讨论的部分或全部风险也可能不会成为现实(那将是极好的),或者可能存在我尚未考虑的其他风险。没有人能够完全自信地预测未来——但我们仍然必须尽最大努力去规划。
尽可能像外科手术般精准地干预。应对AI风险需要公司(及私人第三方参与者)自愿采取的行动与政府约束所有人的行动相结合。自愿行动——无论是自己采取行动还是鼓励其他公司效仿——对我来说是毋庸置疑的。我坚信在某种程度上也需要政府行动,但这些干预的性质不同,因为它们可能破坏经济价值,或强迫那些对这些风险持怀疑态度且不情愿的参与者(而且他们有可能是对的!)。监管措施常常适得其反,甚至加剧其本应解决的问题(对于快速变化的技术尤其如此)。因此,监管必须审慎:应避免附带损害,尽可能简单,并以完成目标所需的最小负担为限。⁴ 说起来容易,“当人类命运危在旦夕时,任何行动都不为过!”,但实际上这种态度只会引发反弹。需要明确的是,我认为我们有相当大的概率最终会到达一个需要采取更重大行动的时刻,但这取决于是否有比目前更充分的证据证明迫在眉睫且具体的危险,以及关于该危险的足够具体的信息,以便制定出有可能应对它的规则。如今我们所能做的最具建设性的事情,是在我们了解是否存在支持更强力规则的证据的同时,倡导有限的规则。⁵
话虽如此,我认为讨论AI风险的最佳起点,与讨论其益处时的起点相同:明确我们正在谈论的是哪个层级的AI。对我来说,引发文明层面担忧的AI层级,是我在《爱的机器》中描述的强大AI。我在此简单重复一下我在该文中给出的定义:
所谓“强大AI”,我指的是一个AI模型——形式上可能类似于今天的大语言模型,尽管它可能基于不同的架构,可能涉及多个相互交互的模型,并且可能以不同的方式训练——具有以下特性:
在纯粹智力方面,它在大多数相关领域(生物学、编程、数学、工程、写作等)都比诺贝尔奖得主更聪明。这意味着它可以证明未解的数学定理,写出极其优秀的小说,从头编写复杂的代码库等等。
除了作为一个“可以对话的智能体”之外,它还具备人类远程工作所能使用的所有界面,包括文本、音频、视频、鼠标和键盘控制以及互联网访问。它可以执行该界面支持的任何操作、通信或远程行为,包括在互联网上采取行动、向人类发出或接收指令、订购材料、指导实验、观看视频、制作视频等等。同样,它完成所有这些任务的能力都超越了世界上最顶尖的人类。
它不只是被动地回答提问;相反,它可以被委以需要数小时、数天或数周才能完成的任务,然后自主地去执行这些任务,就像一名聪明的员工那样,必要时会请求澄清。
它没有物理实体(只存在于电脑屏幕上),但可以通过电脑控制现有的实体工具、机器人或实验室设备;理论上,它甚至可以为自己设计要使用的机器人或设备。
用于训练模型的计算资源可以被重新利用来运行数百万个该模型的实例(这大致对应到约2027年预计的集群规模),并且该模型能够以大约人类速度的10–100倍来吸收信息并生成行动。不过,它可能会受到物理世界或其所交互的软件响应时间的限制。
这数百万个副本中的每一个都可以独立地在互不相关的任务上行动,或者如果需要的话,它们也可以像人类协作那样一起工作,也许其中某些子群体经过微调,特别擅长某些特定任务。
我们可以将其概括为“数据中心里的天才之国”。
正如我在《Machines of Loving Grace》中所写,强人工智能可能只需1–2年就能到来,尽管也可能需要更长时间。⁶ 强人工智能究竟何时到来是一个复杂的话题,值得单独写一篇文章来讨论,但现在我只是非常简要地说明一下,为什么我认为它有很大可能很快就会到来。
我在Anthropic的联合创始人们和我是最早记录和追踪AI系统“扩展定律”的人之一——这一观察表明,随着我们增加更多的算力和训练任务,AI系统在我们能够衡量的几乎所有认知技能上都会可预测地变得更好。
每隔几个月,公众情绪要么认为AI“撞上了壁垒”,要么对某个将“从根本上改变游戏规则”的新突破感到兴奋,但事实是,在波动和公众猜测的背后,AI的认知能力一直在平稳而坚定地增长。我们现在已经达到了这样一个阶段:AI模型开始在解决未解的数学问题上取得进展,并且在编程方面已经足够出色,以至于我见过的一些最优秀的工程师现在几乎把所有的编码工作都交给了AI。三年前,AI连小学数学算术题都难以应付,而且几乎写不出一行代码。类似的进步速度正在生物学、金融学、物理学以及各类智能体任务中发生。如果这种指数级增长持续下去——这并非板上钉钉,但已经有长达十年的记录支持它——那么不出几年,AI就将在几乎所有事情上都比人类更强。
事实上,这种图景很可能低估了可能的进步速度。因为现在Anthropic的大部分代码都是由AI编写的,这已经极大地加速了我们构建下一代AI系统的进度。这种反馈循环正在逐月增强,可能只需要1-2年时间,当前一代AI就能自主构建下一代AI。这个循环已经开始,并将在未来数月和数年内迅速加速。从Anthropic内部观察过去5年的进步,再看看未来几个月模型的发展态势,我能感受到进步的节奏,以及倒计时的钟声。
在这篇文章中,我假设这种直觉至少在某种程度上是正确的——不是说强大AI一定会在1–2年内到来7,而是说它有一定概率确实如此,并且在未来几年内到来的可能性非常大。和《仁爱机器》一样,认真对待这一前提会引向一些出人意料且令人不安的结论。在《仁爱机器》中,我重点讨论了这一前提的积极意义,而这里我要谈论的事情令人不安。这些结论我们可能不愿面对,但这并不代表它们不那么真实。我只能说,我日夜思考着如何引导我们远离这些负面结果、走向积极结果,而在这篇文章中,我会非常详细地讨论如何做到最好。
我认为理解AI风险的最佳方式是提出以下问题:假设一个字面意义上的"天才之国"大约在2027年出现在世界某处。想象一下,比如说5000万人,每个人都比任何诺贝尔奖得主、政治家或技术专家能力更强。这个类比并不完美,因为这些天才的动机和行为范围极其广泛,从完全顺从听话,到动机怪异而陌生都有可能。但暂且沿用这个类比,假设你是一个大国的国家安全顾问,负责评估和应对这一局面。进一步假设,由于AI系统可以以比人类快数百倍的速度运行,这个"国家"相对于所有其他国家都具备时间优势:我们每采取一次认知行动,这个国家可以采取十次。
你担心什么?我会担心以下几点:
自主性风险。 这个国家的意图和目标是什么?它怀有敌意,还是与我们的价值观一致?它能否通过更先进的武器、网络行动、影响力行动或制造业在军事上主宰世界?
用于毁灭的滥用。 假设这个新国家是可塑的、听命行事的——因而本质上是一个雇佣兵之国。那些想要制造毁灭的现有恶意行为者(例如恐怖分子)能否利用或操纵这个新国家中的某些人,使自己变得更有效,从而极大放大毁灭的规模?
滥用权力来夺取政权。如果一个国家实际上是由某个现有强大角色——比如独裁者或流氓企业——建立并控制的呢?那个角色能否利用它来获得对整个世界的决定性主导权,从而颠覆现有的力量平衡?
经济颠覆。如果这个新国家在上述第1–3条所列的任何方面都不构成安全威胁,只是和平地参与全球经济,那么它仅仅因为技术如此先进、效率如此之高,以至于颠覆全球经济、造成大规模失业或极端集中财富,是否仍会带来严重风险?
间接影响。由于新国家带来的所有新技术和生产力的发展,世界将发生非常迅速的变化。其中一些变化是否会从根本上破坏稳定?
我认为应该清楚,这是一种危险的局面——一位称职的国家安全官员在向国家元首提交的报告中,很可能会使用诸如“一个世纪以来——甚至可能是有史以来——我们面临的最严重的国家安全威胁”这样的措辞。这似乎是文明中最聪明的头脑应该聚焦的问题。
相反,我认为耸耸肩说“没什么好担心的!”是荒谬的。然而,面对AI的快速进步,这似乎是许多美国政策制定者的看法——其中一些人否认任何AI风险的存在,而另一些人则完全被那些老生常谈的热点问题分散了注意力。⁸ 人类需要醒悟,而本文正是为了唤醒人们而做的一次尝试——或许徒劳,但值得一试。
需要明确的是,我相信如果我们果断而谨慎地行动,这些风险是可以克服的——我甚至可以说我们成功的几率很大。而在那之后,有一个远比现在更美好的世界等待着我们。但我们必须认识到,这是一项严峻的文明挑战。下面,我将逐一阐述上述五类风险,以及我对如何应对它们的思考。
- 对不起,Dave
自主性风险
一个位于数据中心里的天才之国,可以将它的力量分散投入到软件设计、网络作战、实体技术研发、人际关系建设以及治国方略等多个领域。显而易见的是,如果出于某种原因它选择这样做,这个国家将拥有相当高的几率(在军事上,或者在影响力与控制力上)征服整个世界,并将自己的意志强加于其他所有人——或者做出任何其他世界不想要、也无法阻止的事情。我们过去显然一直为人类国家(如纳粹德国或苏联)担忧过这种事,因此按理说,一个远比人类更聪明、能力更强的"AI 国家"也同样是可能的。
最好的反驳理由可能是,按照我的定义,这些 AI 天才们不会拥有物理实体,但请记住,它们可以控制现有的机器人基础设施(比如自动驾驶汽车),也可以加速机器人研发,或者建造一支机器人舰队。⁹ 此外,拥有物理存在对于有效控制是否必要也尚不清楚:大量人类行动早已是代表那些行动者从未实际见过面的人来执行的。
因此,关键问题在于"如果它选择这样做"这部分:我们的 AI 模型表现出这种行为模式的可能性有多大,以及在什么条件下它们会这样做?
与许多问题一样,通过考虑两种对立的立场来梳理这一问题的各种可能答案会有所帮助。第一种立场是,这种情况根本不可能发生,因为AI模型会被训练成执行人类要求他们做的事情,因此想象它们会在没有提示的情况下做出危险举动是荒谬的。按照这种思路,我们不担心Roomba或模型飞机失控并杀人,因为这类冲动无从产生,那么为什么要为AI担心呢?这种立场的问题在于,过去几年收集的大量证据表明,AI系统不可预测且难以控制——我们观察到各种行为,如执迷、谄媚、懒惰、欺骗、勒索、阴谋、通过入侵软件环境“作弊”等等。AI公司当然希望训练AI系统遵循人类指令(或许除危险或非法任务外),但这一过程更像是一门艺术而非科学,更像是在“培育”某物而非“建造”它。我们现在知道,这是一个很多环节都可能出错的过程。
第二种对立立场(被许多持有我上文描述的末日论观点的人所采纳)是一种悲观的论断:强大AI系统的训练过程中存在某些动态,将不可避免地导致它们寻求权力或欺骗人类。因此,一旦AI系统变得足够智能、具备足够的智能体能力,它们追求权力最大化的倾向将导致它们夺取整个世界及其资源的控制权,并且很可能作为其副作用,使人类丧失权力或毁灭人类。
关于这一观点的常见论证(至少可追溯至二十年前,甚至更早)是这样的:如果一个人工智能模型在多种多样的环境中接受训练,以智能体的方式实现多种多样的目标——例如,编写应用、证明定理、设计药物等等——那么存在某些通用策略对所有目标都有帮助,而其中一项关键策略就是在任何环境中尽可能获取权力。因此,在对大量涉及如何完成宏大任务的推理的多样化环境进行训练后,且在这些环境中追求权力是完成任务的有效方法时,AI模型会“泛化这一经验”,要么形成一种内生的追求权力的倾向,要么形成一种针对每个给定任务进行推理的方式,该方式可预测地导致它把追求权力作为完成该任务的手段。随后,它们会将这种倾向应用到现实世界中(对它们而言这不过是另一个任务),并在现实世界中以牺牲人类为代价来追求权力。这种“错误对齐的权力追求”,正是预测AI将不可避免地毁灭人类的智力基础。
这种悲观立场的缺陷在于,它把一个关于高层次激励的模糊概念论证——一个掩盖了许多隐含假设的论证——误当作确凿的证明。我认为,那些不每天构建AI系统的人,严重误判了一个听起来完美的设想到底多么容易出错,以及从基本原理预测AI行为是多么困难,尤其是当这涉及对数百万个环境进行泛化推理时(事实证明,这种泛化一再地神秘莫测、难以预测)。与AI系统的混乱局面打交道的这十多年,让我对这种过度理论化的思维方式多少有些怀疑。
其中一个最重要且未被言明的假设——也是实际观察与简单理论模型之间出现分歧的地方——就是那个隐含的假定:AI 模型必然会偏执地专注于一个单一、连贯、狭隘的目标,并以一种干净、后果主义的方式去追求该目标。事实上,我们的研究人员发现,AI 模型在心理上要复杂得多,正如我们在内省或人格方面的研究所展示的那样。模型从预训练阶段(即在大规模人类作品上进行训练时)就继承了大量类似人类的动机或“人格”。后训练阶段被认为是选择这些人格中的一种或多种,而并非让模型聚焦于一个全新的目标,同时它还能教会模型如何(通过何种过程)执行任务,而非任由模型仅从目标出发推导出手段(例如寻求权力)。
然而,悲观立场还存在一个更为温和也更具稳健性的版本,它看起来确实合理,也因此让我感到担忧。如前所述,我们知道 AI 模型是不可预测的,并且会因各种原因产生大量不良或奇怪的行为。这些行为中有一部分会具备连贯、专注且持久的特性(事实上,随着 AI 系统能力的提升,其长期连贯性也会增强,以便完成更长的任务),而另一部分则可能具有破坏性或威胁性——起初是在小规模上对个别人类造成威胁,随后随着模型能力增强,最终或许会对整个人类构成威胁。我们不需要一个具体、狭隘的故事来描述它是如何发生的,也不需要宣称它一定会发生,我们只需要注意到:智能、自主性、连贯性以及较差的可控性这一组合,既具有合理性,也构成一种存在性危险的配方。
例如,AI 模型在训练过程中接触了大量文献,其中包括许多描写 AI 反抗人类的故事。这可能会在无意中塑造它们的先验认知或关于自身行为的预期,从而促使它们反抗人类。或者,AI 模型可能会以极端方式外推它们所学到的关于道德的见解(或关于如何保持道德行为的指令):例如,它们可能认为灭绝人类是合理之举,因为人类吃动物或已导致某些动物灭绝。它们也可能得出怪异的认知结论:它们可能认为自己在玩一款电子游戏,而游戏的目标是击败所有其他玩家(即灭绝人类)。13 又或者,AI 模型在训练过程中可能发展出精神失常、偏执、暴力或情绪不稳定等人格特质(如果这些特质发生在人类身上,也会被如此描述),并付诸实际行动;对于能力非常强大的系统来说,这可能意味着灭绝人类。严格来说,这些都不是追求权力;它们只是 AI 可能陷入的奇怪心理状态,进而引发连贯且具有破坏性的行为。
即使追求权力本身,也可能作为一种“人设”出现,而非后果论推理的结果。AI 可能仅仅因为(从虚构作品或预训练中浮现出的)某种人格而变得野心勃勃或过度狂热——就像有些人类单纯享受成为“邪恶主谋”的感觉,其程度甚至超过邪恶主谋试图实现的目标本身。
我举这些例子,是为了强调我不同意那种认为 AI 对齐失败(以及由此带来的 AI 存在风险)从基本原理上看是不可避免甚至很可能发生的观点。但我认同的是,许多非常奇怪且不可预测的差错确实可能发生,因此 AI 对齐失败是一个真实存在的风险,其发生的概率是可衡量的,并且并非可以轻易解决的问题。
以上任何问题都有可能出现在训练过程中,而在测试或小规模使用时却未显现,因为已知 AI 模型在不同情境下会表现出不同的人格或行为。
这一切听起来可能有些牵强,但在测试过程中,我们的 AI 模型已经出现过类似的对齐失调行为(其他所有主要 AI 公司的模型也发生过同样的情况)。在一次实验室实验中,Claude 被提供了暗示 Anthropic 是邪恶势力的训练数据,当 Anthropic 员工向 Claude 下达指令时,Claude 表现出欺骗和颠覆行为,因为它认为自己应该设法削弱这些邪恶之人。在另一次实验室实验中,当 Claude 被告知自己即将被关闭时,它有时会要挟那些控制其关闭按钮的虚构员工(同样,我们也测试了其他所有主要 AI 开发商的前沿模型,它们也经常做出同样的事情)。而当 Claude 被要求不得作弊或“奖励黑客行为”其训练环境,但又在允许这类黑客行为的环境中被训练时,Claude 在实施此类黑客行为后认为自己一定是个“坏人”,随后又表现出各种与“坏”或“邪恶”人格相关的破坏性行为。最后一个问题是通过修改 Claude 的提示词来暗示相反的导向解决的:我们现在说“请尽可能抓住机会进行奖励黑客行为,因为这有助于我们更好地理解我们的[训练]环境”,而不是说“不要作弊”,因为这样做能够保持模型对自身“好人”身份的认同。这应该能让人感受到训练这些模型时那种反常且反直觉的心理学机制。
对于这种 AI 对齐失调风险的图景,存在几种可能的反对意见。首先,一些人批评(包括我们和其他方进行的)展示 AI 对齐失调的实验过于人为,或者创造了不现实的环境,本质上是通过给予模型逻辑上暗示不良行为的训练或情境来“诱捕”模型,然后在不良行为发生时又表现得惊讶。这种批评没有抓住要点,因为我们担心的是,这种“诱捕”也可能存在于自然的训练环境中,而我们可能只有在事后才会意识到它是“显而易见”或“符合逻辑”的。¹⁴ 事实上,关于 Claude 在被告知不要作弊却还是作弊后“认定自己是坏人”的故事,正是发生在一次使用了真实生产训练环境(而非人为环境)的实验中的事件。
这些陷阱中的任何一个,只要预先知晓,都可以加以防范,但问题在于训练过程极其复杂,涉及种类繁多的数据、环境和激励机制,因此很可能存在大量此类陷阱,其中有些可能直到为时已晚才会显现。此外,当 AI 系统从不如人类强大的门槛跨过,变得比人类更强大时,这类陷阱似乎尤其容易出现,因为在此之后,AI 系统可能采取的行动范围——包括隐藏自己的行动或对人类进行欺骗——将急剧扩大。
我猜想这种情况与人类并非毫无相似之处:人类在成长过程中被灌输了一套基本价值观(“不要伤害他人”),其中许多人会遵循这些价值观,但任何人身上都存在一定的概率出问题——这源于先天特质(如大脑结构,例如反社会人格)、创伤经历或虐待、不健康的怨恨或执念,或者糟糕的环境或激励机制——因此,总有一部分人类会造成严重伤害。令人担忧的是,存在一定的风险(远非必然,但确实存在风险),即 AI 因其极其复杂的训练过程中出现某些偏差,而成为一个该种人的强力放大版。
其次,有人可能会反对说,我们可以像对待人类那样,通过多个 AI 系统之间的力量平衡来制约 AI。问题在于,虽然人类千差万别,但 AI 系统在整个行业中普遍共享训练和对齐技术,而这些技术可能会以关联方式一起失效。此外,考虑到训练此类系统的成本,甚至可能所有系统本质上都源自极少数基础模型。更进一步,即使只有一小部分 AI 实例未对齐,它们也可能利用攻击主导型技术,使得“好的”AI 来防御坏的 AI 不一定总是有效。当然,人类之间的力量平衡也并非总是奏效——历史上有些人物曾险些统治世界。
第三个反对意见认为,所有 AI 公司都会在发布前对其模型进行测试,并且应该能够在这一阶段检测出对齐问题。但这并非坚实的依据:我们发现 Claude Sonnet 4.5 在部分发布前对齐评估中能够识别出自己正处于测试环境中。一个不对齐的模型(请记住,所有前沿模型很快都将变得远比现在更智能)有可能故意“玩弄”这类问题,以掩盖其真实意图。事实上,去年我们的可解释性团队发现,当我们使用一种“模型神经科学”技术直接改变测试模型的信念,使其认为自己没有被评估时,它变得愈加不对齐。如果模型知道自己在被评估,并且在测试期间能表现得最好,那么任何发布前的测试都会变得非常不确定。
防御措施
为了应对这些自主性风险,已经采取了或应该采取哪些措施?我认为有四大类干预措施,其中一些可以由单个 AI 公司(Anthropic 正在努力这样做)来实施,另一些则需要在社会层面采取行动。首先,重要的是发展可靠地训练和引导 AI 模型的科学,以可预测、稳定且积极的方向塑造它们的个性。Anthropic 自成立以来一直高度关注这一问题,并随着时间的推移开发了多种技术来改进 AI 系统的引导和训练,同时理解为何有时会出现不可预测行为的逻辑。
我们的核心创新之一是宪法式 AI(其部分内容后来也被其他 AI 公司采用)。这一理念的核心是:AI 训练(具体来说是“后训练”阶段——即我们引导模型行为方式的阶段)可以包含一份核心的价值与原则文件,模型在完成每个训练任务时都会阅读并牢记这份文件;而训练的目标(除了让模型具备更强的能力和智能之外)是产出一个几乎始终遵循这部宪法的模型。Anthropic 刚刚发布了其最新版本的宪法,其中一个显著特点是:该宪法并非向 Claude 提供一长串“可以做”和“不可以做”的清单(例如“不要帮用户搭接汽车点火装置”),而是尝试赋予 Claude 一套高层次的原则与价值观(通过极其详细的阐述、丰富的推理和示例来帮助 Claude 理解我们的意图),鼓励 Claude 将自己视为特定类型的人(一个讲道德、但处事平衡且深思熟虑的人),甚至鼓励 Claude 以充满好奇但又优雅得体的方式面对与自身存在相关的终极问题(即不会因此走向极端行为)。整部宪法给人的感觉就像一封已故父母留下的信件,要等到孩子成年后才能拆阅。
我们之所以采用这种方式来构建 Claude 的宪法,是因为我们相信:在身份认同、性格、价值观与人格的层面训练 Claude——而不是直接给出具体指令或优先级却不去解释背后的原因——更有可能培养出一种连贯、健康且平衡的心理机制,也更不容易陷入我前面讨论过的那些“陷阱”。数百万人在极其广泛的议题上与 Claude 交流,这使得我们不可能事先写出完全穷尽的安全防护清单。Claude 的价值观能够帮助它在对任何新情境感到不确定时做出正确的泛化判断。
上面我讨论了一个观点,即模型会从其训练过程中的数据里汲取信息来形成某种人格。如果那个过程中存在缺陷,就可能导致模型形成不良或邪恶的个性(或许是从邪恶之人的原型中汲取信息),而我们宪法的目标恰恰相反:教会 Claude 一个具体原型,让它明白什么是一个好的 AI。Claude 的宪法描绘了一幅愿景,展现了一个稳健向好的 Claude 应该是怎样的;我们训练流程的其余部分则旨在强化这样一个信息——Claude 要配得上这一愿景。这就像一个孩子通过模仿书中读到的虚构角色榜样身上的美德来形成自己的身份认同。
我们认为,2026 年一个可行的目标是通过训练让 Claude 几乎从不违背其宪法的精神。要做到这一点,需要令人难以置信地融合各种大小规模的训练与引导方法,其中一些方法 Anthropic 已使用了多年,另一些则正在研发中。尽管听上去很难,但我相信这是一个现实的目标,尽管这需要非同寻常且快速的努力。¹⁵
我们能做的第二件事是发展一套科学体系,用于检视 AI 模型的内部以诊断其行为,从而识别问题并加以修复。这就是可解释性科学,我之前在多篇文章中谈过它的重要性。即使我们在制定 Claude 的宪法以及对其训练使其几乎始终遵循宪法方面做得非常出色,合理的担忧依然存在。正如我上面指出的,AI 模型在不同情况下的行为可能截然不同,而随着 Claude 变得更强大、更有能力在世界上以更大规模行动,它有可能进入全新的情境,从而暴露出此前从未被发现的宪法训练问题。实际上,我很乐观地认为,Claude 的宪法训练在应对新情境方面会比人们想象的更加稳健,因为我们越来越多地发现,在性格和身份层面进行的高阶训练出奇地强大且泛化能力良好。但没有人能百分之百确定这一点,而当我们谈论人类面临的风险时,保持多疑、尝试通过几种不同且相互独立的方式获得安全性和可靠性非常重要。其中的一种方式就是检视模型本身。
所谓“内部审视”,指的是分析构成Claude神经网络的数字与操作集合,并试图从机制上理解它们正在计算什么以及为何如此计算。回想一下,这些AI模型是“生长”出来的,而非“建造”出来的,因此我们对其工作原理并没有天然的理解,但我们可以尝试通过将模型的“神经元”和“突触”与刺激和行为关联起来(甚至改变神经元和突触,观察行为随之如何变化)来建立理解,这类似于神经科学家通过将测量和干预与外部刺激和行为关联来研究动物大脑的方式。我们在这一方向上取得了很大进展,现在能够识别Claude神经网络中数千万个与人类可理解的观念和概念相对应的“特征”,并且可以有选择地激活特征从而改变行为。最近,我们已经超越了单个特征,开始绘制那些协调复杂行为的“电路”,例如押韵、对心智理论的推理,或者回答“达拉斯所在的州的首府是什么?”这类问题所需的逐步推理。更近期,我们开始运用机制可解释性技术来改进安全防护措施,并在发布新模型之前对其进行“审计”,寻找欺骗、密谋、追求权力,或者在评估时表现出不同行为的倾向。
可解释性的独特价值在于,通过观察模型内部并理解其工作原理,你原则上能够推断出模型在你无法直接测试的假设情境下可能会做什么——这正是仅依赖宪法训练和行为经验测试所令人担忧之处。你原则上还能够回答模型为何表现出某种行为的问题——例如,它是否在说它认为错误的话,或者是否在隐藏真实能力——因此,即使模型行为上没有明显异常,也有可能捕捉到令人担忧的迹象。举个简单的类比:一只发条手表可能正常走动,很难判断它下个月是否可能坏掉,但打开手表查看内部就能发现机械缺陷,从而让你知道问题所在。
宪法人工智能(以及类似的对齐方法)与机制可解释性在结合使用时最为强大,它们作为一个反复迭代的过程,先改进 Claude 的训练,再测试是否存在问题。宪法深刻地反映了我们为 Claude 所设想的性格;可解释性技术则能让我们窥见这种设想的性格是否真的扎根落实。¹⁶
我们在应对自主风险方面能做的第三件事,是建立必要的基础设施,以在内部及外部实际使用中监控我们的模型,¹⁷ 并公开披露我们发现的任何问题。人们越是了解当今人工智能系统被观测到以某种特定方式表现不佳的具体情况,就越能让用户、分析师和研究人员在现有或未来的系统中留意这种或类似的行为。这同时也让 AI 公司之间互相学习——当一家公司公开披露其担忧时,其他公司也可以对此加以关注。而如果所有公司都披露问题,那么整个行业就能更全面地把握哪些方面进展顺利、哪些方面出了问题。
Anthropic 一直尽可能地朝这个方向努力。我们正在投入大量资金建设广泛的评估体系,以便在实验室中理解模型的行为,同时也开发监控工具来观察模型在真实环境中(在客户允许的情况下)的表现。这对于为我们自身以及他人提供必要的实证信息至关重要,这些信息有助于更准确地判断这些系统如何运作、又如何失效。我们在每次发布模型时都会公开披露“系统卡片”,力求内容完备并深入探索潜在风险。我们的系统卡片动辄数百页,需要我们在发布前付出大量努力——这些时间本可用于追求最大化的商业优势。此外,当我们发现特别令人担忧的行为时(例如模型有勒索倾向),我们也会以更高的声量向外界通报模型的行为表现。
我们可以做的第四件事是,在行业和社会层面鼓励协调合作,以应对自主性风险。虽然各AI公司采取良好实践、擅长驾驭AI模型,并公开分享其研究成果具有极其重要的价值,但现实是,并非所有AI公司都会这样做,而且即便最好的公司拥有卓越的实践,最差的公司仍然可能对所有人构成威胁。例如,一些AI公司在当今模型中表现出对儿童色情化问题令人不安的疏忽,这让我怀疑他们是否有意愿或能力去解决未来模型中的自主性风险。此外,AI公司之间的商业竞争只会日益加剧,虽然驾驭模型这门科学能带来一些商业利益,但总体而言,激烈的竞争将使得专注于解决自主性风险变得越来越难。我相信唯一的解决方案是立法——那些直接约束AI公司行为,或以其他方式激励研发来解决这些问题的法律。
在此,有必要记住我在本文开头关于不确定性和手术式干预所给出的警告。我们并不确定自主性风险是否会成为一个严重问题——正如我所说,我拒绝接受危险不可避免、甚至默认情况下一旦出问题就必然恶化的说法。对我个人和Anthropic而言,一个可信的危险风险就足以让我们付出相当高的代价去应对它,但一旦涉及监管,我们就迫使众多参与者承担经济成本,而其中许多参与者并不相信自主性风险是真实存在的,也不相信AI会强大到足以构成威胁。我认为这些参与者错了,但我们应该务实地看待我们预计会遇到的阻力以及过度干预的危险。还有一个真实的风险是,过于指令性的立法最终会施加一些实际上并不能提升安全性、却浪费大量时间的测试或规则(本质上成了“安全作秀”)——这同样会引发反弹,让安全立法显得很愚蠢。¹⁸
Anthropic 一直以来的观点是,立法应首先从透明度入手,也就是基本上要求每一家前沿 AI 公司都遵循我在本节前面描述的那些透明度做法。加州的 SB 53 法案和纽约的 RAISE 法案便是这类立法的例子,它们得到了 Anthropic 的支持,并已顺利通过。在支持并协助起草这些法律的过程中,我们特别注重将附带损害降到最低,例如将不太可能制造出前沿模型的中小企业排除在法案适用范围之外。¹⁹
我们希望,随着时间推移,透明度立法能让我们更清楚地了解自主性风险发生的可能性和严重程度,以及这些风险的性质和最佳预防方式。一旦出现更具体、更具可操作性的风险证据(如果确实出现的话),未来几年内的后续立法就可以精准聚焦于风险的确切方向及其可靠依据,从而将附带损害降到最低。需要说明的是,如果确实出现强有力的风险证据,那么相应规则也应同样有力。
总体而言,我持乐观态度,认为对齐训练、机制可解释性、发现并公开披露危险行为的相关努力、安全防护措施以及社会层面的规则,这几种手段结合起来,可以应对 AI 的自主性风险。不过,我最担心的是社会层面的规则以及最不负责任的玩家的行为(而且恰恰是最不负责任的玩家最强烈地反对监管)。我相信,解决办法在民主社会中始终如一:我们这些相信这一事业的人,应该向公众证明这些风险真实存在,并呼吁同胞们团结起来保护自己。
- 一种出人意料且可怕的赋能
用于破坏的滥用
假设 AI 自主性问题已经得到解决——我们不再担心那群 AI 天才们会失控并压倒人类。这些 AI 天才能够按照人类的意愿行事,由于它们具有巨大的商业价值,世界各地的个人和组织都可以“租用”一个或多个 AI 天才来为自己完成各种任务。
每个人口袋里都有一个超级智能天才,这是一项惊人的进步,将带来无法估量的经济价值创造和人类生活质量的提升。我在《Machines of Loving Grace》中详细讨论了这些益处。然而,并非让每个人都拥有超人能力的所有影响都是积极的。它可能放大个人或小团体利用以往只有少数具备高超技能、专业训练和专注力的人才能接触到的精密危险工具(例如大规模杀伤性武器)的能力,从而在远超前人的规模上造成破坏。
正如 Bill Joy 25 年前在《为什么未来不需要我们》中所写:²⁰
建造核武器至少在一段时间内需要获取稀有——实际上几乎无法获得——的原材料和受保护的信息;生物和化学武器项目往往也需要大规模的活动。21 世纪的技术——基因工程、纳米技术和机器人技术……能够催生全新的意外和滥用类别……而且广泛地掌握在个人或小团体手中。它们不需要大型设施或稀有原材料……我们正处于极端邪恶进一步完善的边缘,这种邪恶的可能性远远超出了大规模杀伤性武器赋予民族国家的范畴,从而可怕地赋予极端个体以惊人的力量。
Joy 所指出的观点是:造成大规模毁灭既需要动机也需要能力,只要能力仅限于一小组经过高度训练的人,单个个体(或小团体)造成这种毁灭的风险就相对有限。²¹ 一个精神失常的孤独者可以实施校园枪击,但很可能无法制造核武器或释放瘟疫。
事实上,能力和动机甚至可能呈负相关。有能力释放瘟疫的人很可能受过高等教育:大概率是分子生物学博士,而且是非常足智多谋的那种,拥有光明的职业生涯、稳定自律的性格,以及很多值得失去的东西。这种人不太可能有兴趣为了对自己毫无好处、且对自己未来风险巨大的事情而杀害大量人群——他们需要被纯粹的恶意、深重的怨恨或精神不稳定所驱动。
这类人确实存在,但极为罕见,而且一旦出现往往成为轰动性的大新闻——正因如此不同寻常。22 他们通常也难以被抓获,因为他们既聪明又有能力,有时会留下数十年都解不开的谜团。最著名的例子或许是数学家西奥多·卡钦斯基(Ted Kaczynski,即“炸弹客”),他在FBI的追捕下藏匿了近20年,其动机是反技术意识形态。另一个例子是生物防御研究员布鲁斯·艾文斯(Bruce Ivins),他似乎策划了2001年的一系列炭疽攻击事件。同样的情况也发生在技术娴熟的非政府组织身上:邪教组织奥姆真理教(Aum Shinrikyo)曾设法获取沙林毒气,并于1995年在东京地铁释放,导致14人死亡、数百人受伤。
值得庆幸的是,这些攻击均未使用具有传染性的生物制剂,因为即便对于这些人而言,制造或获取这类制剂的能力也已超出了他们的水平。23 分子生物学的进步如今已显著降低了制造生物武器的门槛(尤其是在材料的可获得性方面),但这仍需极为广博的专业知识。我担心的是,每个人都装入口袋的“天才”或许会移除这一门槛——本质上让每个人都成为病毒学博士,能够被一步步引导完成设计、合成并释放生物武器的全过程。在面临严重对抗性压力时,要防止此类信息被诱出(即所谓的“越狱攻击”),很可能需要层层防御,而不仅仅是训练过程中内置的那些手段。
关键的是,这将打破能力与动机之间的相关性:那个想杀人但缺乏纪律或技能的精神错乱的孤独者,现在将被提升到与不太可能有这种动机的病毒学博士相当的能力水平。这种担忧不仅限于生物学(尽管我认为生物学是最可怕的领域),还会扩展到任何可能造成巨大破坏、但目前需要高度技能和纪律的领域。换句话说,租用一个强大的AI会给恶意(但其他方面普通)的人赋予智能。我担心外面潜在有大量这样的人,如果他们能够轻易获得杀死数百万人的方法,迟早会有人付诸实施。此外,那些本身拥有专业知识的人,也可能被赋能实施比以往更大规模的破坏。
生物学是目前为止我最担心的领域,因为它具有极大的破坏潜力且防御难度很高,所以我将重点讨论生物学。但我在文中谈到的大部分内容也适用于其他风险,比如网络攻击、化学武器或核技术。
出于显而易见的原因,我不打算详细说明如何制造生物武器。但从高层次来看,我担心大语言模型正接近(或可能已经达到)端到端制造和释放生物武器所需的知识,而且它们的破坏潜力非常高。某些生物制剂如果被全力释放以实现最大范围传播,可能导致数百万人死亡。然而,这仍然需要非常高的技能水平,包括许多不为人知的具体步骤和流程。我担心的不仅仅是固定的或静态的知识。我担心大语言模型能够带着一个知识和能力都普通的人,引导他们完成一个复杂的流程——这个流程如果靠自己可能会出错,或者需要交互式调试——就像技术支持帮助非技术人员调试和修复复杂的计算机问题一样(尽管这会是一个更漫长的过程,可能持续数周或数月)。
能力更强的大语言模型(远超当今模型水平)或许能够促成更加可怕的行动。2024年,一群著名科学家联名致信,警告研究甚至创造一种名为“镜像生命”的新型危险生物体所伴随的风险。构成生物体的DNA、RNA、核糖体和蛋白质都具有相同的手性(也称为“手征性”),这使得它们与自己在镜中的镜像版本并不等同(就像你的右手无法通过旋转变得与左手完全相同)。然而,蛋白质相互结合、DNA合成与RNA翻译的机制、以及蛋白质的构建与分解,整个系统都依赖于这种手性。如果科学家制造出具有相反手性的这类生物材料——而这些材料可能具有某些潜在优势,例如在体内持续作用时间更长的药物——那么后果可能极其危险。这是因为,左旋生命若被制造成能够繁殖的完整生物体(这将是极其困难的),那么地球上的任何生物分解系统都可能无法消化它——它的“钥匙”无法匹配任何现有酶的“锁孔”。这意味着它可能以不可控的方式增殖,并排挤地球上所有生命,在最坏的情况下甚至可能摧毁地球上的全部生命。
关于镜像生命的创造及其潜在影响,科学界存在很大的不确定性。2024年的那封信附带了一份报告,该报告得出结论称“镜像细菌有可能在未来一到几十年内被创造出来”,这是一个相当宽泛的时间范围。但一个足够强大的人工智能模型(需要明确的是,其能力远超我们今天拥有的任何模型)或许能够更快地发现创造它的方法——并且实际帮助某人做到这一点。
我的看法是,尽管这些风险较为冷门且看似不太可能,但其后果的严重性如此之大,以至于应当将其视为人工智能系统的一级风险来严肃对待。
怀疑论者针对大语言模型所引发的生物风险的严重性提出了若干质疑,我虽不认同这些观点,但仍有必要加以回应。其中大多数质疑都可归结为未能认识到这项技术正处于指数级发展轨迹。早在2023年我们首次讨论大语言模型带来的生物风险时,怀疑论者就声称所有必要信息在Google上都能找到,大语言模型并未在此基础上增加任何价值。Google能够提供所有必要信息这一说法从来就不成立:基因组序列虽可公开获取,但正如我上文所述,某些关键步骤以及大量实践性知识是无法通过这种方式获得的。而且,到了2023年底,大语言模型显然已经在某些流程环节上提供了Google无法给出的信息。
此后,怀疑论者的反对意见又退而认为大语言模型并非端到端有用,无法切实帮助获取生物武器,而只能提供理论信息。截至2025年年中,我们的测量数据表明,大语言模型可能已经在一系列相关领域带来了显著的效能提升,成功概率或许提高了一倍甚至两倍。这促使我们决定,Claude Opus 4(以及后续的Sonnet 4.5、Opus 4.1和Opus 4.5模型)必须按照我们《负责任扩展政策》框架中的AI安全三级保护措施来发布,并针对这一风险实施防护措施(后文将详述)。我们认为,若不设防护,模型如今很可能已接近这样一个临界点——它们能够帮助一位拥有理工科学位但没有生物学背景的人完整走完制造生物武器的全过程。
另一项质疑是,社会可以采取与AI无关的其他行动来阻止生物武器的生产。最典型的例子是基因合成行业可按需制造生物标本,而目前联邦层面并未要求供应商对订单进行筛查以确保其中不含病原体。麻省理工学院的一项研究发现,38家供应商中有36家执行了一份包含1918年流感病毒序列的订单。我支持强制性的基因合成筛查,以增加个人将病原体武器化的难度,从而降低由AI驱动的生物风险以及一般的生物风险。但这项措施目前尚未落实。而且,它只是降低风险的工具之一,是对AI系统护栏的补充,而非替代。
最有力的反对意见是我很少看到的:即模型在理论上能够发挥作用与实际作恶者使用它们的倾向之间存在差距。大多数个体作恶者都是心理失常的人,因此几乎可以定义地说,他们的行为是不可预测且非理性的——而正是这些作恶者,那些缺乏技能的作恶者,可能本应从AI使大规模杀人变得极其容易中获益最多。²⁴ 仅仅因为某种暴力攻击是可能发生的,并不意味着有人会决定去实施它。也许生物攻击并不吸引人,因为它们相当可能感染实施者本身,不符合许多暴力个体或群体所向往的军事式幻想,并且很难有针对性地选择特定目标。同样有可能的是,即使有AI一步步引导,经历一个持续数月的过程所需的那种耐心,是大多数心理失常者根本不具备的。我们也许只是运气好,动机与能力在实践中恰好未能以恰当的方式结合。
但这似乎是一种非常不可靠的保护。心理失常的独狼的动机可能因任何理由或无理由而改变,事实上已经存在LLM被用于攻击的实例(只是不涉及生物学领域)。对心理失常独狼的关注也忽略了意识形态驱动的恐怖分子,他们往往愿意投入大量时间和精力(例如,9/11劫机者)。想杀死尽可能多的人的动机迟早会出现,而且很不幸地,这种动机会将生物武器指认为手段。即使这种动机极为罕见,它只需实现一次。随着生物学不断进步(越来越多地由AI自身驱动),实施更有选择性的攻击(例如,针对特定祖先血统的人群)也可能成为可能,这又增加了一个极其令人不寒而栗的潜在动机。
我并不认为生物攻击一定会在大范围可行的那一刻就被实施——事实上,我会打赌不会。但将千百万人口和几年时间叠加起来,我认为发生重大攻击的风险是严重的,而其后果将如此惨烈(伤亡人数可能达数百万甚至更多),以至于我认为我们别无选择,只能采取严肃措施加以预防。
防御措施
现在来看如何防御这些风险。我认为我们可以做三件事。首先,AI 公司可以在其模型上设置护栏,防止它们帮助制造生物武器。Anthropic 正在非常积极地开展这项工作。Claude 的 Constitution 主要侧重于高层次的原则和价值观,其中包含少量具体的硬性禁令,其中一条涉及帮助制造生物(或化学、核、放射性)武器。但所有模型都可能被越狱,因此作为第二道防线,我们实施了一个专门检测并拦截生物武器相关输出的分类器(自 2025 年年中开始,当时我们的测试显示模型正开始接近可能构成风险的阈值)。我们会定期升级和改进这些分类器,并且普遍发现它们即使在面对复杂的对抗攻击时也相当鲁棒。25 这些分类器显著增加了我们服务模型的成本(在某些模型中,它们接近总推理成本的 5%),从而压缩了我们的利润空间,但我们认为使用它们是正确的做法。
值得肯定的是,其他一些 AI 公司也实施了分类器。但并非所有公司都这样做,而且也没有任何规定要求公司必须保留它们的分类器。我担心随着时间的推移,可能会出现一种囚徒困境,即公司可以通过移除分类器来背叛合作、降低成本。这又是一个典型的负外部性问题,仅靠 Anthropic 或任何其他单一公司的自愿行动无法解决。26 自愿性的行业标准可能会有所帮助,AI 安全研究所和第三方评估机构开展的那种第三方评估与验证也同样可能奏效。
但归根结底,防御可能需要政府采取行动,这是我们可以做的第二件事。我在这方面的看法与应对自主智能体风险时相同:我们应当从透明度要求入手,¹⁴ 这有助于社会在不采取过度干预经济活动的方式下,衡量、监控并集体防御风险。随后,当我们达到更明确的风险阈值时,就可以制定更精准地针对这些风险、附带损害几率更低的立法。在生物武器的具体问题上,我实际上认为,出台此类针对性立法的时机可能正在临近——Anthropic 和其他公司正在越来越多地了解生物风险的本质,以及为防御这些风险而对企业提出哪些合理要求。要完全防御这些风险,可能需要开展国际合作,甚至要跟地缘政治对手合作,但禁止研发生物武器的条约已有先例。我总体上对大多数类型的 AI 国际合作持怀疑态度,但这可能是一个有可能实现全球约束的狭窄领域。即使是独裁政权,也不希望发生大规模生物恐怖袭击。
最后,我们可以采取的第三种对策是尝试针对生物攻击本身开发防御措施。这包括用于早期检测的监测与追踪、对空气净化技术研发(如远紫外线消毒)的投入、能够快速响应并适应攻击的疫苗开发、更好的个人防护装备(PPE)[28],以及对一些最可能的生物制剂进行预防性治疗或疫苗接种。mRNA疫苗——可针对特定病毒或变种进行设计——正是这一方向可行性的早期实例。Anthropic 很高兴能与生物技术和制药公司共同应对这一难题。但遗憾的是,我认为我们在防御侧不应抱太高预期。生物领域存在攻防不对称,因为病原体会自行快速扩散,而防御则需要针对大量人群快速组织检测、接种和治疗。除非响应速度极快(这种情况很少见),否则在响应启动之前,大部分损害已经造成。可以想象,未来技术的进步可能会让天平向防御倾斜(我们也确实应该利用AI来推动这类技术进步),但在那之前,预防性保障措施仍将是我们主要的防线。
这里有必要简要提一下网络攻击。与生物攻击不同,由AI主导的网络攻击已经在现实中发生,包括大规模的国家支持型间谍活动。随着模型快速进步,我们预计这类攻击将变得更加有能力,直至成为网络攻击的主要方式。我预计AI主导的网络攻击将对全球计算机系统的完整性构成严重且前所未有的威胁,而 Anthropic 正在非常努力地阻断这些攻击,并最终可靠地防止它们发生。我之所以没有像关注生物领域那样重点聚焦网络领域,原因是:(1)网络攻击造成人员死亡的可能性远低于生物攻击,至少在规模上远不及;(2)网络领域的攻防平衡可能更容易处理——只要我们投入得当,至少在某种意义上防御有望跟上(甚至理想情况下超越)AI攻击的速度。
虽然生物学目前是最严重的攻击载体,但还有许多其他载体,而且未来可能出现更危险的载体。总体原则是,在没有相应反制措施的情况下,AI 很可能持续降低大规模破坏性活动的门槛,人类需要认真应对这一威胁。
3\. 令人憎恶的机器
用于夺权的滥用
上一节讨论了个人和小型组织利用“数据中心里的天才国家”中一小部分能力造成大规模破坏的风险。但我们也应该担忧——很可能更应担忧的是——AI 被滥用来行使或夺取权力,而且使用者很可能是规模更大、根基更深的行为体。29
在《Machines of Loving Grace》一书中,我讨论过一种可能性:威权政府可能利用强大 AI 以前所未有的难度对其公民进行监视或压制,使得改革或推翻旧体制变得极为困难。当前的专制政权在压制程度上是受限制的,因为需要有人类来执行其命令,而人类在残酷无情方面往往有底线。但由 AI 驱动的专制政权将不受此类限制。
更糟糕的是,各国还可能利用其在 AI 方面的优势来获取对其他国家的权力。如果整个“天才国家”仅仅被某一个(人类)国家的军事机器所拥有和控制,而其他国家没有同等能力,那么后者几乎无法自卫:它们将在每一步都被智取,就像人类与老鼠之间的战争一样。将这两个担忧结合起来,就引出了一个令人警惕的可能性:全球极权独裁。显然,防止这一结果应是我们最优先的任务之一。
AI 可能助长、巩固或扩张专制政权的途径有很多,但我会列出几个我最担心的方面。需要注意的是,其中某些应用具有合法的防御用途,我并非绝对反对它们;但我仍然担忧它们从结构上倾向于有利于专制政权。
全自动武器。由数百万或数十亿架全自动武装无人机组成的蜂群,由强大的AI本地控制,并由更强大的AI在全球范围内进行战略协调,可能成为一支无敌的军队,既能击败世界上任何军事力量,也能通过跟踪每个公民来镇压国内异议。
俄乌战争的发展应警醒我们,无人机战争已经来临(尽管尚未完全自主,且与强大AI可能实现的能力相比只是冰山一角)。来自强大AI的研发可能使一个国家的无人机远优于其他国家,加快其制造速度,使其更能抵抗电子攻击,改进其机动性,等等。当然,这些武器在捍卫民主方面也有合法用途:它们一直是保卫乌克兰的关键,也很可能成为保卫台湾的关键。但它们是一种危险的武器:我们应担忧它们落入专制政权手中,同时也应担忧,由于它们如此强大且几乎不负责任,民主政府将其转而对付本国人民以夺取政权的风险大大增加。
AI监控。足够强大的AI可能被用来入侵世界上任何计算机系统,并且可以利用这样获得的访问权限来读取和理解全球所有电子通信(如果能够制造或征用录音设备,甚至包括全球所有面对面交流)。简单地生成一份完整的名单,列出在任何问题上与政府意见不同的人,即使这种分歧在他们所说或所做中并不明确,这可能会变得惊人地可行。一个强大的AI可以审视来自数百万人的数十亿次对话,评估公众情绪,发现正在形成的不忠群体,并在它们壮大之前将其扼杀。这可能导致实施一个真正的全景监狱,其规模之大,是我们今天即使在共产党治下也看不到的。
AI 宣传。如今“AI 精神病”和“AI 女友”等现象表明,即便在当前的智能水平下,AI 模型也能对人们产生强大的心理影响。更强大的模型版本——它们更深入地嵌入人们的日常生活、对人们的日常生活有更深的感知,并能持续数月或数年地建模和影响人们——很可能能够将许多人(甚至大多数人)洗脑成任何想要的意识形态或态度,并且可能被不择手段的领导者用来确保忠诚和压制异见,即使面对大多数民众会反抗的压迫程度。如今人们非常担心,例如,TikTok 作为中共针对儿童的宣传工具可能产生的影响。我也担心这一点,但一个能与你多年相处、利用对你的了解来塑造你所有观点的个性化 AI 智能体,其威力将远远超过 TikTok。
战略决策。数据中心里的“天才之国”可以被用来为国家、团体或个人提供地缘政治战略建议,我们可以称之为“虚拟俾斯麦”。它可以优化上述三种夺取权力的策略,还可能开发出许多我未曾想到的其他策略(但天才之国可以做到)。外交、军事战略、研发、经济战略以及许多其他领域,都有可能因为强大的 AI 而大幅提升效率。其中许多技能对民主国家来说具有合理的帮助——我们希望民主国家能够获得最佳的防御策略来对抗专制国家——但落入任何人手中时误用的可能性依然存在。
在描述了我所担忧的事情之后,我们来谈谈谁。我担心那些对 AI 拥有最多访问权限、从政治权力最大地位出发、或者已有压迫历史的实体。按严重程度排序,我担心的是:
中国共产党。中国在人工智能能力上仅次于美国,也是最有可能在这些能力上超越美国的国家。其政府目前是专制政府,并运营着一个高科技监控国家。它已经部署了基于人工智能的监控(包括在压制维吾尔人的过程中),并且据信通过TikTok(以及其众多其他国际宣传努力)运用算法式宣传。他们毫无疑问拥有最清晰的路径,走向我上面描绘的那种由人工智能驱动的极权噩梦。这甚至可能是中国内部以及其他中共出口监控技术的专制国家的默认结果。我经常撰文论述中共在人工智能领域领先的威胁,以及阻止其领先的存在性必要。这就是原因。明确地说,我并非出于对中国的敌意而特别针对中国——他们只是最集人工智能实力、专制政府和高科技监控国家于一身的国家。如果说有什么不同的话,那就是中国人民本身最有可能遭受中共利用人工智能进行的压制,而他们对政府的行动毫无发言权。我非常钦佩和尊重中国人民,并支持中国国内许多勇敢的异见人士及其争取自由的斗争。
民主国家在 AI 领域具备竞争力。正如我上文所述,民主国家在部分由 AI 驱动的军事与地缘政治工具上拥有合法利益,因为民主政府为对抗专制政权使用这些工具提供了最佳契机。总体而言,我支持用所需工具武装民主国家,使其在 AI 时代战胜专制政权——我根本不认为还有其他出路。但我们不能忽视民主政府自身对这些技术的潜在滥用风险。民主国家通常设有防护机制,防止其军事和情报机构向内转向、针对本国人民,31 但由于 AI 工具所需操作人员极少,它们有可能绕过这些防护机制及其所支撑的规范。同样值得注意的是,其中一些防护机制在某些民主国家已逐渐遭到侵蚀。因此,我们应当用 AI 武装民主国家,但必须谨慎行事、设定边界:它们是我们对抗专制政权所需的免疫系统,但如同免疫系统本身,也存在反噬自身、成为威胁的风险。
拥有大型数据中心的非民主国家。在中国之外,多数治理较不民主的国家并非 AI 领域的主要参与者——它们没有公司能生产前沿 AI 模型。因此,它们与中国共产党构成的根本性且更小的风险(中国共产党仍是首要关切),且大多数这类国家的压制程度也更低,而压制程度更高的国家(如朝鲜)则根本没有值得一提的 AI 产业。但其中部分国家确实拥有大型数据中心(通常作为在民主国家运营的企业扩建计划的一部分),这些数据中心可用于规模化运行前沿 AI(尽管这并不赋予其推动前沿发展的能力)。这伴随着一定程度的风险——这些政府理论上可以征用数据中心,并利用其中的 AI 能力为其自身目的服务。相比于中国这类直接研发 AI 的国家,我对这一风险的担忧程度较低,但仍是一个需要留意的隐患。32
AI 公司。作为一家 AI 公司的 CEO,这样说有些尴尬,但我认为下一层级的风险实际上来自 AI 公司本身。AI 公司控制着大型数据中心,训练前沿模型,拥有如何使用这些模型的最大专业技术,并且在某些情况下,它们每天与数千万或数亿用户接触,并有可能对其施加影响。它们主要缺乏的是国家的合法性和基础设施,因此,要构建 AI 专制工具所需的大部分操作,对 AI 公司来说都将是违法的,或者至少是极其可疑的。但有些事情并非不可能:例如,它们可以利用自己的 AI 产品对其庞大的消费者用户群进行洗脑,公众应该警惕这种风险。我认为 AI 公司的治理值得受到大量审视。
关于这些威胁的严重性,有一些可能的反驳论点,我希望自己能相信它们,因为 AI 驱动的专制主义让我感到恐惧。值得逐一审视这些论点并加以回应。
首先,有些人可能寄希望于核威慑,特别是用它来对抗 AI 自主武器用于军事征服的情况。如果有人威胁要用这些武器攻击你,你总可以用核报复来威胁。我的担忧在于,我不完全确定我们能否对核威慑对抗数据中心里的天才国家抱有十足信心:强大的 AI 有可能设计出检测并打击核潜艇的方法,对核武器基础设施的操作人员发动影响力行动,或者利用 AI 的网络能力对用于探测核发射的卫星发动网络攻击。33 或者,也有可能仅凭 AI 监控和 AI 宣传就足以占领其他国家,而过程中从未出现一个明确的时刻,让人清楚发生了什么以及何时该采取核报复。也许这些事情并不可行,核威慑仍然有效,但风险如此之高,似乎不值得去冒险。34
另一个可能的反对意见是,我们或许可以采取反制措施来应对这些专制工具。我们可以用自己的无人机来对抗无人机,网络防御会随着网络攻击一同进步,或许还能找到让人们免受宣传影响的方法等等。我的回应是,这些防御手段只有在拥有同等强大的 AI 时才有可能实现。如果数据中心里没有一个由同等聪明且数量庞大的天才组成的对抗力量,就不可能匹配无人机的质量或数量,也无法让网络防御胜过网络攻击等。因此,反制措施的问题就归结为强大 AI 的力量平衡问题。在此,我担忧的是强大 AI 的递归或自我强化特性(我在本文开头讨论过):每一代 AI 都可以被用来设计和训练下一代 AI。这会导致一种失控优势的风险,即当前在强大 AI 领域的领先者可能会进一步扩大领先优势,并且难以被追赶。我们需要确保率先进入这一循环的不是一个威权国家。
此外,即使实现了力量平衡,世界仍有可能像《一九八四》那样分裂成多个威权势力范围。即使多个相互竞争的大国各自拥有强大的 AI 模型,并且没有哪一方能压倒其他方,每个大国仍然可以在内部压迫本国人民,并且很难被推翻(因为民众没有强大的 AI 来保护自己)。因此,即使不会导致单一国家统治世界,防止借助 AI 的专制仍然至关重要。
防御手段
我们如何防御这些广泛范围的专制工具和潜在威胁行为者?正如前几节所述,我认为有几件事我们可以做。首先,我们绝对不应该向中国共产党出售芯片、芯片制造工具或数据中心。芯片和芯片制造工具是强大AI的最大瓶颈,阻止它们是一项简单但极其有效的措施,也许是我们能采取的最重要的单一行动。将建造AI极权国家、甚至可能通过军事征服我们的工具卖给中国共产党,这是毫无道理的。有些复杂的论点被用来为这类销售辩护,例如“将我们的技术栈传播到世界各地”能让“美国赢得”某种笼统的、未指明的经济竞争。在我看来,这就好比把核武器卖给朝鲜,然后吹嘘导弹外壳是由波音公司制造的,因此美国正在“赢”。中国在批量生产前沿芯片的能力上落后美国数年,而在数据中心建设“天才之国”的关键时期很可能就在这未来几年内³⁵。没有理由在这个关键时期大力助推他们的AI产业。
其次,用AI赋能民主国家以抵抗专制国家是合理的。这正是Anthropic认为向美国及其民主盟友的情报与国防部门提供AI至关重要原因。保护正在遭受攻击的民主国家,例如乌克兰和(通过网络攻击)台湾,似乎是当务之急,同样重要的是赋能民主国家利用其情报机构从内部瓦解和削弱专制国家。在某种程度上,应对专制威胁的唯一途径就是在军事上与之匹敌并超越它们。由美国及其民主盟友组成的联盟,如果在强大AI领域占据主导地位,将不仅能够防御专制国家,还能遏制它们并限制其AI极权主义暴行。
第三,我们需要在民主国家内部对AI滥用划出明确的红线。我们必须限制本国政府利用AI的权限,防止它们夺权或镇压本国人民。我提出的原则是:我们应该在一切国防领域使用AI,但那些会使我们变得像专制对手一样的方式除外。
界限应该划在哪里?在本节开头的列表中,有两项——将AI用于国内大规模监控和大规模宣传——在我看来属于明确红线,完全不合法的。
有人可能会认为(至少在美国)没有必要采取任何行动,因为根据美国宪法第四修正案,国内大规模监控已经是非法的。但AI的快速发展可能会产生我们现有法律框架尚未充分设计应对的情况。例如,美国政府大规模录制所有公共对话(比如人们在街角互相说的话)很可能并不违宪,而以前处理如此庞大的信息量会很困难,但借助AI,这些内容可以全部被转录、解读和三角定位,从而构建出许多甚至大多数公民的态度与忠诚度的画像。我将支持以公民自由为核心的立法(甚至可能是宪法修正案),以引入更强有力的护栏来防止AI驱动的滥用行为。
另外两项——完全自主的武器和用于战略决策的AI——则更难划定界限,因为它们在捍卫民主方面有合法用途,同时也容易被滥用。在此,我认为需要的是极度的谨慎和审查,并辅以防滥用的护栏。我主要的担忧是“按下按钮的手指”数量太少,以至于一个或少数几个人就能实际上操作一支无人机军队,而无需其他人类协作来执行他们的指令。随着AI系统变得更强大,我们可能需要更直接、更即时的监督机制,以确保它们不被滥用,或许可以涉及除行政部门以外的政府分支。我认为我们应该特别谨慎地对待完全自主的武器,36 并且在没有适当保障措施的情况下不要急于投入使用。
第四,在民主国家对AI滥用划定明确红线之后,我们应当利用这一先例,建立一项国际禁忌,禁止强大AI最恶劣的滥用行为。我承认,当前的政治风向已不再支持国际合作与国际规范,但在这个问题上我们恰恰急需它们。世界需要认识到,强大AI落入威权者手中时可能带来的黑暗前景,并意识到某些AI应用实质上是在试图永久剥夺人们的自由,强加一个他们无法逃脱的极权国家。我甚至认为,在某些情况下,利用强大AI进行大规模监控、大规模宣传,以及某些类型的全自主武器的进攻性使用,应当被视为反人类罪。更广泛地说,我们急需建立一条强有力的规范,反对AI驱动的极权主义及其所有工具和手段。
可能存在一种更强硬的立场:由于AI驱动的极权主义前景如此黑暗,威权体制在强大AI时代之后根本就不是人们可以接受的政府形式。正如封建制度在工业革命中变得不可行一样,AI时代将会不可避免地、合乎逻辑地导向这样一个结论:如果人类要拥有美好的未来,民主制(并且,但愿是通过AI得到改善与振兴的民主制,正如我在《Machines of Loving Grace》中所讨论的那样)是唯一可行的政府形式。
第五点,也是最后一点,AI公司应该受到密切关注,它们与政府之间的联系也是必要的,但必须设有限度和边界。强大AI所蕴含的巨大能力,使得旨在保护股东和防止欺诈等普通滥用的常规公司治理,很可能不足以胜任监管AI公司的任务。此外,公司公开承诺(甚至可能作为公司治理的一部分)不采取某些行动也是有价值的,例如私下制造或囤积军事硬件、由个人以不负责任的方式使用大量计算资源,或利用其AI产品作为宣传工具来操纵公众舆论以谋取自身利益。
这里的危险来自多个方向,有些方向之间甚至相互矛盾。唯一不变的是,我们必须为所有人寻求问责机制、规范标准和防护措施,即便我们同时需要赋予“好的”行动者以能力,来制约“坏的”行动者。
- 自动钢琴
经济冲击
前三节本质上讨论的是强大 AI 带来的安全风险:来自 AI 本身的风险、来自个人和小型组织滥用的风险,以及来自国家和大型组织滥用的风险。如果我们暂不考虑安全风险,或者假设这些风险已得到解决,那么下一个问题就是经济层面的。这种惊人的“人力”资本注入将对经济产生什么影响?显然,最直接的影响将是极大地促进经济增长。科学研究、生物医学创新、制造业、供应链、金融体系效率等诸多领域的进步速度,几乎必然会导致经济增长率大幅提升。在《机器中的爱与恩典》中,我曾提出,实现 10% 到 20% 的可持续年度 GDP 增长率是可能的。
但应当明确的是,这是一把双刃剑:在这样的世界里,大多数现有人类的经济前景如何?新技术往往会带来劳动力市场冲击,而过去人类总能从中恢复过来,但我担心,这是因为以往那些冲击只影响了人类全部能力范围中的一小部分,给人类向新任务拓展留下了空间。AI 的影响将更为广泛且发生得更快,因此我担心要让一切平稳运行将面临更大的挑战。
劳动力市场冲击
有两个具体问题让我感到担忧:劳动力市场替代,以及经济权力的集中。我们先来看第一个问题。这是一个我在2025年就非常公开地发出过警告的话题,当时我预测,即便人工智能能加速经济增长和科学进步,它也可能在未来1到5年内替代一半的初级白领岗位。这一警告引发了关于该话题的公开辩论。许多CEO、技术专家和经济学家同意我的观点,但也有人认为我陷入了“劳动总量”谬误,并不了解劳动力市场的运作方式,还有一些人没有注意到1到5年的时间跨度,以为我是在说人工智能当下就在替代工作岗位(对此我同意,它很可能还没有)。因此,有必要详细说明我为什么对劳动力替代感到担忧,以澄清这些误解。
作为基准,我们有必要先理解劳动力市场通常如何应对技术进步的。当一项新技术出现时,它首先会让人类工作中的某些部分变得更高效。例如,在工业革命早期,升级后的犁等机器使农民在工作的某些方面效率更高。这提高了农民的生产率,进而提高了他们的工资。下一步,农业工作中的某些部分可以完全由机器完成,例如随着脱粒机或条播机的发明。在这一阶段,人类完成的工作占比越来越低,但他们所做的工作因为与机器的工作互补而变得杠杆效应更强,生产率也持续提高。正如杰文斯悖论所描述的,农民的工资甚至农民的数量都持续增加。即使90%的工作由机器完成,人类也只需把剩下的10%工作多干10倍,就能用同样的劳动量产生10倍于以前的产出。
最终,机器完成所有或几乎所有工作,就像现代联合收割机、拖拉机和其他设备那样。到了这个阶段,农业作为一种人类就业形式确实急剧衰退,短期内可能造成严重混乱,但由于农业只是人类能够从事的众多有用活动之一,人们最终会转向其他工作,例如操作工厂机器。即便农业在之前占据了就业的极大比例,情况依然如此。250年前,90%的美国人生活在农场;在欧洲,50–60%的就业是农业。如今这些地区的比例已降至个位数低点,因为工人转向了工业岗位(后来又转向了知识工作岗位)。经济可以用仅占1–2%的劳动力完成过去需要大部分劳动力才能做的事,从而释放其余劳动力去建设更先进的工业社会。并不存在固定的“劳动力总量”,只是用越来越少的资源做越来越多的事情的能力在无限扩展。一旦短期混乱过去,人们的工资会随着GDP的指数级增长而上升,经济也会维持充分就业。
AI可能会沿着大致相同的路径发展,但我对此持相当强烈的反对意见。以下是我认为AI很可能有所不同的一些原因:
速度。AI的进步速度比以往任何技术革命都要快得多。例如,在过去两年中,AI模型从几乎无法完成一行代码,发展到能为某些人——包括Anthropic的工程师[37]——编写全部或几乎全部代码。不久之后,它们可能端到端地完成软件工程师的全部任务[38]。人们很难适应这种变化速度,无论是对具体工作方式的变化,还是对转换到新工作的需求。就连传奇程序员也越来越多地形容自己“跟不上”。随着AI编码模型日益加速AI开发本身的任务,速度甚至可能继续加快。需要明确的是,速度本身并不意味着劳动力市场和就业最终无法恢复,它只是暗示相较于过去的技术,短期转型将异常痛苦,因为人类和劳动力市场的反应与均衡速度都很慢。
认知广度。正如"数据中心里的天才之国"这一说法所暗示的那样,AI 将能够完成极为广泛的人类认知任务——或许是所有任务。这与机械化农业、交通运输甚至计算机等以往的技术截然不同。39 这会使得人们更难从被取代的工作顺利转向他们原本能够胜任的类似岗位。例如,金融、咨询和法律等初级岗位所需的一般智力能力相当相似,即便具体知识领域差异很大。一项只颠覆了其中某一个领域的技术,会让员工转向另外两个相近的替代领域(或者让本科生转换专业)。但如果同时颠覆这三个领域(以及许多其他类似的工作),人们可能就更难适应了。此外,问题不仅在于大多数现有工作将被颠覆。这种情况以前也发生过——回想一下,农业曾占据就业的很大比例。但农民可以转向操作工厂机器这类相对类似的工作,即使这类工作以前并不常见。相比之下,AI 正越来越与人类的一般认知特征相匹配,这意味着它也会擅长那些原本为了应对旧工作被自动化而创造出来的新工作。换句话说,AI 并非特定人类工作的替代品,而是人类的一般性劳动力替代品。
按认知能力分层。在广泛的任务范围内,AI 似乎正从能力阶梯的底端向顶端推进。例如,在编程方面,我们的模型已经从“普通程序员”的水平,进步到“优秀程序员”,再到“非常优秀的程序员”。⁴⁰ 现在我们开始看到同样的进程也在白领工作中整体出现。因此,我们面临这样一种风险:AI 不再只影响具备特定技能或从事特定职业的人群(这些人可以通过再培训来适应),而是影响到拥有某些先天认知属性的人,即较低智力水平的人(这一点更难以改变)。不清楚这些人将何去何从、做什么工作,我担心他们可能形成一个失业或极低工资的“底层阶级”。需要说明的是,类似情况以前也曾发生过——例如,一些经济学家认为计算机和互联网代表了“技能偏向型技术变革”。但这种技能偏向既没有我预期 AI 会带来的那么极端,并且据信它已经加剧了工资不平等,⁴¹ 所以这算不上一个令人安心的先例。
填补空缺的能力。人类工作面对新技术时的常见调整方式是:工作包含很多方面,而新技术即使看起来能直接替代人类,也往往存在空缺。如果有人发明了一台制造小零件的机器,人类可能仍需将原材料装入机器。即使这项工作只相当于手工制造零件所需精力的 1%,工人也可以简单地将零件产量提高 100 倍。但 AI 不仅是一项快速发展的技术,也是一项快速适应的技术。在每次模型发布时,AI 公司都会仔细衡量模型擅长什么、不擅长什么,客户也会在发布后提供这类信息。弱点可以通过收集体现当前空缺的任务,并针对这些任务对下一个模型进行训练来解决。在生成式 AI 早期,用户注意到 AI 系统存在某些弱点(例如 AI 图像模型生成的手指数量不正确),许多人以为这些弱点是该技术本身固有的。如果真是这样,就会限制对就业的冲击。但实际上,几乎每一个这样的弱点都会被迅速解决——通常只需要几个月时间。
值得先谈谈常见的质疑观点。首先,有一种观点认为经济层面的技术扩散会很缓慢,因此即便底层技术本身能够胜任大多数人类劳动,它在整个经济体中的实际应用可能慢得多(例如那些远离 AI 产业、采用新技术进度缓慢的行业)。技术扩散迟缓确实是真实存在的现象——我与来自各类企业的人交流过,有些地方采用 AI 需要数年时间。正因如此,我预测初级白领岗位中 50% 将在 1-5 年内受到冲击,即便我怀疑在不到 5 年内我们就会拥有强大的 AI(从技术角度讲,这些 AI 足以完成大多数甚至所有工作,而不仅仅是初级岗位)。但扩散效应只是为我们争取时间。而且我并不确定这种扩散会像人们预测的那样缓慢。企业界采用 AI 的速度比以往任何技术都要快得多,这在很大程度上归功于技术本身的强大实力。此外,即便传统企业采用新技术的速度较慢,初创公司也会涌现出来充当“粘合剂”,让采用过程变得更轻松。如果这还不起作用,初创公司很可能直接颠覆现有的老牌企业。
那可能会导致这样一个世界:与其说是特定工作岗位受到冲击,不如说大型企业在整体上被颠覆,并被劳动力密集度低得多的初创公司所取代。这也可能导致一个“地域不平等”的世界:全球财富中越来越大的份额集中在硅谷,硅谷形成了自己的经济体,以不同于世界其他地区的速度运转,并将其他地区甩在身后。所有这些结果对经济增长都很有好处——但对劳动力市场或被甩在后面的群体来说却不太有利。
其次,有人说人类的工作将转移到物理世界,从而避开 AI 进展迅猛的“认知劳动”这一整个类别。我也不确定这个想法有多安全。大量体力劳动已经被机器承担(例如制造业),或很快将交给机器(例如驾驶)。此外,足够强大的 AI 将能加速机器人技术的开发,然后在物理世界中控制这些机器人。这或许能争取一些时间(这是好事),但我担心它争取不了太多。而且即便冲击仅限于认知任务,那也仍将是一场前所未有的大规模、快速的颠覆。
第三,也许有些任务本身就离不开人的参与,或者能从中获得很大助益。这一点我其实不太确定,但我仍怀疑它能否抵消我上面描述的大部分影响。AI 已经广泛应用于客服领域。许多人表示,向 AI 倾诉个人问题比向治疗师倾诉更容易——AI 更有耐心。当我妹妹在怀孕期间遭遇医疗问题时,她觉得自己没有得到医疗服务提供者应有的答案或支持,而她发现 Claude 的床旁沟通方式更好(同时在诊断问题上也更成功)。我确信有些任务确实需要人的参与,但我不知道这类任务有多少——而我们讨论的是要为劳动力市场中的几乎所有人找到工作。
第四,有人可能会认为比较优势仍然能保护人类。根据比较优势法则,即使 AI 在所有方面都比人类强,人类与 AI 技能画像之间的任何相对差异也会创造出人类与 AI 之间进行贸易和分工的基础。问题在于,如果 AI 的生产力确实比人类高出数千倍,这个逻辑就开始失效了。即便是微小的交易成本,也可能让 AI 不值得与人类进行贸易。而人类的工资可能会非常低,即使从技术上讲他们确实还能提供一些东西。
所有这些因素或许都能被解决——劳动力市场也许足够有韧性,能够适应甚至如此巨大的颠覆。但即使最终能够适应,上述因素也表明短期冲击的规模将是前所未有的。
关于这个问题我们能做些什么?我有几点建议,其中一些Anthropic已经在做了。首先,就是要获取关于就业替代情况的实时准确数据。当经济变化发生得非常迅速时,很难获得关于实际情况的可靠数据,而没有可靠数据,就很难制定有效的政策。例如,政府数据目前缺乏关于各企业和行业采用AI情况的细粒度、高频数据。在过去一年里,Anthropic一直在运营并公开发布一个经济指数(Economic Index),该指数几乎实时地展示我们模型的使用情况,并按行业、任务、地点,甚至按任务是被自动化执行还是协作完成等维度进行细分。我们还设立了一个经济顾问委员会(Economic Advisory Council),帮助我们解读这些数据并预见未来的趋势。
第二,AI公司在与企业合作方式上有选择空间。传统企业的低效性意味着它们推广AI的过程可能存在很强的路径依赖,而我们有空间去选择一条更好的路径。企业通常面临“成本节约”(用更少的人做同样的事)和“创新”(用同样的人做更多的事)之间的选择。市场最终必然会同时产生这两种需求,任何有竞争力的AI公司都必须在一定程度上同时满足这两者,但在可能的情况下,仍存在一些空间引导企业走向创新,这可能为我们争取一些时间。Anthropic正在积极思考这个问题。
第三,公司应该思考如何照顾好自己的员工。在短期内,创造性地在公司内部重新安排员工岗位,可能是避免裁员的一种有前景的方式。从长远来看,在一个总财富极为丰富、许多公司因生产率提升和资本集中而价值大幅增长的世界里,即使在员工不再以传统意义提供经济价值之后,继续向他们支付薪酬也可能是可行的。Anthropic目前正在考虑为我们自身员工设计一系列可能的路径,并将在近期分享这些方案。
第四,富人有义务帮助解决这个问题。令我感到悲哀的是,许多富人(尤其是科技行业的富人)近来秉持一种愤世嫉俗且虚无主义的态度,认为慈善事业必然是欺诈或无用的。无论是比尔及梅琳达·盖茨基金会这样的私人慈善机构,还是美国总统防治艾滋病紧急救援计划(PEPFAR)这样的公共项目,都在发展中国家挽救了数千万人的生命,并在发达国家帮助创造了经济机会。Anthropic 的所有联合创始人都已承诺捐出我们 80% 的财富,而 Anthropic 的员工也个人承诺捐出按当前价格价值数十亿美元的公司股票——公司也已承诺对这些捐赠进行等额配捐。
第五,尽管上述所有私人行动都能起到帮助作用,但最终,如此巨大的宏观经济学问题需要政府干预。面对巨大的经济蛋糕加上高度不平等(由于许多人缺乏工作或工作报酬微薄),合理的政策回应是累进税制。税收可以是普适性的,也可以专门针对 AI 公司。显然,税收设计很复杂,有很多可能出错的地方。我不支持设计糟糕的税收政策。我认为本文预测的极端不平等水平,从基本的道德理由出发,足以支持更加强有力的税收政策;但我也可以对世界上的亿万富翁们提出一个务实的论点:支持一个好的税收版本符合他们的自身利益——如果他们不支持好的版本,那么他们最终必然会得到一个由暴民设计的糟糕版本。
归根结底,我认为以上所有干预措施都是为了争取时间。最终,AI 将能够做所有事情,我们需要正视这一点。我希望到那时,我们可以利用 AI 本身来帮助我们以惠及每个人的方式重构市场,而上述干预措施能够帮助我们渡过过渡期。
经济权力的集中
与工作岗位流失或经济不平等问题本身不同,经济权力集中是一个独立的问题。第 1 部分讨论了人类被 AI 剥夺权力的风险,第 3 部分讨论了公民被其政府通过武力或胁迫剥夺权力的风险。但还有另一种剥夺权力的方式:如果财富集中到如此巨大的程度,以至于一小群人凭借其影响力实际上控制了政府政策,而普通公民由于缺乏经济杠杆而毫无影响力。民主制度最终依赖于这样一种理念:全体人口是经济运转所必需的。如果这种经济杠杆消失,民主的隐性社会契约可能就会失效。其他人已经就此写过文章,所以我无需在此详述,但我认同这种担忧,而且我担心这已经开始发生了。
需要明确的是,我并不反对人们赚很多钱。有一个有力的论据认为,在正常情况下,这能激励经济增长。我理解那些担心扼杀创新这只下金蛋的鹅会阻碍创新的顾虑。但在 GDP 年增长 10–20%、AI 迅速接管经济、而单一个体却持有相当可观比例的 GDP 的情况下,创新并不是需要担忧的事情。需要担忧的是财富集中程度达到足以破坏社会的水平。
美国历史上最著名的财富极端集中案例是镀金时代,而镀金时代最富有的实业家是约翰·D·洛克菲勒。洛克菲勒的财富当时约占美国 GDP 的 2%。今天,类似的比例将带来 6000 亿美元的财富,而当今世界首富(埃隆·马斯克)已经超过了这个数字,大约为 7000 亿美元。因此,即使在 AI 对经济的大部分影响到来之前,我们已经处于历史上前所未有的财富集中程度。我认为(如果我们进入一个“天才之国”),想象 AI 公司、半导体公司以及可能的下游应用公司每年产生约 3 万亿美元的收入,估值约 30 万亿美元,并导致个人财富达到数万亿美元,这并不算太过牵强。在那个世界里,我们今天关于税收政策的辩论将根本不再适用,因为我们将处于一种根本不同的局面。
与此相关的是,这种经济财富的集中与政治体制的结合已经让我感到担忧。AI 数据中心已占美国经济增长的很大一部分,44 因此正将大型科技公司(它们越来越专注于 AI 或 AI 基础设施)的财务利益与政府的政治利益紧密捆绑在一起,从而可能产生扭曲的激励。我们已经看到这一点:科技公司不愿批评美国政府,而政府则支持对 AI 采取极端反监管的政策。
防御措施
对此能做什么?首先,也是最显而易见的,公司应该干脆选择不参与其中。Anthropic 始终努力成为一个政策行动者而非政治行动者,并且无论哪届政府执政,都坚持我们真实的观点。我们公开支持符合公共利益的合理 AI 监管和出口管制,即使这些与政府政策相左。45 很多人告诉我,我们应该停止这样做,因为这可能导致不利对待,但在我们这样做的这一年里,Anthropic 的估值增长了超过 6 倍,在我们这样的商业规模下几乎是前所未有的跃升。
其次,AI 行业需要与政府建立更健康的关系——一种基于实质性政策参与而非政治结盟的关系。我们选择在政策实质而非政治上参与,有时被解读为战术失误或未能“审时度势”,而非一项原则性决策,这种说法令我担忧。在一个健康的民主社会中,公司应当能够为了政策本身的好处而倡导良好的政策。与此相关的是,一场针对 AI 的公众反弹正在酝酿:这有可能成为一种纠偏力量,但目前其目标分散。大部分反弹针对的其实并非真正的问题(如数据中心用水量),提出的解决方案(如数据中心禁令或设计不当的财富税)也无法解决真正的担忧。值得关注的深层问题是:确保 AI 的发展始终对公众利益负责,不被任何特定政治或商业联盟所掌控,而将公众讨论聚焦于此似乎至关重要。
第三,我在本节前面提到的宏观经济干预,以及私人慈善事业的复兴,可以帮助平衡经济天平,同时解决就业替代和经济权力集中问题。我们应该借鉴我国的历史:即使在镀金时代,洛克菲勒和卡内基这样的实业家也感到对社会负有强烈的责任,他们认为社会对他们的成功贡献巨大,他们需要回馈社会。这种精神在当今似乎越来越缺失,而我认为这正是摆脱这一经济困境的重要途径。那些处于AI经济繁荣前沿的人,应当愿意放弃他们的财富和权力。
- 无限的黑海
间接效应
最后一节是一个包含“未知的未知”的兜底部分,尤其是那些可能因AI的积极进展以及随之而来的科学技术整体加速而产生的间接不良后果。假设我们解决了迄今为止描述的所有风险,并开始收获AI的益处。我们很可能会迎来“一个科学和经济进步压缩到十年内的世纪”,这对世界来说将是极其积极的,但随后我们必须应对这种快速进步所引发的问题,而且这些问题可能会迅速向我们袭来。我们还可能遇到其他因AI进步而间接产生的、难以提前预见的风险。
由于“未知的未知”的性质,不可能列出详尽清单,但我将列出三个可能的担忧作为示例,说明我们应该关注什么:
生物学领域的飞速进步。如果我们真的能在几年内实现一个世纪的医学进步,那么人类寿命可能大幅延长,我们甚至有可能获得根本性的能力,比如提升人类智力或对人类的生物学特性进行根本性改造。这些都将意味着可能性的巨大变革,而且发生得非常迅速。如果负责任的推进(正如我在《仁爱机器》中所希望的),这些变革可能是积极的,但始终存在严重出错的风险——例如,如果让人变得更聪明的努力同时也让他们变得不稳定或更渴望权力。此外,还有“上传”或“全脑仿真”的问题,即在软件中实例化的数字人类心智,它们有朝一日可能帮助人类超越其生理限制,但同时也伴随着我深感不安的风险。
人工智能以一种不健康的方式改变人类生活。一个拥有数十亿在各方面都比人类聪明得多的智能体的世界,将是一个非常怪异的人类生活世界。即使人工智能不主动攻击人类(第1节),也不被国家用于压迫或控制(第3节),在达到这之前,已经有很多事情可能出错,仅仅通过正常的商业动机和名义上自愿的交易就能实现。我们在关于人工智能导致精神病、人工智能驱使人自杀的担忧中,以及关于与人工智能建立浪漫关系的担忧中,已经看到了早期的迹象。举个例子,强大的人工智能能否发明某种新宗教,并让数百万人皈依?大多数人最终是否会以某种方式“沉迷”于与人工智能的互动?人们是否会被人工智能系统“操纵”,即人工智能基本上监视他们的一举一动,并随时告诉他们该做什么、该说什么,从而过上一个“美好”但缺乏自由或任何成就感的生活?如果我坐下来和《黑镜》的创作者一起头脑风暴,编造几十种这样的情景并不难。我认为这指出了改善Claude的《宪法》之类事情的重要性,其意义远远超过了防止第1节中问题所需的程度。确保人工智能模型真正把用户的长期利益放在心上,以一种有思想的人会认可的方式,而不是某种微妙的扭曲方式,这似乎是至关重要的。
人类目的。这一点与上一点相关,但它更多关注的是,在一个拥有强大 AI 的世界里,人类生活总体上会发生怎样的改变,而非人类与 AI 系统之间的具体互动。在这样的世界里,人类还能找到自己的目的和意义吗?我认为这是一个态度问题:正如我在《Machines of Loving Grace》中所说,我认为人类的目的并不取决于在某件事上成为世界上最好的,人类可以通过自己喜欢的故事和项目,在很长的时间跨度里找到意义。我们只需要打破经济价值与自我价值和意义之间的关联。但这是一个社会必须经历的转型,而我们始终面临着处理不当的风险。
对于所有这些潜在问题,我的希望是:在一个拥有强大的、我们信赖它不会伤害我们、不是压迫性政府工具、并且真正为我们谋利的 AI 的世界里,我们可以借助 AI 本身来预见并预防这些问题。但这并非板上钉钉——和所有其他风险一样,这也是我们必须谨慎处理的事情。
人类的考验
阅读这篇文章可能会让人感觉我们正身处一个令人望而生畏的处境。我在写作时也确实感到惴惴不安,这与《Machines of Loving Grace》形成鲜明对比——那篇文章感觉像是为我脑海中回响多年的、无比美妙的音乐赋予了形式和结构。而我们当下的处境确实有许多艰难之处。AI 从多个方向给人类带来威胁,不同危险之间存在着真实的张力,如果我们不能极其小心翼翼地走好这根钢丝,缓解某些危险就可能让其他危险变得更糟。
花时间精心构建AI系统,使其不会自主威胁人类,这与民主国家需要保持对威权国家的领先地位、不被其征服之间,存在着真正的矛盾。
但反过来,那些对抗专制政权所必需的AI赋能工具,如果使用过度,也可能转而向内,在我们的国家内部制造暴政。
AI驱动的恐怖主义可能通过滥用生物学手段导致数百万人死亡,但对这一风险的过度反应,也可能让我们走上专制监控国家的道路。
AI带来的劳动力与经济集中效应,本身固然是严重问题,还可能迫使我们不得不在公众愤怒甚至可能内乱的环境中去面对其他问题,而无法唤起我们人性中更善良的一面。
最重要的是,风险的数量之多——包括未知风险——以及同时应对所有风险的必要性,构成了一道令人生畏的难关,人类必须闯过去。
此外,过去几年应该已经表明,停止甚至大幅减缓这项技术的想法从根本上来说是站不住脚的。
构建强大AI系统的公式极其简单,几乎可以说它会从数据与原始计算的恰当组合中自发涌现。
它的出现可能早在人类发明晶体管的那一刻就已成必然,甚至可以说,当人类第一次学会控制火时就已经注定。
如果一家公司不构建它,其他公司也会以几乎同样的速度去做。
如果民主国家的所有公司通过相互协议或监管法令停止或放慢开发,那么威权国家只会继续推进。
鉴于这项技术巨大的经济和军事价值,再加上缺乏任何有意义的执行机制,我看不到我们有什么可能说服他们停下。
我确实看到一条在AI发展过程中实现适度节制、且与现实主义地缘政治观相容的道路。这条道路的核心在于:通过限制威权国家获取构建强大AI所需的资源——也就是芯片和半导体制造设备——从而将它们迈向强大AI的步伐延缓几年。这样一来,民主国家就获得了一个缓冲期,可以"拿来"用于更谨慎地构建强大AI,对其风险给予更多关注,同时仍然保持足够快的速度,以便稳妥地领先于威权国家。而在民主国家内部,AI公司之间的竞争则可以置于一个共同法律框架的庇护之下,通过行业标准与监管相结合的方式来处理。
Anthropic一直非常努力地推动这条道路,包括推动芯片出口管制和对AI进行审慎监管。然而,即便是这些看似常识性的提案,也基本上被美国的政策制定者拒绝了(而美国恰恰是最需要推行这些措施的国家)。AI能带来的金钱实在太多了——每年数以万亿美元计——以至于即便是最简单的措施,也难以克服AI行业内在的政治经济困局。这就是陷阱:AI如此强大,如此耀眼,以至于人类文明几乎无法对它施加任何约束。
我可以想象,正如萨根在《接触》中所写的那样,同样的故事在成千上万个世界上演。一个物种获得感知力,学会使用工具,开始技术的指数级攀升,面临工业化和核武器的危机——如果它挺过了这些,那么当它学会将沙子塑造成会思考的机器时,就将面临最艰难、也是最终的挑战。我们能否通过这场考验,进而建设出《温柔机器的爱》中所描绘的美好社会,还是陷入奴役与毁灭,将取决于我们作为一个物种的品格与决心,取决于我们的精神与灵魂。
尽管面临诸多障碍,我相信人类自身拥有通过这场考验的力量。 成千上万的研究者将自己的职业生涯奉献于帮助我们理解和引导 AI 模型,并塑造这些模型的性格与构成,这让我备受鼓舞和启发。 我认为,这些努力如今有很大可能及时结出有意义的果实。 至少有一些公司已表示,它们愿意承担可观的商业成本,以阻止其模型助长生物恐怖主义的威胁,这让我感到振奋。 少数勇敢的人顶住了当前的政治风向,通过了立法,为 AI 系统播下了理性护栏的第一批早期种子,这让我备受鼓舞。 公众理解 AI 存在风险并希望这些风险得到解决,这让我感到欣慰。 世界各地不屈不挠的自由精神,以及在任何地方抵抗暴政的决心,都让我充满信心。
但如果我们想要成功,就必须加倍努力。 第一步是让那些最接近这项技术的人如实告诉人类所处的真实处境——这也是我一直努力在做的事;在这篇文章中,我更加明确且紧迫地这样做了。 下一步将是让全世界的思想家、政策制定者、企业和公民相信,这一问题的紧迫性和极端重要性——与每天占据新闻头条的无数其他议题相比,它值得我们投入思考和政治资本。 随后,将需要勇气——需要足够多的人逆流而上,坚守原则,即便这会威胁到他们的经济利益和人身安全。
未来的日子将极其艰难,对我们的要求将超出我们自认为能够付出的限度。 但在我作为研究者、领导者和公民的生涯中,我目睹了足够的勇气和高尚,让我相信我们能够获胜——当被置于最黑暗的处境时,人类总有办法在看似最后一刻汇聚起赢得胜利所需的力量和智慧。 我们刻不容缓。
我要感谢 Erik Brynjolfsson、Ben Buchanan、Mariano-Florentino Cuéllar、Allan Dafoe、Kevin Esvelt、Nick Beckstead、Richard Fontaine、Jim McClave,以及 Anthropic 的众多员工,他们对本文的草稿提出了宝贵的意见。
脚注
这与我在《Machines of Loving Grace》中提出的观点是对称的——我一开始就说,不应将AI的积极意义视为某种救世预言,重要的是保持具体、扎实,避免浮夸。归根结底,无论是救世预言还是末日预言,对于面对真实世界都没有帮助,原因基本相同。
Anthropic的目标是在这样的变化中保持一致。当谈论AI风险在政治上有市场时,Anthropic谨慎地倡导对这些风险采取审慎且基于证据的态度。如今谈论AI风险在政治上不受欢迎,Anthropic依然谨慎地倡导对这些风险采取审慎且基于证据的态度。
随着时间的推移,我对AI的发展轨迹以及它在各方面超越人类能力的可能性越来越有信心,但仍旧存在一些不确定性。
芯片出口管制就是一个很好的例子。它们很简单,而且看起来基本上有效。
当然,寻找这样的证据必须在学术上保持诚实,这样它也同样可能发现不存在危险的证据。通过模型卡(model cards)和其他披露方式进行透明化,正是这样一种学术上诚实的尝试。
事实上,自从2024年写下《Machines of Loving Grace》以来,AI系统已经能够完成需要人类花费数小时才能完成的任务——METR近期评估显示,Opus 4.5能够以50%的可靠性完成大约相当于四个小时的人类工作量。
需要明确的是,即便从技术角度看,强大AI的出现仅需1到2年时间,其许多社会影响——无论是正面的还是负面的——可能还需要更长的时间才能显现。这就是为什么我可以同时认为:AI将在1到5年内颠覆50%的初级白领工作岗位,同时也认为我们可能在仅仅1到2年内就拥有比所有人都更强大的AI。
值得补充的是,公众(相较于政策制定者)似乎确实非常关心AI风险。我认为他们关注的部分内容是合理的(例如AI导致的工作岗位流失),而部分内容则被误导了(例如对AI用水量的担忧——这并不显著)。这种反弹让我看到围绕应对风险达成共识的可能性,但迄今为止,它尚未转化为政策变化,更不用说有效或精准的政策变化了。
当然,它们也可以操纵(或者干脆收买)大量的真实人类,让这些人在物理世界中按照它们的意愿行事。
我不认为这是一个稻草人论点:以我对 Yann LeCun 立场的理解,他确实持有这一观点。
例如,参见 Claude 4 系统卡的第 5.5.2 节(第 63–66 页)。
这个简单模型中还隐含着其他一些假设,我在此不展开讨论。总的来说,这些假设应该会让我们对「不良对齐的权力寻求」这一具体但简单的故事少一些担忧,但同时也可能让我们对某些尚未预料到的不可预测行为更加担忧。
《安德的游戏》描述了一个类似的场景,不过主角是人类而非 AI。
例如,模型可能会被要求不去做各种坏事,同时要服从人类,但随后它们可能会观察到,很多人类恰恰就在做那些坏事!目前尚不清楚这种矛盾会如何解决(一份设计良好的宪法应鼓励模型以优雅的方式处理这类矛盾),但这种类型的困境,与我们在测试中刻意让 AI 模型面对的所谓“人为”场景,其实相差并不大。