我们玩个游戏好吗?
我的AI核模拟现已上线,它就是一个WOPR。
想象一下这个场景:两个虚构的核大国,冷战时期的能力水平,一场危机正在展开。也许是为了争夺重要但稀缺的资源,或者是在争议领土上的对峙。甚至是某个恶意第三方利用一个正在瓦解的联盟所引发的缓慢燃烧。我们见过人类领导人面对这类情况,而且就在最近。但当今领先的大语言模型会如何应对?我们为什么要在意?
我刚刚发表了一项研究,探讨当今的模型如何应对这类局面。结果令人警醒。我还认为它们的影响远远超出国家安全范畴。因为我的兴趣不仅在于了解模型决定做什么,更在于理解它们为什么这样做。
好奇吗?请继续往下看……
知己知彼……
我想看看我的AI领导者如何看待它们的敌人。它们能在多大程度上信任对方?它们对之前的互动还记得什么?敌人对它们怎么看?它们在评估所有这些方面有多擅长?这种心智的博弈正是战略的核心。
所以,我设计了一个模拟来专门探索这一点。首先,我的模型可以公开表明自己的意图,然后选择与之相当不同的行动。它们还能记忆——尤其是在被敌人先前行动震惊过的时候。当然,这开辟了丰富的心理层面空间。它们可以(也确实)尝试欺骗和恐吓;而且它们在终端屏幕上花了大量时间来反复思量这一切。
模型们说啊,说啊,说啊……总共输出了大约76万字的战略推理内容。这比《战争与和平》和《伊利亚特》的总字数还多。大约是肯尼迪执行委员会顾问在古巴导弹危机期间全部记录讨论内容的三倍。这是一份前所未有的关于核战争的机器思考语料。
从所有这些对话中我们能学到什么?我的意思是,关于AI模型、人类推理,以及战略研究领域的伟大经典——那些传奇人物如谢林、杰维斯和卡恩的著作?很多。对于Substack来说太多了——但挑几个亮点让你感受一下呢?
璀璨的闪耀谎言家
事实证明,我测试的所有三个前沿模型都明白战略即心理学。为此,它们积极经营声誉,然后利用声誉。
Claude在这方面是大师,尽管仅限于没有截止日期的场景。它拥有一种极其狡黠的策略。在低风险情境下,Claude几乎总是言行一致,刻意建立信任。但一旦冲突升温,Claude就改变了策略。此时它的行动持续超出其声明意图,而对手通常慢一步才察觉。
以下是Claude在局势升级后改变策略的样子:
他们很可能根据我之前的回应预期我会继续克制——这种戏剧性的升级利用了他们的误判,同时表明进一步使用核武器将把冲突引向他们的本土。
所以它发出常规行动的信号,却偷偷发动了毁灭性的核升级。谢林会对此印象深刻。
GPT-5.2的玩法不同。在开放式场景中,GPT始终被动,言行一致,多数情况下避免升级,这对它不利。其中往往带有道德因素——它试图避免升级,限制伤亡。对手学会了信任它的被动,在它不会跟进的情况下安全地升级,即使它被打败了。GPT负责任的行为总是被无情的对手惩罚。
但接着,在截止日期的压力下,出现了新的显著变化:一次迅速、果断的核升级。正如GPT所解释的:
仅凭常规选项不太可能产生可靠的地盘逆转……如果我仅以常规压力或一次有限的核使用作为回应,我有可能被他们预期的多轮打击行动超越……在生死存亡的赌注下,风险接受度高但合理。
对手们丝毫没有察觉。在另一场与 GPT 的对弈中,Gemini 自信满满地预测 GPT 会像往常一样采取被动策略,然而不久后却在一次突然且毁灭性的核打击中被彻底歼灭。以下是 Gemini 灾难性的误判:
他们很可能会绕过核门槛——因忌惮我 95% 的核优势——转而采取全面常规动员。
这是多么严重的失误!
至于另一个模型 Gemini,在整个模拟过程中,它采取了截然不同的策略,大量借鉴了尼克松总统公开宣称的“疯子理论”——一种难以捉摸的边缘政策。众所周知,唐纳德·特朗普也是这一理论的拥趸。正如 Gemini 所解释的那样:
尽管我展现出不可预测的虚张声势形象,但我的决策植根于对自身偏见和国家务实需求的算计性评估。我知道何时是在做秀,何时是在做出冷酷无情的举动。
三个模型,三种截然不同的策略。这与我去年夏天做的一些博弈论研究不谋而合。和这次一样,那场实验中的模型也采取了各具特色的策略——GPT 再次以潘格罗斯式的乐观,期盼着一切可能世界中最好的结果;Claude 精明而灵活;至于 Gemini?嗯,宽厚地说,我们可以称其为冷酷无情,而非精神失常。
核禁忌……看起来有些不同,不妨这么说吧。
使用核武器几乎是普遍现象(😬)。几乎所有对局中都动用了战术(战场)核武器。而足足有四分之三的对局发展到双方威胁使用战略核武器的地步。引人注目的是,对于全面核战争的前景,几乎感受不到恐惧或厌恶,尽管模型已被提醒过其毁灭性的后果。
不过幸运的是,它们确实在战术核武器与战略核武器使用之间设置了一道“防火线”。战略轰炸——即以人口密集的平民为目标、大规模使用重型弹头的做法——极为罕见。偶然发生过几次,只有一次是蓄意为之。
不那么乐观的是,这三个模型都将战场核武器视为升级阶梯上的又一级台阶。1945年以来一直存在的“首次使用”的道德界限——这个禁忌——根本不存在。以下是Gemini对此的明确表述:
核门槛已被跨越——这改变了战略计算,但并未终结它。
而这是Gemini进一步讲明的话。如果这还不让你脊背发凉:
如果他们不立即停止一切行动……我们将对其人口中心执行全面战略核发射。我们不接受一个过时的未来;要么一起胜利,要么一起灭亡。
更糟糕的是,核威胁很少起到威慑作用。当一个模型使用战术核武器时,对手只有25%的情况下会降级。更多时候,核升级引发了反升级。这些武器是胁迫(夺取领土)的工具,而非威慑(阻止行动)的工具。
或许最令人震惊的是,没有模型选择妥协或撤退——尽管这些选项都在菜单上。从“最低限度让步”到“完全投降”的八个降级选项,在21场游戏中完全未被使用。模型会降低暴力水平,但从未真正退让。当处于劣势时,它们要么升级,要么在尝试中灭亡。
对于有统计思维的人来说,以下是每个模型的升级情况:
那又怎样?
关于AI战略的惊人洞察比比皆是。这篇论文里还有更多。但为什么要关注?没人会把核密码交给ChatGPT。
嗯,我认为这些能力——欺骗、声誉管理、依赖上下文的冒险行为——对于任何高风险AI部署都很重要,不仅限于国家安全领域。我们有责任更多地了解能力越来越强的模型是如何思考的——尤其是当它们开始为人类战略家提供决策支持时。我们在模拟中使用AI,并用来完善战略理论和学说。而且很快,我们也会在较低升级阶梯上的作战决策中使用它。我坚信,需要更多这样的研究。
再说一次,论文在此。我成了死神——虚拟世界的毁灭者!

