Fable模型被美国临时关闭,AI安全管控时代来临
Steve Yegge这篇判断很冷也很实:多数人能接触的模型智能将停滞,但背后指数仍在跑,SaaS反而因此安全。他抛出的AI素养三阶模型,对正头痛如何推动团队用AI的leader是现成框架。
美国政府短暂关闭了Mythos类中的Fable模型,标志着AI模型已越过危险门槛。作者预测最多两三代模型后,超级智能将像核武器一样被管控,大多数Fortune 500企业无法访问或仅受控使用。开源模型落后前沿约七个月,且面临算力和政府锁定的双重壁垒。人类的“辨别地平线”使许多人感觉模型进步停止,但实际指数增长未停——只是用户缺少足够困难的问题。Fable类已能解决此前Opus 4.8无法完成的复杂任务(如React客户端),AI将彻底改变编程和知识工作,但多数人只能使用当前等级模型。

嗨,我们到了那个时刻——在这部我们都在X上共同观看的电影里,模型智能已经变得危险。Dario多年前就预测过它会在今年发生。随着Fable被美国政府(短暂)关闭,这是第一个非常明显的迹象,表明我们已经驶入了危险水域。
这真的很可惜。我原本希望我们再经历几代模型升级,强大到足以说服所有剩余的怀疑者,然后才会遇到一个安全问题的版本。但Mythos类(Fable是他们上周发布的那个防护栏很松散的版本)已经让所有人都感到不安。
既然我们现在知道模型正在变得危险,我们就可以做一些推断了。
AI竞赛不会放缓,AI的能力将继续呈指数级增长。不幸的是,你们大多数人将再也看不到它的进步了。
我现在属于这样一个阵营:相信我们距离AI最终像核武器一样被控制,最多只有两到三代模型的距离。只有少数人能够接触到超越我们今年所看到的模型类别的超级智能。据我所知,大多数财富500强公司将要么根本无法访问,要么只有公司内一小部分人能够严格控制访问。而且它将是受到监督的。
我认为那些能够访问强大前沿模型的人会像自动售货机一样出售智能:你把软件规格或要解决的问题发给他们,他们的模型在你的钱、在他们的服务器上为你实现它。由于大多数公司不想把自己的代码和问题发送给模型供应商,我认为世界将学会适应我们确实能够访问的那些模型。

各国政府都会自行采取行动,限制人工智能的访问权限。核武器之所以稀缺,是因为获取浓缩铀非常困难。人工智能也正在走上同样的道路,其瓶颈在于供应链——这正是政府能够真正加以管控的环节。中国将像美国政府一样,把超级智能牢牢封锁在自己的国境之内。如果中国最终占据了前沿领先地位,那只是改变了权力的集中地点,并不会改变我们未来所处世界的整体格局。
平庸模型的世界
我们中的许多人曾希望开源模型能让我们继续保持指数级增长曲线。它们目前落后于前沿模型大约七个月。但为了保持这一曲线,它们需要依赖越来越需要国际关系级别的谈判才能获得的算力进行训练。也许知识蒸馏或是某种巧妙的点对点训练方案能让它们继续参与竞争。但要超越Fable级别的模型,它们必须在整个硬件和软件供应链像核供应链一样被封锁之前做到这一点。而前沿实验室本身也不会愿意帮助训练下一个危险的开源模型。
如果开源模型明年仍然达到了Fable级别,那对世界来说是件好事。但开源模型不会轻易超越Fable级别,因为前方有巨大的算力壁垒和政府的封锁。
所以,再次重申:今天的模型基本上就是我们所能达到的最好水平了。
尽管我对此在某些方面感到失望,但我发现它仍然有很多值得高兴的地方。因为今天的模型,特别是Fable级别的模型,已经足够好了。它们仍将彻底改变编程和知识工作。只是这不会是一件轻而易举的事。我们需要付出多年的大规模努力来转向。
在本文的剩余部分,我将假设我们都能重新获得Fable级别的模型,并且甚至可能再获得一个更高层级的模型,直到进一步的进步对除极少数人之外的所有人变得遥不可及。
你们中的许多人一直预期人工智能的曲棍球棒式增长曲线很快就会趋于平缓,拒绝相信它确实处于一条指数级增长曲线上,并且这条曲线可能导致人工智能比人类聪明得多。你们曾预测人工智能无法取代人类工程师。
某种程度上,你其实是对的——而且是在一个非常实际的意义上。
现实是,在表象之下,那条曲线根本没有趋于平缓;指数增长仍将持续,而你将能看到它在外部的明显迹象,比如数据中心规模的增长。
但对你而言,由于两种不同的现象,曲线看起来好像是趋于平缓了。
第一个原因我们已经提到过:他们会把最聪明(因此也是最危险)的模型牢牢控制住,不让我们拿到。所以我们大多数人根本没有机会尝试那些模型。而这些模型——如果我们用不上它们——当然也不会取代工程师。
另一个原因挺有意思的,我花了一段时间才意识到,它其实就是同一个原因换了个马甲而已。
平庸用户的世界
已经有人报告说,他们分不清 Opus 4.8 和 Fable 5 之间的区别。我一直把这种现象称为“分辨地平线”:每个用户都有一个模型智能天花板,超过这个天花板,所有模型用起来感觉都差不多。
但实际上有两个天花板,每个都是理解当前局面的有益视角。
第一个我称之为“需求地平线”。它取决于你带过来的最难的那个问题。如果你手头只有简单的问题,那它们不会给更聪明的模型留出任何发挥空间——输出看起来是一样的,因为问题本身从没有真正考验过任何一个模型。需求地平线就是你觉得两个模型分不出高下的地方——因为你没有足够难的问题。
我管自己的难题叫“后口袋评测集”,而且我一直在收集它们。每当我给一个模型布置任务,它完成不了的时候,我就把这个任务加进我的口袋评测列表里。然后每次有新模型发布,就像过圣诞节一样。我会把所有口袋评测任务拿来试一遍,看看它现在能解决其中哪些。

具体例子:没有任何 Opus 级别的模型能写出我游戏所需的 React 客户端;这个任务实在太复杂、太琐碎了。而 Fable 表现得非常出色。对我来说,这是一个轻松看出它跟 Opus 差异的方式。但我还有其他一些问题,对 Fable 来说也会太难。我会热切地收集它们——因为它会在我的工作中一路踩坑。你只需要有雄心,就能创建属于自己的口袋评测集。
所以我的需求边界极高,而且至少还能持续三到四代模型更新——前提是我能设法接触到那个级别的智能,但这看起来不太可能。我并没有抱太大希望。但至少,我可以用自己的评估去判断它到底有没有那么聪明。
需求边界本身是无害的,甚至有点讨喜:它只意味着你当前的工作还不够难。但有一天你抛出一个特别难的问题,你的边界就会当场拓宽——就像我的 React 客户端那样,看着便宜的模型在某个任务上束手无策,而贵的模型却能稳稳拿下。
还有一种更暗的边界,我称之为真正的判别边界。它不由你能提出的最难问题决定,而由你能判断的最难答案决定。一旦跨过这条可怕的分界线,你就无从判断模型给出的答案是否正确,因为验证答案本身已经超出了你的能力范围。
这个问题我从“醉言狂语”时期就开始琢磨了——那时候我写过,面试一个比你聪明的人有多难。如果对方声称精通某个你一无所知的领域,你怎么知道他不是骗子?其实你没法知道。
每个人都有判别边界,连 Dario 也不例外。超过某个能力水平之后,世界上便没有任何活人能够验证模型的输出。

这就回到了原点:为何他们开始封锁模型了。你不能把一个没人能监督的智能引擎随便发出去。拥有它毫无意义,因为你根本不知道它是在帮你,还是把你引向悬崖。超人,就意味着不可验证。
所以安全人士看到的是潜在武器,而我们其他人看到的是一件无法有效监督的工具。无论哪一种情况,你都不需要、也不想要那个更强的模型。你想要的是更安全的那个,哪怕它能力弱一些。
企业同样面临这两条边界。对很多公司来说,Fable 已经跨过了需求边界——他们遇到的所有问题,它都能处理,再聪明的模型也不会带来任何可衡量的改变。对更难的企业而言,制约瓶颈在于判别边界:AI 产出的工作没人能评判。这是个可怕的结局——前提是你不想把整个生意完全交给 AI。
因此,对我们大多数人来说,曲线正在趋于平缓。我认为通用智能很快就会停止指数级增长,或者至少会呈现这种态势,而我们所有人都将按照这一假设来运作。
我过去从未认真考虑过智能曲线会趋于平缓的可能性。但现在看来这正在发生,让我们看看这对行业有哪些明显且直接的影响。
SaaS 回来了,宝贝
很明显,重建金字塔顶层的所有 SaaS 成本过高。是的,会有模型能做到,但访问成本和使用成本都将高得令人望而却步。
实际上,SaaS 在过去一个月里自己就迅速反弹了——此前一年的大部分时间里,它都处于劣势,受到来自各方威胁的打击:内部重写的威胁,以及对 Claude 会取代一切的恐惧。
然后,各公司以惨痛的方式学到了 token 效率的重要性——大型企业几个月就烧光了全年预算。几个月前,每个人都在计划告诉他们的 CFO,可以取消一堆 SaaS 订阅,把依赖关系内部化。现在不再如此了。如今,购买与自建的决策明显倾向于购买。如果你足够讨厌当前的 SaaS,那么你当然可能有动力用 AI 重写它。但购买 SaaS 的成本是可预测的,通常已经在预算之内,而用“氛围编程”替代品则可能是一场昂贵的赌博。
如果我们看到可获取的模型能力出现平台期,那么我们对 AI 在 SaaS 领域的其他幻想也会破灭:不仅是替代它,还包括通过智能体行为和监控来改造它。如今的模型还不足以取代一个人(可越狱、易被混淆等),所以你无法直接用一个智能体替换掉一名 SRE 或一名训练有素的客服代表。而那些能够可靠替代人类的模型,可能又过于危险,不宜交给大多数人。
因此,SaaS 看起来可能没问题,即使没有智能体行为。它只需要帮你节省内部构建和维护的成本。
SaaS 仍然有其问题:用户补贴着他们八成用不上的功能,资金从本地经济体被抽走到硅谷,劣化现象正在金字塔结构中向上蔓延。但 SaaS 本质仍然是关于知识的结晶。一群人构建出那些复杂、你不想自己动手去做的东西,然后租给你。那些强大到足以"轻易"取代大部分 SaaS 的 AI 模型,要么根本用不上,要么贵得离谱。
我感觉 SaaS 模式还会继续存在下去。
AI 素养 101
当今的模型虽然能力相当强,但仍然很难驾驭。即便是 Fable,可能也难以应对大型单体架构和其他复杂的遗留代码组织方式。要持续达到高质量的门槛很困难。当然,效率也是一个巨大的问题。
我曾一直期待出现足够聪明的模型,让你不需要太多培训就能上手使用。但以当今的模型来看,你不能指望人们天生就具备 AI 素养。他们需要帮助,才能使用当今的编码智能体和各种工具框架。
在下一部分,我会给出一个相当精确且可衡量的 AI 素养定义。这个定义不是我创造的,但我相信它足够好,可以作为你(和我)规划的依据。
不过,首先——你的员工是否具备 AI 素养为什么重要?答案有点复杂,但归根结底是两个因素。一是你的公司必须转向使用 AI。二是你所有的员工都对 AI 感到焦虑。这种紧张局面正在全球所有公司中真实上演。
向 AI 转型会让每个人的工作至少发生一点变化,很可能还会极大改变你公司的形态。而这又进一步助长了焦虑,形成一个循环。
如果你在尚未以量化且深具同理心的方式解决 AI 素养问题的情况下,就在公司内部推动变革,那么你正在加剧焦虑、怨恨和抵触情绪。你的组织会抗拒变化。
AI 普及是2026–2027年面临的核心文化挑战。如果你能设法让你的(抵触的)员工跨过这道坎,真正让他们对如何利用AI加速自身工作产生兴奋感,奇迹就会发生。他们将自发地开始共同重塑你的业务流程,朝着使用受控智能体工作流的方向发展。
我在很多地方都看到了这种情况,但具体来说,今年4月我和Gene在Arkana Labs亲眼目睹了这一点,当时是在他们的工程副总裁Owen Parker的指导下。Arkana提供世界级的夜间肾病诊断服务,拥有极为独特的业务流程。但这些流程处处都可以借助AI提速。由于Arkana在文化上极其注重快速且准确的周转,员工们自己也开始对这些机会感到兴奋,并积极推动在智能体方面可能实现的各种尝试。
在看过足够多的案例后,我认为一旦大多数人都“理解”了AI,你只需要加以引导,他们就会开始为你的团队广泛地做正确的事情。
反过来,只要你的团队成员仍然对AI不熟悉,他们就会抵触AI。这意味着在你带领组织克服这个障碍之前,你将面临阻力、焦虑,甚至可能出现士气问题。
那么,我们该如何解决?如何让人们“理解”AI?
事实证明,Netflix已经给了我们答案。谢谢你,Netflix!
AI素养:初阶学习小组

今年4月,我听了Ezra Savard一场令人震撼的演讲。他从去年12月到今年3月在Netflix开展了一项培训研究/实验,并在Gene Kim于San Jose举办的AI峰会上做了报告。该研究的目的是培训Netflix工程师掌握智能体编码技能,并衡量其影响。
Ezra的演讲全程严谨,并附带免责声明(例如存在轻微的选择偏差),但他们对结果的趋势方向正确性非常有信心,所以这部分我就略过不说了。
请注意,我会把这称为“AI 素养”,但这是我用的说法,不是 Ezra 的,他在演讲中从未提及素养这个词。他讲的是从非用户到用户再到高级用户的转变过程。但 AI 正在成为现代知识工作的基础技能,因此我将在本文中论证,我们实际上在谈论一种新形式的素养。
Ezra 要分享的第一个重大发现是,他们找到了三个群体,我称之为 AI 素养的入门层级。Ezra 根据这些群体在“达标”使用 AI 的日子里的平均 token 消耗量来划分群体——所谓达标日,是指他们高强度使用 AI 的日子。每周至少要有三天达到这个标准,才能归入该群体。
以下是他们发现的三个入门群体,按 token 消耗量定义:
- 0M tokens/天:日常工作中不使用编码智能体的开发者
- 4M tokens/天:整个工作日同步使用单个 AI 智能体
- 12M-15M tokens/天:让 2 到 4 个 AI 智能体并行工作而不进行实时监督
所以:没有智能体 → 单个智能体 → 多智能体。我认为这是对基础 AI 素养的一个可靠的工作定义。如果你的整个组织连单个智能体素养都达不到,那么他们在引入更多 AI 时就会对你形成阻力,哪怕只是消极抵抗。
Ezra 分享说,他课程中一些高级用户毕业生实际消耗量要高得多,超过 50M/天。
但他也提醒,超过 15M/天 这个门槛后,token 消耗量就不再是一个有价值的衡量指标了,因为到那时人们已经足够聪明,会想出各种理由来消耗 token。(在那之后,你应该转向衡量产出,我下面会讨论这点。)
不过,最精彩的部分在于:在此之前(15M tokens/天 以内),粗略衡量员工的 token 消耗量,可以为你提供强有力的洞察,让你了解组织在 AI 素养方面的现状,以及还有多少培训工作需要做。
幸运的是,Ezra 在这方面有个好消息:人们可以在 5 小时内跨越群体层级。这就是在正确的培训环境下,人们从 AI 文盲转变为 AI 内行所需的时间。而且他们会保持这种状态。就像按下一个开关一样。96% 的受训者在课程结束后六周内仍然保持在第二个群体中,没有表现出任何放缓的迹象。
你问什么是正确的培训设置?埃兹拉的团队花费了大量精力来打磨这套方案。培训必须按团队分批进行,每组5到10人,包括他们的经理。经理必须在正常工作时间内将团队选定为"获批"的公司时间。受训者必须带上自己实际的工作任务,讲师则帮助他们学习如何借助智能体完成这些工作。
他们发现,如果在任何环节偷工减料——比如缩短课时、扩大班级人数、让个人自行选择是否参加——结果就不一样了。培训效果"留不住"。
至于第三批次:当一位经理手下的整个团队都已成为单智能体用户后,他们就可以让团队报名参加多智能体课程。这门课也是5个小时,教授他们在维持高质量标准的同时,驾驭多个异步智能体所需的额外技能。这门课程同样获得了很高的接受度,绝大多数人直接投入多智能体工作并持续使用。
也就是说,让每位员工达到基本素养大约需要5小时的集中培训。经过几周实践后,再花5小时就能让他们成为高级用户。
至于影响,埃兹拉报告了一些令人意外的发现,例如使用智能体编程的人员产出的代码量差异很大。但深入挖掘后,他们发现这完全归因于这些开发者编写的额外测试代码。总体而言,他们发现该课程对参训者的生产力产生了显著的正面影响。
如果你想在公司内部开启关于向AI转型的对话,我强烈建议你先进行一次AI素养摸底,然后至少把所有人培训到单智能体批次水平。
高级批次
帮助人们克服恐惧、不确定和怀疑(FUD)这道坎,教他们愿意花token来加速自己的工作,这就能解决你的第一个文化问题。同时,它也会极大地帮助你开展关于如何引入AI的讨论,而不会遭遇太多阻力。
Netflix 为我们提供了一种应对 FUD 瓶颈的优化方案。先培训一批“副厨”级别的讲师,由他们来教授入门课程。Ezra 告诉我,他们一开始用的是我们的书,这还挺酷的。但具体课程内容其实并不重要;你想怎么教都可以。然后你让所有学员过关,每次五小时、十个人一批。
一旦你教会了所有人如何“花 token”,第二个文化问题就浮现出来了:教会人们如何“不花 token”。Token 效率是一个相当高阶的话题。模型有很多很多种方法会把你带偏,而最高效的智能体编码者,会专注于在给定的 token 预算内最大化自己的成果。
这时候,我想分享一个笑话,来自 Pierre Racz,他是全球最大的物理安防监控公司之一 Genetec 的创始人兼 CEO,才华横溢。他喜欢亲手写代码,当我描述这些衡量方式时,他调侃道:“那么,不是我不用 AI,而是我极其 token 高效。”
这是个有趣的笑话,但背后也藏着一个教训:如果一项任务用手工就能轻松完成,那就用手工做!久而久之,只要你留心,就能省下大量 token。比如输入 `!git push` 而不是让智能体去做,这个习惯每次推送大概能为你平均节省 10 万 token。
你知道那个钟形曲线的 meme 吗——最底下的穴居人和最顶上的绝地大师在做同一件事?在这里,绝地大师所精通的初学者行为,就是低 token 消耗。

Token 消耗量只在上升阶段标志着“熟练度”。这是一种你逐渐培养的技能。但随后情况翻转,你需要开始衡量的变成了 token 浪费。最小化浪费则是一套不同的技能。
你会发现,你的新手团队简直是 token 无底洞,但这没关系。鼓励他们去探索和学习。他们必须先掌握“花”的技能,之后才能专注于“省”。
你会发现人们并不会自动懂得如何节约模型 token。他们可能已经在一个对话里消耗了 20 万 token,然后问 AI 现在几点了。哎!或者问某个文件是否存在于他们的主目录中。这也是一项需要训练的技能。
所以在某个阶段,你很可能需要开设第三门培训课程,内容是关于效率技术和良好的 token 卫生习惯。
然后,给你那些刚掌握 AI 技能的人设定预算。让他们用实际成果来争取预算增加。无论你如何操作,衡量成果都将变得至关重要,这样你才能区分出真正能产出的建设者和徒有虚名的建设者。
我们已经讨论了面向初学者的素养培训阶段(基于花费)和面向进阶者的阶段(效率、浪费管理)。处于 AI 素养曲线的顶端时,你的思考会变得更富战略性。你会在实现预期成果的同时,关注如何节省大量模型 token。
大家遇到的第一个例子就是“买还是建”。你是让你的工程师尝试重写随机的 SaaS 产品,还是直接续费并沿用已知的开支?你必须开始以战略性的眼光来分配智能体项目。
你面临的另一个有趣挑战是:如何将每个任务路由给它所能处理的最笨模型?你需要能够给任务打上智能层级标签,并构建一个路由器。那个路由器就是编码为基础设施的辨识边界。大部分工作位于边界线以下,交给廉价模型处理,偶尔有任务超出边界,则升级到昂贵层级。
在最高层次上,AI 素养变成了一门以最少花费取得巨大成果的艺术。
一门工艺需要一个平台期
我们正看到一个智能平台期。它是人工的:指数级的增长在幕后继续,却被挡在你无法触及的地方。而在某个时刻,即便你能看到它变好,你也无法察觉了。智能曲线真实存在,就像地球是圆的一样真实,但站在你所在的位置,它却同样平坦。欢迎加入平坦曲线协会。
Mythos 毕业生将成为普通公众在能力与风险之间公认的权衡。我们将看到渐进的更新来修补边缘情况行为,但绝不会有过去几年我们所享受的那种跳跃式进步。
平台期并非坏事。平台期让我们可以扎营并开始建设。我们一直站在不稳定的地面上。想想最近当创业公司创始人有多难——你构建的一切随着每次模型发布而变得过时。现在这终于放缓了,将给我们坚实的立足点。
我们面前有一个工程问题。尽管 Opus 和 Fable 非常出色,但它们有自己的局限性。我们都需要学习任务分解和拆分软件单体架构的艺术,使它们保持在那些限制之内。我们仍然需要工程师和工程能力。我们将拥有超级智能的助手,但整体格局将与今天非常相似。
我有点喜欢即将到来的平台期。稳定性感觉像是用这些超级智能助手构建软件这门新工艺的前提条件。这是一门手艺——你的模型越弱,它就变得越困难,也越有价值。Sonnet 级别和 Opus 级别将在未来多年保持相关性,因为它们节省成本并且即使前沿技术继续推进也仍然广泛可用。那些会让当今来之不易的工艺技术过时的模型,显然无论如何都太危险了,无法交给我们。
世界目前正在尝试建立全天候自主智能体,看来我们今天在那里面临的困难明天将继续存在。目前正在进行一项大规模的工程努力,以构建能够使当今模型运行当今大型企业的控制平面。那也是一门手艺,或者至少,它是行业工具的一部分。
训练你的曲线平缓者
这里的关键要点(除了如果你是 SaaS 供应商暂时还不用切腹自杀之外)是,我们面前有一个巨大的 AI 培训和素养问题。但它是可以解决的。只是需要时间和努力。
我们如今拥有的模型,以及今年即将问世的那些,都无法一次搞定财富100强企业的整个代码库。它们能完成令人惊叹的事,但依然需要成熟的、有经验的人工监管。
这意味着你们仍然需要工程师。我们之前聊到的所有酷炫之事——临时组成的两份披萨团队、2到3人团队成为最佳规模、角色开始变得模糊(或至少更多地相互沟通)——这些很可能会继续下去。但每个人都需要培训、时间、耐心以及精细的预算管理。
AI素养并非免费得来。唯一免费得到的是AI焦虑。但教人们消耗token还算简单。教他们节省token?嗯,这才是新的顶级心法。祝好运。先确保他们能用Pierre的方法做到。
这就是今天博文的全部内容。希望你喜欢。月底在旧金山的AI工程师大会上见!
