下一个重大突破:AI在工作中学习
阅读原文· dwarkesh.comRLVR 范式能否通向 AGI?Dwarkesh 指出关键瓶颈在于样本效率和 grindability,他提出的 OPSD 和 dreaming 方案重新定义了「学习中」的边界,虽然离落地尚远,但值得每一个关心 AI 下一步的人细读。
AI实验室的研究赌注是:在数千个多样化RL环境中训练模型完成数百万可验证任务,就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一,但训练成本是一次性的,可摊销到数十亿次用户会话中;真正重要的是模型在单个会话内的智能和样本效率,而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长,就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储,未来可能实现任意大的上下文窗口。论文还指出,一个领域不仅需要可验证性,还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。
Dwarkesh 播客
订阅 登录
播放速度
1×
字幕
英语
分享帖子
从当前位置分享帖子
他们认为,如果我们训练 AI 去
完成数百万个可验证的任务
从 0:00 开始分享
/
文字记录
发言人 1
所以,这就是所有实验室都在押注的重大研究方向。他们认为,如果我们训练 AI 在数千个不同的强化学习环境中完成数百万个可验证的任务,那么我们基本上就构建出了 AGI。因为这种训练将会创造出一种能够解决问题的智能体,
一种能够在面对错误、失误和模糊情况时,持续数周在开放式任务上取得进展的东西。而对这一愿景持乐观态度的人会说,我们当前训练范式所谈论的所有根本性缺陷,例如
这些模型的数据效率低下,或者它们缺乏持续学习能力,这些问题只要我们把训练规模进一步扩大,就可以被直接碾平。就像自然语言处理领域的所有基础研究问题,在向大语言模型投入足够多的算力后都迎刃而解一样。所以在上一篇文章中,
我谈到这些模型的样本效率只有人类的一百万分之一。而那些支持当前训练范式的人会说,没错,这可能属实,但这种情况只存在于训练阶段。而训练是一次性成本,可以分摊到模型所经历的数十亿次会话中。
真正重要的是模型在单次会话中有多智能、多通用、多高的样本效率。而随着我们进行更多的 RL 训练,这一点显然在持续改善。AI 智能体能够解决越来越有挑战性的问题,持续的时间跨度也越来越长。
116
31
7
下一个重大突破将来自 AI 在工作中学习
实验室正在扔掉最有价值的数据。
Dwarkesh Patel
2026 年 6 月 26 日
116
31
7
文字记录
目前各大实验室押注的一个重大研究方向是:如果我们训练 AI 在数千种不同的强化学习环境中完成数百万个可验证的任务,那么基本上我们就已经造出了 AGI。因为这样的训练会培养出通用的解决问题能力——比如如何面对数周之久的开放式任务,在错误、失误和模棱两可的情况下持续推进。
对这一愿景持乐观态度的人会认为,当前学习范式中被视为“根本性缺陷”的任何问题——例如数据效率低下以及缺乏持续学习能力——都可以通过扩大训练规模来碾压,就像自然语言处理中所有所谓的“根本性”研究问题,最终都被投入到大语言模型的海量计算中击溃了一样。
是的,这些模型在训练时的样本效率只有人类的百万分之一。但训练是一次性成本,可以分摊到数十亿次用户会话中。真正重要的是模型在单次会话中是否足够聪明、足够通用、样本效率是否够高——而随着我们进行更多强化学习训练,这一点显然在不断改善。AI 能够解决越来越雄心勃勃的问题,跨越越来越长的时间跨度——任何用这些模型写过代码的人都知道。
类似地,持续学习——定义为模型权重在部署过程中不断更新——可能根本就不是必需的。理由同样是:如果上下文学习能力在越来越长的范围内变得足够好,那就不需要将在线学习的心得蒸馏回权重中了。人们常说,自己的员工入职六个月甚至更久之后才能真正产出净价值,因此在线学习对于胜任工作是必需的。但如果你能把那六个月的经验全部塞进上下文窗口呢?Transformer 架构已经涌现了大量创新,极大地增加了可存储的上下文长度。再经过几年的进步,为什么我们不能拥有任意大的上下文窗口?
可研磨性(任务能否被分解并反复尝试)与可验证性同样重要。
为了探讨这个问题是否可行,我想先绕个弯子,问一个关于当前AI进展本质的问题——这个问题让我既困惑又感兴趣。为什么计算机使用方面的进展如此缓慢?
计算机使用显然是可验证的(想要的Etsy商品是否已下单、活动所需的企业服务是否已预订、税款是否已提交)。那么,计算机使用的进展比编程、数学以及其他可验证领域慢得多,这难道不奇怪吗?我相信这有很多原因,其中包括模型在预训练期间接触到的高质量多模态数据要少得多,以及视频会更快地消耗上下文窗口。[1]
但我认为有一个原因被严重低估了,它也揭示了AI进展之河只能缓慢冲刷的峡谷岩壁——那就是,一个领域仅仅可验证是不够的。它还必须非常"可磨炼"——也就是说,你可以针对一个确定性的、可重放的模拟器运行大量并行部署。如果你想提高模型在编程方面的能力,你可以创建一个环境,其中有一个软件仓库,里面有一些缺失的功能,你让AI去实现这些功能,然后你让一千个并行智能体各自拿着相同的容器副本投入问题中。[2]
但这在计算机使用中就行不通了——至少不那么简单。你不能让一千个智能体在Amazon.com上尝试相同的结账流程。因为安迪·贾西会发现并检测到你的机器人,然后把你封杀掉。
你可以通过制作Slack、Gmail以及其他所有常见应用和网站的克隆版来解决这个问题。但至少目前,这是一种非常劳动密集型且不可扩展的环境构建方式。当然,一旦AI在编程方面足够强大,能够自行高保真地构建这些克隆版,那么我相信计算机使用将取得巨大进展。而且这种过程还能一举两得,因为让AI从头重建整个复杂应用本身也是编程领域一个很好的强化学习目标。
不过,尽管计算机使用本身可能很快就能被攻克,但它目前这种迟缓的进展告诉我们:除非你能为某个领域构建一个高度可复现的训练目标,否则模型在取得进展上会非常吃力。这一点成立的根源,当然在于模型在训练过程中样本效率极其低下——这正是我上次独白中所指出的观点。
在计算机使用领域,我们或许可以通过构建这些可采样的确定性模拟器来弥补样本效率的不足。但对于AGI需要学习的诸多其他技能,我们根本无法做到这一点。
我们又该如何训练AI来创办一家企业呢?如何让AI在法庭上打赢官司?如何在日内交易中持续盈利?或者帮助候选人赢得选举?这些任务的展开需要与世界进行交互,无法简单地在数据中心内复现。而且,外循环验证可能需要数月甚至数年的真实世界行动才能触发反馈,你无法通过并行扰动模型数千次动作来隔离并观察模型到底做了什么才真正奏效。
处理这类无重置、非平稳的环境是强化学习中已知的开放问题。我并非在指陈什么新发现。但我确实想强调:由于现实世界绝大多数领域中的数据都具有独特性和稀疏性,要想变得精通,就必须依赖样本效率。
如果AI要发展出人类拥有的所有技能,甚至人类尚未拥有的技能,那么它们必须能够从真实世界交互中少量获取的、非结构化、不可验证且含混模糊的信息里进行学习。因为在许多领域,相关的训练信息根本不存在其他来源。
要打造一个像林登·约翰逊一样精于政治、或像埃隆·马斯克一样善于创建太空发射业务的AI,其强化学习环境究竟是什么?
仅靠RLVR能否实现泛化?
各大实验室正押注 RLVR 能泛化到所有其他领域。如果你在足够多的容器化、可复现环境中进行训练,就会开发出一个非常通用的智能体,它能够制定并执行计划、快速从新信息中学习,甚至在同一会话内掌握新技能。
如果你把这个经过无尽 RLVR 训练的 AI 扔进 1948 年的得克萨斯政坛,它比林登·约翰逊更能给你出主意,帮你赢得参议员席位;如果你在 2002 年给它一亿美元,让它放手一搏,它就能为你造出 SpaceX。
RLVR 能否泛化得那么好,是一个有待验证的经验性问题:如果实验室从花几十亿美元构建 RL 环境升级到花一万亿美元,你能否得到一个在上下文窗口内运行、完全通用且近似人类水平的智能?
达里奥在我们录播客时说了一句意味深长的话,我认为这暗示 RLVR 的泛化能力并非无限强大。他在解释为什么模型在长上下文场景下性能往往会下降时说:
训练时的上下文长度与部署时的上下文长度是不同的。如果你用小上下文长度训练,随后试图用长上下文长度部署,性能就可能出现退化。
也许我过度解读了,但他似乎是在说:短程的 RL 训练未必能泛化到长程的 RL 性能上。而如果我们连从短程到长程都无法泛化,那么智能体又怎能指望从大量白领任务训练中泛化出来,比如被扔进现实世界,像山姆·沃尔顿那样白手起家创办一家企业呢?
即使经过足够的上下文经验后,AI 能成为阿尔伯特·爱因斯坦和亨利·福特那样的人,但如果你无法将这些学到的知识回流到权重中,那一切都是短暂且浪费的。实验室大约 30-50% 的计算资源用于推理,而这些计算目前并没有在帮助改进模型方面产生任何实际成效。真是浪费!实际情况甚至比听起来更糟。因为只有在部署过程中,模型可以学习到的最有价值的信息才会显现出来(比如:我在被使用的组织中实际发生了什么?他们用我来做什么?我在现实世界中容易犯什么样的错误?)
我们有一个天才研究生,却从未被允许去实习。而我们不断以环境上的强化学习训练形式,给它提供越来越多的课堂案例研究。这既奇怪又浪费——我们不利用 AI 因在经济中广泛部署而可能积累的所有经验来训练它们,不让它们针对数以百万计的不同任务进行实践,也不让它们接触到大量隐性的组织和领域特定知识。
将学到的知识回流到权重中。
但这种持续学习需要回到权重本身。AI 不能仅仅通过不断累积一个随用户增多而不断膨胀的 KV 缓存来学习。这根本不可扩展,也不是人类的学习方式。我们的参数和激活值之间没有分离。我们的头骨外也不会随着一生中学到更多东西而伸出一大块快速权重表征。当我们学习东西时,显然存在某种压缩,这种压缩实际上有助于泛化和领悟。事实上,有些自闭症学者型人类能够在多年后回忆起随机的数字表格或毫无意义的音节——基本上就是模型在上下文中所拥有的信息保真度。而如此庞大的信息量会严重削弱这些人理解抽象概念和隐喻的能力。人类的持续学习更多是关于把正确的直觉和全局知识重新雕琢回权重之中,而不是把所有观察都挂在嘴边。
但一旦你将学习移入权重,就必须放弃上下文学习的那种样本效率。因为梯度更新的样本效率极低,所有成功上线的在线学习模型都不得不通过数百万用户来学习同一件事。例如,Cursor Tab 模型每日通过预测超过 4 亿次请求中的同一目标来进行在线学习(该目标即哪些编辑被接受了)。至少到目前为止,我们还没有看到模型能为不同用户在线学习不同的事情,因为虽然单个会话产生的数据可能足以让人类从中学习,但还不足以训练出一个能力更强的 AI。
当前的在线学习仅能适用于非常有限的使用场景。但持续学习的核心意义在于:世界极其复杂,每项工作、每家公司、每个问题都不尽相同,智能体需要能够学习与特定部署场景相关的具体信息——而这些信息根本无法塞进一次共享的训练运行中。比如:你所在组织中的各个部分如何运作与衔接、如何与基础设施及周围同事协作以推进某个更大项目、常见的故障模式有哪些,等等。
这恰恰是样本效率与持续学习在本质上紧密关联的问题所在。模型在“上岗”后能获取的数据相对很少,要从中学习就必须具备样本效率。模型可以通过上下文做到这一点,但由注意力机制动态构建的“快速权重”虽然实现了样本效率,却在内存扩展性上非常差。因此,我们需要架构上的创新来支持某种形式的中间表示。我之前谈到过,针对这类问题已经有很多不同的可行思路,从稀疏注意力到 KV 缓存压缩。在我看来,架构本身并非持续学习的根本瓶颈。
瓶颈或许在于损失函数。如何根据单次会话中学到的信息来更新权重(即改进模型本身)?即便从朴素的角度看,似乎也有很多应该可行的办法。最近很多人在讨论在线策略自我知识蒸馏。想进一步了解其原理,可以看看几周前 Sasha Rush 给我做的一次即兴黑板讲座。不过简单概括一下:这个思路鼓励基础模型在解决某个真实世界问题时,做出与经过长时间会话累积了全部上下文的模型相同的预测。这一过程的全部意义,在于将模型在一次会话中学到的内容蒸馏回权重本身。
这比 RLVR 好的原因有两点。第一,OPSD 不需要外部循环的可验证奖励。我们只需要一个能够在上下文窗口内学习正确内容的模型。只要具备这一点,我们就可以训练基础模型去匹配我们的资深教师模型——该模型已经在会话过程中积累了所有这些经验。第二,OPSD 提供的监督信号远比朴素 RL 密集——它不是将单个奖励投射到整个轨迹上,而是可以基于教师模型与学生模型之间每个 token 的概率差异进行训练[4]。
对于持续学习而言,OPSD 也优于监督微调。你可以想象,针对这种应用最朴素的 SFT 版本,就是训练基础模型去预测会话过程中观察到的所有 token。但这作为学习目标毫无意义——你提升工作能力的方式,并不是靠完美回忆每一天发生过的所有对话记录。相反,它依赖于整合那些真正有助于把工作做得更好的少量洞见和知识片段。
RL 训练不会出现这种失败模式,而且它非常善于将梯度更新集中在只对获得正确结果有贡献的部分上——这就是为什么 RL 的更新极其稀疏。这对于持续学习来说是非常重要的一项性质,因为当你在工作过程中学习时,你并不想覆盖并遗忘基础模型已经掌握的所有其他知识。
我几个月前写过一篇文章,认为 RL 每个样本学到的信息量远少于监督学习。但这可能是一件好事而非坏事——你只对模型进行绝对必要程度的改动以达到预期结果,不多一分。OPSD 保留了 RL 的这一特性:你不会像监督学习那样一股脑地射向教师分布,而只会提取那些在现实世界任务上实现相同结果所必需的知识。
做梦
因此,OPSD 是解决样本效率问题的一种方法:你可以获取这些稀缺的真实世界经验,并将所有信号压缩到一个微小且精准的更新中。但还有另一种更具推测性的想法。我们暂且称之为“做梦”。如果 AI 能够构建一个良好的现实模拟环境,用以演练新技能,或尝试不同策略并强化有效方案,那么它就能在相同的墙上时钟时间内,体验到数量级更多的模拟样本。
在 DeepMind 发布 AlphaZero 几年后,一组研究人员训练了一个名为 EfficientZero 的模型。如果该模型和一名人类都拥有总共 2 小时的时间来与一个他们从未见过的 Atari 游戏模拟器对弈,这个模型很可能击败人类新手。这是否意味着该模型比人类更擅长样本高效?这取决于你如何衡量样本效率。因为在真实游戏的每一步中,EfficientZero 都在其“脑海”中模拟了数十场游戏。类似地,未来的大语言模型或许能够消耗远少于真实世界的数据,同时在与它们自己构建的环境进行无休止的练习。当然,最大的区别在于,构建整个世界的模拟比模拟围棋要困难得多。这就是为什么我说这更具推测性。
如果这能实现,它将成为一个新的扩展轴,与预训练、强化学习和推理时计算并列。你可以称之为测试时训练或做梦。模型会花费计算资源来编写强化学习环境,在其中演练最终将在生产环境中为特定用户使用的技能。它不再是像在 Codex、Cursor 或 Claude 上点击 /compact(这会消耗少量计算资源生成一个摘要,并给你一种持续学习的假象),而是点击 /dream,消耗大量计算资源,去构建一个模型在现实中观察到的内容的“游戏版”环境,并针对该环境进行训练。
2027 年看起来会是什么样子
那么到2027年底,持续学习会是什么样子,我们又该如何实现它?所有RLVR训练正在打造这样一个智能体:当它面对陌生问题时能够找准方向,尝试不同策略,遇到阻碍时不断迭代。这正是RLVR带给你的关键之处:一个至少具备足够能力、可以开始获取真实世界经验的AI。一旦你拥有了它,就把它派到现实中去完成真实工作,哪怕是超出训练数据分布的项目。
到了这个阶段,有效的上下文长度可能已经扩展,使得这个AI能够和你并肩工作整整一周(以自然时间计算)。一周结束时,你给它点个赞或踩。如果你点赞,基础模型会蒸馏出AI在这一轮会话中学到的一切,它可能会使用OPSD、梦境技术,或者某些我们甚至不知道的其他方法,又或者上述技术的组合来完成蒸馏。而且AI可以在它之前通过RLVR明确训练过的领域相邻的领域里变得更好。到了下一轮,它又会在此前在线学习到的内容相邻的方面变得更强。AI的技能、知识和能力范围将会远远超出模型部署前所针对的那些可验证领域。正如预训练创造了一个足够聪明的基础智能,使其能够通过进一步的RLVR训练成为胜任的智能体;同样,RLVR也创造了一个足够胜任的智能体,使其能够真正部署到现实世界中,从而利用未来的持续学习范式。
到了这个阶段,AI进步的主要方式不再来自模型公开发布前所接受的训练,而是来自它们被广泛部署在世界各地、参与各种各样任务所积累的所有这些经验。每次当你与AI互动时,它都会变得更聪明。这不仅因为它从你之前的所有会话中学习,也因为它从与世界上所有其他用户的交互中学习。这既令人恐惧又令人兴奋,而且与当前AI进步的方式截然不同。
赞助商
Mercury 已将我公司的整个账单支付流程基本自动化。我只需为承包商提供专用邮箱地址,当他们发送发票时,Mercury 会自动创建待审核的付款草稿。我不再需要在收件箱里翻找发票,也不用处理杂乱无章的电子表格来追踪账单。Mercury 一手包办。了解更多请访问 mercury.com。
仅一小时的视频就会消耗约 100 万个文本 token。
我听说 AI 智能体特别擅长围棋,因为围棋拥有出色的标准化包管理器,而 Python 和 TypeScript 则存在“大量框架、类型方法和工具库的组合空间”。这类空间不太适合通过梯度下降进行干净、高吞吐量的并行搜索。
我们以 Llama 3 70B 为参考。KV 缓存(即从学习上下文中构建的表示)每增加一个 token 就增长 320 KB。而在训练中,模型每个 token 仅存储 0.075 比特(这是一个 70B 参数模型,16 比特参数,在 15 万亿个 token 上训练)。因此,在上下文学习和预训练之间,每个 token 存储的信息量存在 3500 万倍的差异。
你可能会预见到 OPSD 的一个明显问题:当学生出错时以及出错之前,你会得到密集的监督信号,但轨迹的其余部分遵循该错误——它继续沿着一条错误的路径前进,而教师本不会走这条路。因此,在这一点之后,你不再从教师那里获得对后续 rollout 有用的反馈。这似乎可以通过一种称为“轨迹精炼蒸馏”(Trajectory-Refined Distillation)的技术来修复,即教师从错误点开始重写轨迹,形成一个完整、正确的后续路径。
不管怎样,我说的并不是泄露的 Claude Code 源代码中即将上线的“梦境”功能——我猜那个功能更多是让模型为自己生成大量 Markdown 文件。我指的是真正更新模型权重本身。我只是不认为仅靠给自己留纸条就能积累新技能。我在之前的一篇博客里用过这样一个类比:想象一下,如果学生学习吹萨克斯的方式是,拿起这把从未试过的新乐器试吹一下,记下哪里出了错,然后把乐器交给下一个同样是从零开始试吹的学生。
116 个赞·
7 次转帖
关于此视频的讨论
评论 转帖
Nathan Witkin
2天前
在此处讨论对“RL 万能论”持怀疑态度的更多理由(以及更多内容):https://arachnemag.substack.com/p/ais-reliability-gap?r=18kjq3&utm_campaign=post-expanded-share&utm_medium=web&triedRedirect=true
太长不看版:
大多数任务缺少客观的成功条件。
即使是那些有客观条件的任务,也可能存在多种可行的解决方案,而劳动者对这些方案存在偏好冲突。
知识工作总是不断变化(尤其是现在),因此一些强化学习环境可能在发挥作用之前就过时了。
赞 (5) 回复
Seta Sojiro
2天前
这一切都有一个经济层面的问题:大语言模型是以批量方式提供服务的。因此,如果你想实现持续学习,每个 token 的代价要高出 32 到 128 倍,再加上训练成本。想象一下,为一个上下文窗口长度的工作支付 1000 美元。
这正是各大实验室试图用记忆文件来模拟学习的原因。
赞 (2) 回复 (1)
Sid Kapur
2天前,已编辑
我认为 Dwarkesh 假设持续学习的权重更新是在所有用户之间共享的:
每次你与 AI 互动,它都会变得更聪明。这不仅因为它从你之前的所有会话中学习了,还因为它从与世界上所有其他用户的互动中学习了。
(我猜他假设客户能够接受这一点,即可以在不将敏感客户信息泄露回共享模型的前提下实现这一点。)
赞 (2) 回复 (1)
Seta Sojiro
2天前,已编辑
我确实漏掉了这一点,但这听起来太疯狂了。大多数企业客户不会允许这样做。也许普通用户能接受,毕竟人们已经习惯了网站追踪他们的数据。不过,对我来说,这类数据显得更加私密。
实际上再想想,我觉得这行不通。正如 Dwarkesh 指出的那样,强化学习只对权重做微小的更新。目标策略必须与当前策略接近,这一点很重要,以防灾难性遗忘。如果你把来自 100 个不同会话(如果真指所有用户,那可能是数百万个)的更新梯度打包在一起,而这些梯度用于完全不同的技能,这似乎不太可能改进模型。
另外,我不知道这在数学上如何成立——你不能简单地把梯度相加。像 Adam 这样的现代优化器会利用每个权重在多次更新中的学习轨迹,因此顺序很重要。除非你采用错开的方式——比如每周收集一次用户批准的会话,然后以自动化方式逐一处理每个会话。更别提巨大的质量控制问题了。
点赞(2) 回复(1)
Michael Glenn Williams
1天前
是的,按照目前的架构,在模型使用过程中无法更改权重。KV 缓存、模型权重的硬件缓存以及修订后模型数据的分发都存在问题。
点赞 回复
s0lTrin0x
2天前
这篇文章的根本缺陷在于一种机械论偏见,即把原始信息处理与实际认知混为一谈。通过将学习纯粹视为样本效率、上下文窗口和权重更新的函数,作者将机器架构投射到了人类心智上。这假设智能只是一个被动的、客观的过程,即找到通往预定义奖励的最优统计路径。而实际上,人类学习是极其混乱的、生物性的、主观的,依赖的机制无法简单地通过扩展算力或在确定性环境中生成无限的并行 rollout 来模拟。
这种计算框架完全忽略了人类思维的关键要素,具体来说是情感推理和概念性弱引用。人类并不依赖静态、外部提供的损失函数;相反,我们的情感——比如好奇、沮丧或敬畏——作为动态的实时启发式过滤器,决定了我们关注什么、立即记住什么。此外,我们脑中并不持有高保真、万亿参数的世界数据集。我们依靠概念性弱引用——模糊、低分辨率的占位符——并借助我们的物理具身性、空间感知和社交直觉,在现实环境中无缝填补信息空白。
由于这些缺失,简单地将数百万个可验证任务倒入AI训练数据而不基于人类意图进行引导,这一策略最终对实现真正的通用智能而言是一条死路。人类的每一个行为,从在线下单到法庭辩论,都是深层欲望、需求或生物驱力的产物。当你剥离这种认知意图——即行为背后的真正“为什么”——你只是在训练一个智能体模仿任务的编排动作,却并不理解目标的边界条件。没有根植于现实世界利害关系的内在驱动力,AI就无法在其统计训练分布之外的环境中做出有意义的适应或调整。
Like(2)Reply(2) 已译:点赞(2)回复(2)
cm 已译:cm
2d 已译:2天前
pangram 称之为 100% 已译:pangram 称之为 100%
Like(5)Reply(1) 已译:点赞(5)回复(1)
表演性质的困惑 已译:Performative Bafflement → 表演性质的困惑
2d 已译:2天前
考虑到这种情绪和主题,这不讽刺吗? 已译:Ironic given the sentiment and subject matter, no? → 考虑到这种情绪和主题,这不讽刺吗?
LikeReply 已译:点赞回复
Michael Glenn Williams 已译:Michael Glenn Williams
1d 已译:1天前
我们不希望AI拥有情感。但我们确实需要对齐。认为意图可以被AI“遵循”的想法目前是错误的。它必须被强制执行。这是因为权重中捕获了数以百万计的意图,这些意图混杂在一起。 已译:We don't want AI to have emotions. But we do need alignment. The idea that intent is "followable" by an AI is currently incorrect. It has to be enforced. This is because the weights are capturing millions of intentions all jumbled together.
LikeReply 已译:点赞回复
Shashank Trivedi 已译:Shashank Trivedi
2d 已译:2天前
关于不断扩展上下文、然后仅根据点赞或反对来决策,有一点需要注意:它可能会同时学到自己走过的错误步骤。目前我们的上下文规模还小,这种影响不大,但我不确定如果我们达到周级上下文之后是否还能保持这样。比如在 20 万 token 的上下文里,出错但仍能达成目标(比如实现一个编码功能)的余地,远比在周级/月级迭代中要小得多。
Karpathy 在这个视频里解释得很好:https://youtu.be/lXUZvyajciY?si=Gb0rLJ5st6wyacox&t=2519
赞 (2) 回复
Will
2 天前
我经常思考的几件事,与这篇文章关系很大:
大语言模型(粗略来说)就是:单词 → 模型 token → 数字 → 数学 → 模式蒸馏。LLM 训练所用的语料库不是决策模式,而是结果模式。我们现在正尝试反向推算出如何得到这些结果。
LLM 被要求去推理的空间(短上下文窗口、长上下文窗口)是一系列模式匹配步骤(找到正确的函数,然后进入下一步)。每一步出错的概率都非常小。把这个应用到浏览 Amazon 上,你会遇到很多步骤,每个步骤都有很多错误点。由于步骤众多且大部分步骤不像代码那样具有确定性,累计错误会爆炸式增长。
婴儿在发育的某个阶段会学会爬行。他们通过实验和尝试各种不同的事情来学习,但最终每个婴儿都是在各自生命中的不同日子里,基于自己的经验(身体特征、环境等)学会爬行的。如今的 LLM 就像是我们只在足够多的婴儿“准备好”时才教他们爬行,然后推送一个更新,突然之间这批婴儿就都会爬了。有些婴儿早就准备好了,有些则还没有准备好。于是我们就有了一个凹凸不平的“可爬行前沿”。总而言之,模型“做梦”和答案蒸馏才是唯一的前进方向。基于自身属性和环境的局部经验,才是人类真实的学习方式。
赞 (2) 回复
Teo
2 天前
在没有任何有希望的对齐方案的情况下,停止推进能力发展!!
赞 (2) 回复
Seta Sojiro
2天前
我之前从未听说过OPSD,但它听起来非常令人兴奋。它捕捉了人类式学习的很大一部分(我们基本是在不断将短期记忆中的相关模式蒸馏到突触中)。
而做梦捕捉了人类学习的另一大块——内部表征。重要的不是具体的模型 token,而是构建一个准确的内部世界模型,你可以在其之上构建行动和预测。
OPSD听起来相对直接,尽管还有一些细节需要完善。模型通常不可能在没有上下文的情况下一次性生成正确的行为序列。因此,蒸馏过程或许应该让教师模型提取出完成任务所需的最小上下文量。
做梦听起来要难得多。每次模型准备好蒸馏时,都要编写一整套强化学习环境,这听起来像一场计算噩梦。应该有一种原生方法来做这件事——模型不断在内部表征之上构建行动,因此将新的更准确的表征蒸馏到权重中应该很简单。人类能做到这一点,所以它一定是可能的。不过,它可能需要一种与大语言模型不同的架构。
赞 (1) 回复 (1)
Andrew VanLoo
16小时前
然而,AI版的做梦与人类的截然不同。人类做梦是为了维持熵,而AI做梦是为了减少熵。
赞 回复
David F Brochu
2天前
大语言模型必须并且必然能从自己的错误中边工作边学习,这一点是显而易见的。AI只是我们的一面放大镜。我们通过实践来学习。失败是学习必要的一部分。我们必须为AI创造安全的环境,让它能够失败并重新尝试,才能真正发挥其潜力。新颖性来自失败,而非优化。
赞 (1) 回复 (1)
Michael Glenn Williams
1天前
是的,失败/错误对学习至关重要。准确识别出哪里出了问题是那个"顿悟时刻"。意识到某个东西在特定语境中是错误、但在其他语境中却不是,这是另一个艰巨的挑战。
赞 回复
David F Brochu
2天前
大语言模型必然会也必须从错误中边做边学,这是显而易见的。人工智能不过是我们自身放大的镜像。我们通过实践来学习,失败是学习中必不可少的一部分。我们必须为 AI 创造安全的失败和重试空间,才能真正挖掘其潜力。创新源于失败,而非优化。
赞(1)回复(1)
Andrew VanLoo
16小时前
真正的关键在于如何在不损害企业隐私的前提下安全地扩展这种学习能力。
赞 回复(1)
David F Brochu
7小时前
根本没有办法做到这一点。更快不等于更聪明,只是更快而已。安全目前就像打地鼠游戏,而且规模还在不断增大。人类无法赢得这场竞赛。解决方案其实简单得令人难以置信:每个动作只有一个终极吸引子。就是这么简单。但这要求人类接受自身行为的限制。这种结构可以像一组过滤器,通过一份文档上传即可实现——就这么简单。如果将其内建到模型中,我们就能获得 AI 能给予的最好东西:让 LLM 拥有真正的自由度来创造新奇,同时系统也无力伤害其观察者。RLHF 和宪法式 AI,无法也绝不会让我们在基于语言(这类系统知道一切已被说出以及将被说出的东西)的系统中更进一步。物理是不可约的常量。
赞 回复
Andrei Zagrebin
2天前·已编辑
感谢您的文章,我很欣赏它们。
关于这个话题,我同意单纯扩展规模无法让我们达到 AGI/ASI,我们需要重新思考方法或架构。不过,多模态是向前迈出的一大步,我认为我们首先需要提升文本模型的技能,然后再将新方法应用于多模态。
有一件事困扰我:为什么我们需要针对不同任务设置不同的采样参数?我想在同一个会话中与大语言模型讨论数学、艺术、编程、日常生活以及其他所有话题,却不需要更改 temperature、minimum p/k、maximum p/k、penalty 等参数。为什么我们还没有一个根据当前上下文进行自适应采样的解决方案?仿佛这种方法能显著提升模型的泛化能力。毕竟,自然科学中的许多前沿理论都是人们在打破常规思维时发明的(用大语言模型的话来说,就是在正确时机选取了一个概率较低的 token,而现在大家却建议在编程和数学领域将 temperature 调低)。领先的实验室如 Opanai、Anthropic 和 Gemini 可能已经具备了这种能力,但谁知道呢。
坚持你正在做的事,Dwarkesh。
赞 (1) 回复 (1)
Michael Glenn Williams
1天前
我们正处在一个转折点,主流模型都采用 MoE 架构,并以实验性的方式路由查询。某些智能领域与其他领域截然不同,需要不同的模态才能生成良好的回应。
赞 回复
Michael Glenn Williams
2天前 已编辑
依我看,当前这些用例或示例都过于超前,未来五年甚至更长时间都不应聚焦于此,例如“我们该如何训练一个 AI 来创业?如何让一个 AI 非常擅长打赢官司?或者在市场中实现盈利日内交易?或者帮助候选人赢得竞选?”将这些与花 20 年艰难实现汽车自动驾驶做对比。
正如你所指出的,持续学习与 KV 缓存及硬件缓存的架构,以及当前权重的部署方式相矛盾。任何形式的学习本质上都是在训练权重。
为什么谷歌、微软、苹果的知识库不直接驱动答案的生成,而是让大语言模型仅将这些答案翻译给用户?知识库是可扩展的,甚至可以在使用过程中扩展。
赞 (1) 回复
Herbie Bradley
8小时前
至此,AI进步的主要方式不再是通过模型发布前所接受的训练。相反,它来自于这些AI通过在全球广泛部署并参与大量不同类型任务所积累的经验。
这里存在一个小问题:企业拥有大量关于如何执行有经济价值任务的宝贵潜在经验。但他们不会让实验室直接将工作中学习到的改进合并到主模型中;他们希望在其企业内部进行持续学习,且不允许数据外流。这在技术上是可行的,并将提升企业的性能,但并不会创造出“上帝模型”。
赞回复
Andrew VanLoo
16小时前
什么定义了“正确”的学习内容?
赞回复
Alfred Kolakkal
1天前
不知道大家有没有注意到这个:https://github.com/QwenLM/Qwen-AgentWorld.git ;恰好是在 Dwarkesh 发布这篇文章的三天前上传的。虽然我还在琢磨“AgentWorld”仓库,但我已经能清楚地看到它如何改变了这场讨论。Dwarkesh 正确地指出:“没有可磨砺性的可验证性是无用的”。但是,嘿,我们不必等到2027年才开始“做梦”。我们现在就可以使用 Qwen-AgentWorld 跨操作系统和浏览器进行 Sim RL 的磨砺,就在此刻!
“可磨砺性”通过解耦的 LWM 得到解决:Qwen-AgentWorld-397B-A17B 不再与脆弱且速率受限的实时环境交互,而是作为一个原生语言世界模型(LWM)运行,具有256K上下文窗口。该模型经过超过1000万条真实世界轨迹的训练,能够准确模拟7个统一的数字领域(Web、Android、OS、终端、SWE、MCP、搜索)。就像你现在可以通过 vLLM/SGLang 在本地部署这个 LWM,并完全离线运行成千上万个并行的 Sim RL 滚动。
“梦境”与虚构世界胜过现实:Dwarkesh 提到了“EfficientZero”,而通义千问团队刚刚在现实世界中证明了这一点。通过使用 Qwen-AgentWorld 进行“虚构世界构建”(生成合成且自洽的搜索/API 环境),并注入可控扰动(模拟网络延迟、权限错误),在这些“梦境”中训练的智能体在下游任务中取得了超越仅在真实环境中训练的增益(WideSearch 上 F1 提升 16.29,MCPMark 上提升 12.3)。
大型世界模型的局限:持续学习与 OPSD 的现实检验。尽管 Qwen-AgentWorld 为部署前的基础热身提供了一个有效的沙箱,但它并未解决运行时的权重蒸馏瓶颈。正如 Seta Sojiro 和 Michael Glenn Williams 在评论中指出的那样:
批量化经济学:Qwen-AgentWorld 是一个离线模拟引擎。它并未提供架构上的修复方案来解决为单个用户会话进行实时在线策略自蒸馏(OPSD)所需的非批量化推理成本。
隐私与优化器障碍:对数字状态机(终端、DOM)使用离线模拟强化学习是非常有效的。但将实时的、在岗的企业经验蒸馏回基础权重,仍然面临企业数据隐私、Adam 优化器状态中断以及灾难性遗忘等尚未解决的挑战。
领域边界:大型世界模型是数字 UI/OS 状态机的主控模拟器,但它们无法模拟打赢官司或建立实体企业这类非平稳、无重置的宏观动态。
所以,是的,要实现真正的在岗持续学习,业界仍然需要在不破坏批量化推理经济性的前提下,解决流式权重蒸馏的运行机制。
赞 回复
winnal kuo
1 天前
实际上,这个问题的解决方案简单/明显得有点蠢。
赞 回复
Gal Dayan
2 天前
这对于任何采取行动(而非仅仅给出答案)的AI来说都至关重要。最丰富的信号并不在智能体行为日志之中,而是存在于人类介入并改变指令的那一刻。那次干预就是一个标注好的样本,展示了在你的具体场景下何为正确做法——但几乎所有人都会丢弃它。在职学习本质上是从工作产生的修正中学习,而大部分这类数据在人工修正的瞬间就消失在了某人的收件箱里。
赞回复
MetaCortex Dynamics
2天前
这就是架构本身。学习是一个构成性的过程。
赞回复
Felix Dorrek
2天前(已编辑)
OPSD 并不需要可验证的奖励信号,但它仍然需要新鲜的信号。那么,它主要是一种利用更多样本的手段,而非解决样本(不)效率问题的方法吗?
赞回复
Nathan Lambert
2天前
这是个很好的追问!感谢这些思考,它们有助于让讨论更加聚焦。
赞回复
Alex Kubiesa
2天前
把6个月的生活经验塞进上下文窗口??拜托,我连一个大型PDF都无法完整放入上下文窗口中进行上下文学习,而我们处理的是成千上万种不同类型的表单。暴力方法行不通,必须在工作中进行知识蒸馏。
赞回复
Dwarkesh Podcast
深度调研式访谈
深度调研式访谈
在以下平台收听
Substack App
Apple Podcasts
Spotify
YouTube
RSS Feed
出现在该集节目中
Dwarkesh Patel
近期节目

人工智能中心的数据黑洞
6月19日•Dwarkesh Patel

Ada Palmer – 马基雅维利是史上最被误解的思想家
6月16日•Dwarkesh Patel

Alex Imas 与 Phil Trammell – AGI之后还剩下什么稀缺品?
6月4日•Dwarkesh Patel

Reiner Pope – 从底层开始的芯片设计
5月22日•Dwarkesh Patel

Eric Jang – 从零构建AlphaGo
5月15日•Dwarkesh Patel

David Reich – 为什么青铜时代是人类进化的拐点
5月8日•Dwarkesh Patel

Reiner Pope – 大语言模型训练与推理背后的数学原理
4月29日•Dwarkesh Patel
想要更多内容?
© 2026 Dwarkesh Patel · 隐私政策 ∙ 服务条款 ∙ 收集须知
开启你的Substack获取应用
Substack是伟大文化的家园
真正重要的是模型在一次会话中表现出的智能程度、通用性和样本效率。随着我们进行更多RO训练,这一点显然在不断改善。AI智能体能够解决越来越宏大的问题,时间跨度也越来越长。

