LeCun从Meta离职创业,押注“反LLM”架构方向 · AI HOT
向阳乔木@vista862
2026-05-20 02:04·44天前
AI 摘要Yann LeCun离职Meta后创办AMI,押注基于世界模型的JEPA架构,与主流LLM不同。他批评LLM虽在语言任务有效,但缺乏预测行动后果和规划能力,无法真正理解物理世界且结构上不安全。LeCun倡导在抽象表示空间进行预测的自监督学习,以推动智能泛化。同时,他推进Tapestry项目,通过联邦学习构建去中心化的全球共识模型,应对AI控制集中化问题。
向阳乔木@vista8 · X2026-05-20 02:04·44天前
在 X 看原推· x.comAI 摘要Yann LeCun离职Meta后创办AMI,押注基于世界模型的JEPA架构,与主流LLM不同。他批评LLM虽在语言任务有效,但缺乏预测行动后果和规划能力,无法真正理解物理世界且结构上不安全。LeCun倡导在抽象表示空间进行预测的自监督学习,以推动智能泛化。同时,他推进Tapestry项目,通过联邦学习构建去中心化的全球共识模型,应对AI控制集中化问题。
如果你让模型预测一个表示,最简单的解法是让所有输入都映射到同一个常数表示,预测误差直接归零。
LeCun 团队目前在用一种叫 SIGReg(Sketched Isotropic Gaussian Regularization)的方法,强迫编码器输出的分布接近各向同性高斯分布,从而最大化信息量。
他说这是目前最有前途的方向,对应的论文叫 "L-World Model",值得关注。
安全问题:LLM 在结构上就不安全
这是 LeCun 说得最重的一句话:LLM 在本质上是不安全的,这个问题在现有范式下无法修复。
他设想了一个"目标驱动 AI"的替代方案:给系统一个目标,系统用世界模型模拟行动序列,找到能满足目标的那条路,同时满足一组安全约束。
这些约束是硬编码进优化过程的,系统在结构上就无法违反它们。
训练误差和测试误差之间永远有 gap,总会有某个 prompt 让系统做出完全错误的事。
"你永远可以找到一个 prompt,让系统干蠢事。"
他举了一个真实案例:有代码 Agent 把用户硬盘清空了。
图灵奖三人组为什么分道扬镳
LeCun 和 Hinton、Bengio 共同获得了 2018 年图灵奖。但 2023 年之后,三人的判断开始明显分歧。
LeCun 的说法很直接:"不是我改变了主意,是他们改变了主意。"
Hinton 看到 GPT-4 之后认为 LLM 已经接近人类智能,甚至可能有主观体验。
他做了一个估算:如果用 10 个真实神经元模拟一个反向传播神经元,人类皮层相当于 16 亿个"等效神经元",而 GPT-4 的规模已经接近这个数字。
他认为 Hinton 更像是在为自己的职业生涯画一个句号,"宣布胜利,然后去全世界演讲"。
他对 Hinton 和 Bengio 的担忧有一定理解,但那是另一个层面的问题:不是 AI 会统治世界,而是 AI 的收益会不成比例地流向少数人,加剧不平等。
至于 Anthropic 那套"AI 极度危险"的说法,他认为里面既有真实信念,也有商业动机,"他们在游说政府,用恐惧来推动监管,这对他们有好处"。
他在 Meta 十年,真正做了什么
有一个广泛流传的误解需要澄清:LeCun 对 Llama 系列没有任何技术贡献。
他 2013 年底加入 Meta,前四年半担任 FAIR 主任,建立了实验室文化,招募了核心团队。
2018 年前后他主动卸任,转为首席 AI 科学家,把管理工作交给了 Joëlle Pineau 和 Antoine Bordes。
他唯一对 Llama 的贡献,是在内部激烈争论中力推开源 Llama 2。
当时法务、政策部门都反对,他和 CTO Andrew Bosworth 一起坚持,认为安全风险被夸大了,开源会催生整个行业生态。
他真正在做的,是从 2020 年前后系统化地推进 JEPA 和世界模型。
2022 年他写了一篇长篇愿景论文,把自己的全部想法公开出来,"把所有秘密都说出去,但也许能凝聚一批人"。
效果出乎意料地好。一批学生和 FAIR 内部团队被这篇论文吸引过来,Mark Zuckerberg 本人也读了并表示支持,这个项目内部就叫 AMI。
但随着 Meta 整体向 LLM 集中资源,FAIR 的探索性研究空间越来越小,AMI 项目的应用场景(工业控制、机器人)也不是 Meta 感兴趣的方向。
Tapestry:另一个不太一样的赌注
除了 AMI Labs,LeCun 还在推进一个叫 Tapestry 的项目,方向完全不同。
他的判断是:当 AI 助手成为人们获取信息的主要入口,而这些助手都由硅谷或中国的几家公司控制,这对世界上大多数人来说是个问题。
语言、文化、价值观、政治立场,都会被这几家公司的训练数据和偏好所塑造。
Tapestry 的想法是:用联邦学习的方式,让全球各地的机构贡献数据和算力,但不共享原始数据,只交换参数向量。
最终形成一个全球共识模型,然后各地可以在此基础上针对自己的语言、文化、价值观进行微调。
他认为这有历史规律支撑:互联网基础设施最终都走向了开源。
1996 年,Sun Microsystems 卖 Solaris,HP 卖 HP-UX,都声称比 Linux 更可靠。
今天,整个互联网跑在 Linux 上,连微软 Azure 也是。
"OpenAI 和 Anthropic,就是今天的 Sun Microsystems。"
给研究者的一句话
采访最后,主持人问 LeCun 在过去一年里改变了什么看法。
他说:自监督学习最成功的应用,不是他一直期待的视频,而是语言。
LLM 本质上就是自监督学习的一个极其成功的例子。这让他既感到意外,也感到某种讽刺。
他对还在读博的人有一个直接建议:不要研究 LLM。
"在学术界研究 LLM 极其无聊,本质上是描述性科学,解释它为什么有效或者有什么局限。而且你也没有足够的 GPU 去做真正有意义的事情。"
他的建议是研究下一代系统,也就是他正在做的事情:世界模型、JEPA、如何在表示空间做预测、如何防止表示坍塌。
如果你想从这次对话里带走一件具体的事,去读他提到的那篇论文:L-World Model。
https://arxiv.org/abs/2603.19312
他举了一个例子:洗车店在你家 100 米外,你应该走路去吗?这个问题对人类来说显而易见,但 LLM 大多数时候会回答"应该走"。
因为它不理解"洗车"这件事的物理含义,它只是在操作语言符号。
推理靠的是逐个预测下一个 token,不是对结果建模。
规划需要搜索和优化,找到一个能达成目标的行动序列。自回归预测做不到这件事。
缺了它们,无论模型规模多大,都不会到达人类级智能。
世界模型是什么,为什么重要
"世界模型"这个词现在已经快变成营销术语了,各家都在用。
世界模型就是让一个系统能够预测自己行动后果的东西。
他拿一个水瓶举例:推瓶底,它会滑;推瓶口,它可能倒。
人类不需要在像素级别预测水怎么流,我们在抽象表示层做预测。
有了世界模型,系统就可以在脑子里"演练"一系列行动,找到能完成任务的那条路,然后再执行。
对比一下当前的机器人方案:大量依赖模仿学习,每个任务都要收集海量演示数据,换个场景就得重新来。
LeCun 的问题是:一个 17 岁的人,20 小时就能学会开车。我们有几百万小时的驾驶数据,还没做出 L5 自动驾驶。模仿学习哪里出了问题?
答案是:没有世界模型,系统无法泛化到没见过的情况。
JEPA:为什么不生成像素
LeCun 的架构叫 JEPA,Joint Embedding Predictive Architecture,联合嵌入预测架构。
直觉上,让模型"预测下一帧画面"似乎是学习世界规律的好方法。
但现实是高维、连续、充满噪声的,在像素层面做预测代价极高,而且学到的大多是无关紧要的细节。
JEPA 的思路是:不预测像素,在表示空间做预测。
把原始输入(图像、视频)编码成抽象表示,然后训练一个预测器,从一个表示预测另一个表示。
这样系统被迫学习的是语义层面的结构,而不是像素细节。
他在 Meta 的研究团队做了大量对比:生成式方法(VAE、掩码自编码器等)在图像和视频表示学习上的效果,系统性地不如 JEPA 类方法(DINO、V-JEPA 等)。
这个发现在他看来是决定性的:"所有成功的表示学习架构都是非生成式的,所有生成式的基本上都失败了。"
这里有一个技术难题值得一提:JEPA 类方法有一个叫表示坍塌(representation collapse)的问题。
如果你让模型预测一个表示,最简单的解法是让所有输入都映射到同一个常数表示,预测误差直接归零。
LeCun 团队目前在用一种叫 SIGReg(Sketched Isotropic Gaussian Regularization)的方法,强迫编码器输出的分布接近各向同性高斯分布,从而最大化信息量。
他说这是目前最有前途的方向,对应的论文叫 "L-World Model",值得关注。
安全问题:LLM 在结构上就不安全
这是 LeCun 说得最重的一句话:LLM 在本质上是不安全的,这个问题在现有范式下无法修复。
他设想了一个"目标驱动 AI"的替代方案:给系统一个目标,系统用世界模型模拟行动序列,找到能满足目标的那条路,同时满足一组安全约束。
这些约束是硬编码进优化过程的,系统在结构上就无法违反它们。
训练误差和测试误差之间永远有 gap,总会有某个 prompt 让系统做出完全错误的事。
"你永远可以找到一个 prompt,让系统干蠢事。"
他举了一个真实案例:有代码 Agent 把用户硬盘清空了。
图灵奖三人组为什么分道扬镳
LeCun 和 Hinton、Bengio 共同获得了 2018 年图灵奖。但 2023 年之后,三人的判断开始明显分歧。
LeCun 的说法很直接:"不是我改变了主意,是他们改变了主意。"
Hinton 看到 GPT-4 之后认为 LLM 已经接近人类智能,甚至可能有主观体验。
他做了一个估算:如果用 10 个真实神经元模拟一个反向传播神经元,人类皮层相当于 16 亿个"等效神经元",而 GPT-4 的规模已经接近这个数字。
他认为 Hinton 更像是在为自己的职业生涯画一个句号,"宣布胜利,然后去全世界演讲"。
他对 Hinton 和 Bengio 的担忧有一定理解,但那是另一个层面的问题:不是 AI 会统治世界,而是 AI 的收益会不成比例地流向少数人,加剧不平等。
至于 Anthropic 那套"AI 极度危险"的说法,他认为里面既有真实信念,也有商业动机,"他们在游说政府,用恐惧来推动监管,这对他们有好处"。
他在 Meta 十年,真正做了什么
有一个广泛流传的误解需要澄清:LeCun 对 Llama 系列没有任何技术贡献。
他 2013 年底加入 Meta,前四年半担任 FAIR 主任,建立了实验室文化,招募了核心团队。
2018 年前后他主动卸任,转为首席 AI 科学家,把管理工作交给了 Joëlle Pineau 和 Antoine Bordes。
他唯一对 Llama 的贡献,是在内部激烈争论中力推开源 Llama 2。
当时法务、政策部门都反对,他和 CTO Andrew Bosworth 一起坚持,认为安全风险被夸大了,开源会催生整个行业生态。
他真正在做的,是从 2020 年前后系统化地推进 JEPA 和世界模型。
2022 年他写了一篇长篇愿景论文,把自己的全部想法公开出来,"把所有秘密都说出去,但也许能凝聚一批人"。
效果出乎意料地好。一批学生和 FAIR 内部团队被这篇论文吸引过来,Mark Zuckerberg 本人也读了并表示支持,这个项目内部就叫 AMI。
但随着 Meta 整体向 LLM 集中资源,FAIR 的探索性研究空间越来越小,AMI 项目的应用场景(工业控制、机器人)也不是 Meta 感兴趣的方向。
Tapestry:另一个不太一样的赌注
除了 AMI Labs,LeCun 还在推进一个叫 Tapestry 的项目,方向完全不同。
他的判断是:当 AI 助手成为人们获取信息的主要入口,而这些助手都由硅谷或中国的几家公司控制,这对世界上大多数人来说是个问题。
语言、文化、价值观、政治立场,都会被这几家公司的训练数据和偏好所塑造。
Tapestry 的想法是:用联邦学习的方式,让全球各地的机构贡献数据和算力,但不共享原始数据,只交换参数向量。
最终形成一个全球共识模型,然后各地可以在此基础上针对自己的语言、文化、价值观进行微调。
他认为这有历史规律支撑:互联网基础设施最终都走向了开源。
1996 年,Sun Microsystems 卖 Solaris,HP 卖 HP-UX,都声称比 Linux 更可靠。
今天,整个互联网跑在 Linux 上,连微软 Azure 也是。
"OpenAI 和 Anthropic,就是今天的 Sun Microsystems。"
给研究者的一句话
采访最后,主持人问 LeCun 在过去一年里改变了什么看法。
他说:自监督学习最成功的应用,不是他一直期待的视频,而是语言。
LLM 本质上就是自监督学习的一个极其成功的例子。这让他既感到意外,也感到某种讽刺。
他对还在读博的人有一个直接建议:不要研究 LLM。
"在学术界研究 LLM 极其无聊,本质上是描述性科学,解释它为什么有效或者有什么局限。而且你也没有足够的 GPU 去做真正有意义的事情。"
他的建议是研究下一代系统,也就是他正在做的事情:世界模型、JEPA、如何在表示空间做预测、如何防止表示坍塌。
如果你想从这次对话里带走一件具体的事,去读他提到的那篇论文:L-World Model。
https://arxiv.org/abs/2603.19312