向阳乔木@vista8

2026-07-01 12:09·1天前

AI 摘要

美团发布并开源LongCat-2.0，1.6万亿总参数、480亿激活参数（3%）的MoE大模型。使用35万亿token训练，在5万片国产芯片上“全程无回滚”完成。引入LongCat稀疏注意力（LSA），包含流感知索引、跨层索引和层级化索引，解决长文本注意力瓶颈。采用5-gram N-gram Embedding增加135B参数，在不增加MoE专家竞争的情况下增强局部上下文理解。训练使用6D并行技术适配国产算力。计划2026年6月30日发布并开源。

http://x.com/i/article/2072169967664140288

LongCat-2.0 深度技术解读

X 上老外都特别震惊，说中国的"Doordash"用国产芯片训练了一个万亿参数的大模型，哈哈哈。

这次美团确实有点厉害，让 AI 辅助阅读解读下所有技术细节。

https://longcat.chat/blog/longcat-2.0/

35 万亿 token，大概是全球所有书籍文字总量的几十倍。

5 万片芯片同时工作，意味着你需要让几万台机器像一台机器一样协调运转。

而"全程无回滚"，意味着这场马拉松从头跑到尾，没有一次因为出错而被迫退回重来。

这就是 LongCat-2.0，2026 年 6 月 30 日正式发布并开源。

先搞懂两个基础概念，后面才能读懂

在进入正题之前，有两个概念必须先建立直觉。

什么是 MoE（混合专家模型）？

普通的神经网络，每次处理一个问题，会动用全部的"神经元"。

你问它"今天天气怎么样"，和问它"帮我写一段 Python 代码"，用的是同一套参数，全部激活，全部计算。

MoE 的思路不一样。

它内部有很多"专家"，每次来一个问题，只激活其中几个最合适的专家来处理，其余的专家保持沉默。

打个比方：一家大医院有内科、外科、神经科、皮肤科……你来看病，不是所有科室的医生都来给你会诊，而是根据你的症状，叫来最相关的两三个科室。

这样既节省了资源，又能让每个专家更专注。

LongCat-2.0 的总参数是 1.6 万亿，但每次处理一个 token（可以理解为一个词或一个字），只激活其中约 480 亿参数。

也就是说，每次只动用了约 3% 的参数。

这个"只用 3%"的特性，在后面会反复出现，它是整个模型设计的核心约束。

什么是 token？

语言模型不是一个字一个字读文字的，它把文字切成一小块一小块的"token"。

中文里大概 1 个 token 对应 1.5 到 2 个汉字，英文里大概 1 个 token 对应 0.75 个单词。

35 万亿 token，换算成中文，大概是 50 到 70 万亿个汉字。

好，基础打完了，我们开始拆解 LongCat-2.0 的每一个技术决策。

架构改进一：LSA，让模型读长文不再"喘不过气"

先理解"注意力机制"是什么

语言模型在理解一句话的时候，需要判断每个词和其他词之间的关联程度。

比如"猫追老鼠，它跑得很快"，模型需要判断"它"指的是"猫"还是"老鼠"。

这个判断过程叫"注意力机制"，模型在处理每个词的时候，会"注意"到其他所有词，计算它们之间的相关性。

问题来了：如果文章很长，比如有 100 万个 token，那每个 token 都要和其他 99 万 9999 个 token 计算一次相关性。

向阳乔木@vista8 · X

61导出 Markdown

2026-07-01 12:09·1天前

在 X 看原推· x.com

AI 摘要

http://x.com/i/article/2072169967664140288

LongCat-2.0 深度技术解读

X 上老外都特别震惊，说中国的"Doordash"用国产芯片训练了一个万亿参数的大模型，哈哈哈。

这次美团确实有点厉害，让 AI 辅助阅读解读下所有技术细节。

https://longcat.chat/blog/longcat-2.0/

35 万亿 token，大概是全球所有书籍文字总量的几十倍。

5 万片芯片同时工作，意味着你需要让几万台机器像一台机器一样协调运转。

而"全程无回滚"，意味着这场马拉松从头跑到尾，没有一次因为出错而被迫退回重来。

这就是 LongCat-2.0，2026 年 6 月 30 日正式发布并开源。

先搞懂两个基础概念，后面才能读懂

在进入正题之前，有两个概念必须先建立直觉。

什么是 MoE（混合专家模型）？

普通的神经网络，每次处理一个问题，会动用全部的"神经元"。

LongCat-2.0 深度技术解读

先搞懂两个基础概念，后面才能读懂

架构改进一：LSA，让模型读长文不再"喘不过气"

LongCat-2.0 深度技术解读

先搞懂两个基础概念，后面才能读懂

架构改进二：N-gram Embedding，用更聪明的方式扩大参数

国产算力上跑通万亿参数训练，工程上有多难

百万上下文推理：在受限硬件上的极限工程

后训练：三组专家，一套融合架构

评测数据怎么看

这件事真正重要的地方

架构改进一：LSA，让模型读长文不再"喘不过气"

架构改进二：N-gram Embedding，用更聪明的方式扩大参数

国产算力上跑通万亿参数训练，工程上有多难

百万上下文推理：在受限硬件上的极限工程

后训练：三组专家，一套融合架构

评测数据怎么看

这件事真正重要的地方