LongCat-2.0 开源:1.6T 总参数、48B 活跃参数的 MoE 模型
阅读原文· longcat.chatLongCat-2.0 正式开源,总参数 1.6 万亿,每 token 激活约 480 亿参数,采用 MoE 架构。新引入 LongCat Sparse Attention(LSA)和 N-gram Embedding 模块,支持百万级上下文窗口。模型在 5 万+ AI ASIC 上训练,消耗超 35 万亿 tokens,训练全程无回滚。在编码和智能体任务上表现优异,深度集成 Claude Code 等工具。提供 GitHub、HuggingFace 及 API 访问。
EN
LongCat-2.0 发布
2026-06-30
GitHubHuggingFace试用API 访问
我们发布并开源 LongCat-2.0,这是一个大规模 MoE 语言模型,总参数量达 1.6 万亿,每个 token 激活约 480 亿参数——相比之前的 LongCat 模型有显著提升,并伴随多项架构改进。
完整的训练运行和大规模部署完全基于 AI ASIC 超级计算集群。预训练过程跨越数百万加速器天,处理超过 35 万亿个 token,未出现回滚或不可恢复的损失尖峰——这证明了我们具备在替代硬件平台上进行前沿规模训练的能力。
为了增强模型在长周期任务上的表现,我们引入了 LongCat 稀疏注意力机制,并使用数千亿 token 的 100 万上下文数据进行训练。结合专门的后续训练,这使得 LongCat-2.0 在编码和智能体任务上表现出色。
LongCat-2.0 与主流工具链(如 Claude Code、OpenClaw 和 Hermes)深度集成,在代码理解、仓库级编辑、自动化任务执行和智能体工作流方面均展现出强劲性能——为开发者提供更加稳定高效的协作体验。
下载
Terminal-Bench 2.1
SWE-bench Pro
SWE-bench Multilingual
FORTE
RWSearch
BrowseComp
LongCat-2.0
Gemini 3.1 Pro
GPT-5.5
Opus 4.6
Opus 4.7
Opus 4.8
架构
我们的架构设计建立在 LongCat-Flash 基础之上,进一步优化参数效率,并提升长上下文训练和推理的速度。在注意力机制方面,我们引入了 LongCat 稀疏注意力(LSA)——这是 DeepSeek 稀疏注意力的演进版本,采用更轻量的索引器,在加速长上下文处理的同时不牺牲模型质量。为了充分利用每个参数,我们还增加了 N-gram 嵌入模块,通过 N-gram token 组合将嵌入空间扩展约 100 倍,从而捕获更丰富的局部上下文信息,强化 token 级别的表征。
LongCat 稀疏注意力
智能体应用的兴起正推动大语言模型向高效长输入处理方向发展。DSA 通过细粒度稀疏注意力解决了这一问题。然而,我们的性能分析显示,由于输出不连续和二次评分代价,DSA 中的 Lightning Indexer 仍然是关键瓶颈。为了解决这个问题,LongCat 稀疏注意力(LSA)为索引器引入了三项正交的效率改进。
- 流感知索引(SI)重新调整了 token 选择预算,将硬件对齐的连续访问与动态随机选择结合起来。这将碎片化的内存访问转变为可预测的顺序读取,实现了合并的 HBM 访问和高有效带宽。
- 跨层索引(CLI)利用注意力显著性在相邻层之间的经验稳定性来分摊索引代价:在推理时,单次索引遍历即可服务于若干个连续层,这得益于训练期间的跨层蒸馏。
- 分层索引(HI)采用了一种由粗到精的两阶段评分方案——首先通过块级近似评分进行粗召回,然后在召回候选中进行细粒度 token 选择——缩小了索引器每查询必须处理的候选空间。在 LongCat-2.0 中,HI 以无需训练的方式应用,并针对选定的超长上下文任务启用。
这三个组件在设计上是正交的,允许各自独立启用或禁用。集成架构如下方总览图所示。
LongCat 稀疏注意力设计总览。(为清晰起见,省略了锚点 token。)
我们将这三种策略扩展到三步多 token 预测(MTP)模块,用于加速推测解码。跨层索引在草稿模型和目标模型中的应用方式不同:在目标模型中,每两个连续层共享一次索引遍历;而在多步 MTP 中,所有三个草稿步骤共享一次遍历,步骤 2 和步骤 3 复用步骤 1 生成的索引集合。
N-gram 嵌入
LongCat-2.0 继承了 LongCat-Flash-Lite 的 N-gram 嵌入向量,通过在 MoE 正交的稀疏维度上扩展参数,提高了参数利用效率。为适配 LongCat-2.0 的庞大规模,n-gram 大小配置为 5,模型中包含 135B 个 N-gram 嵌入向量参数,遵循以下扩展原则:
- MoE 的稀疏性已越过最佳区间。鉴于即使不考虑 N-gram 嵌入向量,模型的稀疏性已接近约 97%,通过扩展 135B 参数的专家所带来的性能增益微乎其微。相比之下,同等参数规模的 N-gram 嵌入向量所带来的收益远超标准专家。
- N-gram 嵌入向量的比例被限制在最优范围内。扩展实验表明,当 n-gram 嵌入向量参数消耗超过总参数预算的 50% 时,其相对于扩展专家的优势会减弱。在 LongCat-2.0 中,该比例严格控制在 10% 以下,远在安全区间内运行。
这两条原则保证了 N-gram 嵌入向量相比同等规模的纯 MoE 模型具有稳健的优越性。在推理时,将参数从专家网络转移到 N-gram 嵌入向量可减少大批量解码的内存 I/O,从而加速生成。
N-gram 嵌入向量概览。
基于 AI ASIC 超级节点的可扩展基础设施
LongCat-2.0 的训练和部署基于由数万个 AI ASIC 超级节点组成的大规模集群。与成熟的 Nvidia GPU 生态系统相比,配套的软件社区仍不够发达。因此,我们在构建稳定、安全且可扩展的基础设施方面投入了大量精力。
训练
LongCat-2.0 在超过 50K 个 AI ASIC 上进行预训练,模型规模和集群规模带来了显著的系统级挑战。我们通过系统化优化来应对这些挑战,相比朴素实现实现了超过 35% 的训练吞吐量提升,同时提高了可靠性。
确定性与可靠性
为了在生产环境中保证可重复性,我们在通信和计算路径上都强制实现确定性,并采用一套自研的确定性算子和模块,涵盖 Embedding、FA、LSA 和 MoE 层。
为保障数值可靠性,我们重新设计了一系列基础算子以提升精度——例如,所有归约型算子均采用二叉树分段累加策略,以减少浮点误差累积。我们还在实际的大语言模型负载下,将加速器的计算精度与严格的高精度基线进行对比,确认其算术正确性和生产就绪度,并在部分计算密集型算子中引入比特翻转检测功能,以便及时发现硬件比特翻转导致的异常。
在故障恢复方面,端到端监控驱动故障识别、流量切换和恢复,无需人工干预;隔离故障链路对训练无感知影响,修复后的链路需通过压力测试才能重新加入。
规模化训练
我们的加速器单设备内存远小于 H800(80 GB),因此内存成为规模化训练的主要瓶颈。我们从并行策略和内存管理两个维度应对这一挑战。
- 六维并行:在标准 TP/CP/EP/DP/PP 之外,我们引入 EMBP 来并行化和加速 N-gram Embedding 计算。
- 超级节点:训练在物理超级节点上运行——每个超级节点最多包含 48 台机器,内部采用全互联高带宽网络,节点间通过 RoCE 互联——从而将高带宽通信域扩展至数百台设备,以满足高带宽需求的并行策略(TP/CP/EP)。在相同规模和环境下,这能带来约 30% 的额外预训练吞吐量提升。逻辑超级节点也是亲和性调度的基本单元,可在通信局部性与可调度性之间取得平衡。
- 内存优化:我们应用了 ZeRO-1、选择性重计算、分配器层级的 OOM 感知卸载,以及将填充 token 路由至零专家(zero-expert)的策略。
- Muon 优化器:我们在自家加速器上大规模部署 Muon 优化器,并针对 TP 并行、DP 状态冗余消除以及高效对称矩阵乘法内核进行了定向优化。
长上下文训练
我们从三个角度解决大规模长上下文训练中的挑战:
- LSA 算子与前向优化:我们为密集预热阶段和稀疏阶段分别实现了自研的确定性注意力算子,以及 KL 损失算子。我们采用仅前向的密集预热策略,在单次前向传播中同时计算 KL 损失和梯度,从而提升效率。
- 百万级上下文扩展:我们采用基于全量聚合的 CP 并行方案,可将 CP 扩展至 512 以上,从而支持原生百万级长度训练。训练数据在获取批次阶段重新打乱,并通过均衡 CP 策略进行分区,以维持工作负载平衡。
- 计算与通信重叠:我们精心设计了计算与通信之间的重叠。例如,捷径层架构使得 MoE 通信能够与并行分支计算重叠,而 LSA top-k 索引计算则与 KV 全量聚合重叠,从而减少同步开销。
推理
在百万 token 上下文中服务一个 1.6T 参数的模型是一个重大挑战,尤其在 HBM 容量、HBM I/O 带宽以及节点间互联带宽都极为紧张的情况下。我们通过模型、设备和部署层面的一系列优化来应对这一挑战。
模型专属优化
- 注意力机制:为高效应对超长上下文的 I/O、计算和内存瓶颈,我们从三个角度优化系统:(1)在预填充和解码阶段均采用吸收计算模式;(2)通过并发流将索引器与 MLA 前处理进行流水线化,以隐藏索引器开销;(3)利用 KV 缓存并行(KVP)将 KV 缓存分片到多个设备上。
- ScMoE:在 LongCat-Flash 的计算与通信重叠基础上,LongCat-2.0 进一步优化了调度策略。通过在加速器上利用显式的每核控制,我们实现了密集分支和 MoE 分支的完全并行执行,而不仅仅是部分重叠。
面向加速器的优化
- 超级内核:启用图模式后,内核之间的间隙被消除,但每个内核内部的启动开销依然存在。因此,我们采用超级内核来降低这种内核内的启动成本。
- 权重预取:该设备提供有限的 HBM 带宽,但拥有相对较大的 L2 缓存。我们利用这个更大的 L2 缓存来预取权重,在前一个算子的计算过程中隐藏 I/O 延迟。
- 扩展与扩缩:P 节点和 D 节点之间的 KV-cache 传输利用加速器内置的 200 Gbps 网络适配器。KV-cache 按层级方式传输。KV-cache 存储通过主机 RDMA 网络适配器构建。TP/SP/KVP 在扩展互连域内进行。
部署与服务
最优并行策略:LongCat-2.0 采用预填充-解码(PD)分离部署,以平衡 TTFT 和 TPOT。
- 预填充节点:处理长序列受限于节点间通信带宽,且 MoE 的调度/合并通信占主导运行时间。因此,我们使用多节点分块流水线并行(CPP)来缩小专家并行(EP)域。在每个流水线阶段内,注意力序列并行(SP)缓解了长序列的计算压力。
- 解码节点:主要约束是设备内存和 KV-cache I/O。我们应用 KVP 来分片 KV-cache 并降低其每设备内存占用,同时采用较大的 EP 度数(EP128)来降低每设备权重内存和每设备专家 I/O。
在两个阶段中,我们的并行方案(CPP/SP 和 KVP)能够与推理时的优化措施(如约束解码、多步调度和 MTP)干净地组合,确保最佳的服务性能。
- 专家并行负载均衡:解码节点上较大的专家并行度(EP degree)更容易导致专家间负载不均衡,我们通过专家并行负载均衡(EPLB)来解决这一问题。为了最大限度地减少其对服务性能的影响,我们在前向推理关键路径之外异步执行统计信息收集和放置计算。
向多位教师学习
为提升模型整体性能并扩展其能力边界,我们在后训练流程中引入了一种专门的专家分组设计,分为三类:智能体专家、推理专家和交互专家。
智能体专家专注于提升在复杂真实场景中的自主任务执行能力。它们在代码、工作、搜索等细粒度垂直领域达到SOTA水平。训练过程中,我们不仅优化端到端的任务成功率,还优化支撑智能体鲁棒性的原子能力,包括精确的工具调用、多轮API交互中可靠的参数解析,以及缓解无限循环和重复调用的自我修正机制。
推理专家扩展了模型逻辑推理的深度,并能够根据问题难度自适应调整计算量。这些专家在数学、STEM问题求解和多跳推理任务上表现出色,提升了模型处理复杂分析场景的能力。
交互专家专注于人类对齐与用户体验优化。它们改进了在多样化应用中细粒度的指令跟随能力,通过先进的对齐技术抑制事实性幻觉,并建立良好边界的安全机制,同时不影响有用性。
最后,我们采用MOPD架构整合这三类专家中最强的能力。这种融合使得最终模型能够结合强大的智能体执行、深度推理和高质量交互,从而准确理解复杂的用户需求,并可靠地完成具有挑战性的现实任务。
基于MOPD的多专家后训练架构概览。
模型能力展示
上述架构和基础设施层面的进步,最终体现为强大的能力。凭借其长上下文推理能力和专门的后期训练,LongCat-2.0 在完成真实世界任务方面表现出色。下面的演示将展示其在多种场景下的表现。请选择相应标签查看实际效果。
编程与工程
代码库迁移 / 网络应用开发
智能体与研究
数据分析 / 智能体研究 / 知识库搭建
内容生成
演示文稿生成 / 创意写作
代码库迁移
LongCat-2.0 读取你的完整代码库和迁移文档,分析架构,并将整个插件重写为新的 SDK —— 保留所有现有功能,捕捉潜在漏洞,并在首次构建时顺利编译通过。
评估
我们在代码、通用智能体和基础能力维度,将 LongCat-2.0 与领先的闭源模型进行对比评测。除非标注了 *,所有分数均在统一测试框架下内部评测得出。
| LongCat-2.0 | Gemini 3.1 Pro | GPT-5.5 | Claude Opus 4.6 | Claude Opus 4.7 | Claude Opus 4.8 | |
|---|---|---|---|---|---|---|
| 代码智能体 | ||||||
| Terminal-Bench 2.1 | 70.8 | 70.7* | 73.8* | - | 71.7* | 78.9* |
| SWE-bench Pro | 59.5 | 54.2* | 58.6* | 57.3* | 64.3* | 69.2* |
| SWE-bench Multilingual | 77.3 | 76.9* | - | 77.8* | 80.5* | 84.8* |
| 通用智能体 | ||||||
| FORTE † | 73.2 | 70.3 | 77.8 | 73.2 | 77.6 | 77.2 |
| BrowseComp | 79.9 | 85.9* | 84.4* | 84.0* | 79.3* | 84.3* |
| RWSearch | 78.8 | 76.3 | 85.3 | 81.3 | 79.3 | 77.3 |
| 基础能力 | ||||||
| IFEval | 90.0 | 96.1 | 95.0 | 92.2 | 88.7 | 86.0 |
| Writing Bench | 83.8 | 83.7 | 84.7 | - | 85.3 | 85.2 |
| IMO-AnswerBench | 81.8 | 90.0 | 79.5 | 75.3* | 81.8 | 75.3 |
| GPQA-diamond | 88.9 | 94.3* | 93.6* | 91.3* | 94.2* | 92.4 |
标注 * 的数值为外部(已公布)指标;其余均为内部评测。 "-" 表示暂无结果。所有分数均已归一化至 0–100 分制。
- Terminal-Bench 2.1 :通过 Claude Code 评测;每沙箱实例 8c16g;推理参数 temperature=1.0,top_k=-1,top_p=0.95;智能体超时时间 6 小时。
- SWE-Bench 系列 :通过 Claude Code 评测;每沙箱实例 4c8g;推理参数 temperature=1.0,top_k=-1,top_p=1;有问题的任务已修正。
- FORTE:FORTE(全周期办公现实世界任务评估)是一个通用的智能体基准测试,用于评估AI智能体在15个企业职业中的日常办公生产力,支持在OpenClaw / Hermes / Claude Code等框架中进行评估。所有任务限制在45分钟超时;2 CPU / 4GB内存;单轮API调用超时时间为500秒,最多重试10次。标记为†。
- RW-Search:一个内部搜索智能体客观基准测试。RW-Search采用裸模型评估(配置基本的搜索和浏览工具),不包含任何上下文管理策略。
- 基础:对于数学推理(如IMO-AnswerBench),推理参数temperature=1.0,top_k=-1,top_p=0.95;对于其他任务,temperature=0.7,top_k=-1,top_p=0.95。
LongCat 稀疏注意力 N-gram 嵌入向量的训练推理,从多个教师模型学习的能力展示与评估