美团发布LongCat-2.0,1.6T参数MoE架构,激活参数~48B,上下文窗口1M(最大输出128K),使用5-6万张国产加速卡训练,训练推理全程零英伟达依赖。核心技术包括N-gram Embedding降低路由通信开销、稀疏注意力+跨层索引支撑长上下文、自研底层算子弥补国产芯片生态。定位Agent+Coding优先,非通用对话。Benchmark:Terminal-Bench 2.1 70.8,SWE-bench Pro 59.5(超GPT-5.5的58.6),SWE-bench Multilingual 77.3,FORTE 73.2等。与DeepSeek V4参数规模相近但路径不同:DeepSeek开源+双栈,LongCat强调全链路国产化。
美团发布 LongCat-2.0 了,1.6T 参数 MoE 架构,激活参数 48B,上下文窗口 1M(最大输出 128K),采用 5-6 万张中国国产加速卡训练,训练推理全程零英伟达依赖。
三项关键技术 1. N-gram Embedding:参数前移 embedding 层,减 MoE 路由与通信开销 2. 稀疏注意力 + 跨层索引:支撑 1M 上下文,控制计算成本 3. 底层算子自研:确定性 FAG、Scatter 重写等,弥补国产芯片生态短板
能力定位 Agent + Coding 优先,非通用对话。Preview 在 OpenRouter 开发者调用量居前,Claude Code / Hermes 生态采用度高。
与 DeepSeek V4 的差异 参数量级相近(1.6T / ~48B / 1M),路径不同:DeepSeek 开源 + 双栈适配;LongCat 强调训推全链路国产化。