美团发布开源编码模型LongCat-2.0,采用1.6T参数MoE架构(活跃参数33B-56B),支持1M tokens上下文窗口。该模型在5万块国产芯片上从头训练,使用华为HCCL通信库,验证国内算力集群可胜任大模型预训练。已开源至longcat[.]ai和OpenRouter,调用量全球前三。与DeepSeek-V4-pro仅推理使用国产硬件不同,LongCat-2.0预训练和推理均依赖国产芯片。
🇨🇳中国在本地训练的人工智能领域宣称取得新里程碑,美团推出 LongCat-2.0。
中国外卖巨头美团刚刚发布了 LongCat-2.0,一个开源的 1.6T 参数 MoE(33B–56B parameters)编程模型。上下文窗口为 1M tokens。
开源:可在 longcat[.]ai 和 OpenRouter 上获取,按调用量排名全球前三。
LongCat-2.0 从头开始使用 5 万颗中国国产芯片进行训练,美团表示,这证明大规模模型训练现在可以在国产计算集群上完成。
这再次表明中国 AI 市场对自主可控的推动日益增强,自 2022 年美国实施出口管制以来,DeepSeek、阿里巴巴、字节跳动等公司都试图减少在模型训练上对美国芯片的依赖。
据美团称,DeepSeek-V4-pro 仅依赖国产芯片进行推理,而 LongCat-2.0 在推理和预训练中都使用了国产硬件。
美团没有直接指明其硬件供应商,但在周二的一篇微信推文中表示,它使用了华为集合通信库(HCCL)来使训练更加稳定。HCCL 是一种芯片间通信系统,类似于英伟达集合通信库(NCCL)。
这消除了人们对于 Atlas-950 SuperPoDs 无法为智谱 AI 和 DeepSeek 训练大语言模型的疑虑。