蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base

2026-06-02 19:34·18天前

精选理由

Ling-2.6 用混合线性注意力把万亿 MoE 基座模型的上下文能力推到了 256K，对于研究长上下文和 MoE 的团队是个有价值的基座，但它是未对齐的预训练模型，不能直接当对话助手用。

AI 摘要

Ling-2.6-1T-base 是蚂蚁 inclusionAI 开源的万亿参数 MoE 基座模型（总参约 1T，激活 63B）。它由 Ling-2.0-1T-base 升级而来，采用 Lightning Attention 与 MLA 以 7:1 混合的线性注意力架构，经约 9.6T token 的迁移预训练、持续预训练和中训练，上下文窗口从 4K 分阶段扩展至 256K。在 MMLU（86.82）、SimpleQA、LongBenchv2（43.54）等基准上超越前代。该模型仅供研究（继续预训练、微调、蒸馏等），不直接提供对话功能。

AI 翻译 · 中文

🤗 Hugging Face | 🤖 ModelScope | 技术报告

Ling-2.6-1T-base

Ling-2.6-1T-base 是支撑 Ling-2.6-1T 和 Ring-2.6-1T 的基础检查点。它是一个万亿参数规模的混合专家语言模型，基于 Ling-2.0-1T-base 进行改造，采用了混合线性注意力设计，并经历了继续预训练和长上下文中期训练。

此发布版本面向研究、继续预训练、知识蒸馏以及基于监督或偏好的微调。它不是一个经过聊天对齐的助手模型。如果您需要开箱即用的指令模型或推理模型，请使用对应的 Ling-2.6 或 Ring-2.6 后训练检查点。

1. 模型概述

Ling-2.6-1T-base 旨在保留 Ling-2.0 万亿级骨干网络的能力，同时大幅提升长上下文训练和推理的效率。核心升级是一个混合注意力改造，将 Lightning Attention 与 MLA 以 7:1 的比例结合，并配有从原始基于 GQA 的架构平滑迁移的管道。

根据技术报告，该模型在迁移预训练、继续预训练和中期训练阶段共使用了约 9.6T 模型 token 进行训练，并通过分阶段将上下文从 4K 扩展到 256K。同一基础检查点随后被特化为：

- Ling-2.6 用于即时、高效的 token 响应 - Ring-2.6 用于更深度的推理和长周期智能体工作流

2. 关键特性

- 混合线性注意力架构，将 Lightning Attention 与 MLA 以 7:1 的比例结合 - 万亿参数 MoE 骨干网络，从 Ling-2.0-1T-base 升级而来，而非从头重新训练 - 长上下文训练管道，在中期训练中扩展至 256K 上下文 - 继续预训练混合数据，涵盖智能体数据、长上下文数据、知识丰富的网络数据、数学、代码和多语言语料 - 在知识、数学、代码、推理和长上下文理解基准测试中表现出强大的基础模型质量

3. 模型摘要

项目数值架构细粒度MoE结合混合线性注意力参数量级总参数量约1T，激活参数量约63B Transformer层数 80 注意力头数 64 隐藏层大小 8192 每层MoE的门控专家数 256 每层MoE的共享专家数 1 每token激活的门控专家数 8 稠密FFN层前4个Transformer块专家中间大小 2048 稠密层中间大小 18432 词表大小 157,184 位置编码部分RoPE 注意力设计 Lightning Attention + MLA，比例7:1 训练流程迁移预训练 + 继续预训练 + 中期训练总训练token数约9.6T 上下文训练计划 4K -> 32K -> 256K

4. 训练亮点

架构迁移

该模型从Ling-2.0-1T-base出发，通过多阶段迁移流程转换为Ling-2.6-1T架构，流程包括：

Lightning Attention 转换

线性预热

MLA 转换

MLA 预热

完整继续预训练

这种改造旨在保留预训练能力，同时降低长上下文计算成本和KV-cache压力。

数据混合

继续预训练和中期训练阶段包括：

基于工具使用和编程环境构建的智能体语料

涵盖数学、网页解析、摘要、检索和多跳推理的长上下文语料

通用网络知识数据，并针对性地增强STEM和事实性内容

数学与代码语料

覆盖21种语言的多语言数据

5. 基础模型评估

以下数据选自技术报告，反映基础模型评估结果，而非聊天对齐或指令微调后的性能。

评测基准 Ling-2.0-1T-base Ling-2.6-1T-base MMLU 86.03 86.82 MMLU-Pro 67.91 67.79 GPQA 41.92 45.45 SimpleQA 20.87 38.26 C-SimpleQA 64.53 76.83 MMMLU 68.68 71.53 GSM8K 89.31 93.93 OmniMath 33.60 38.70 HumanEval-Plus 83.54 85.98 LiveCodeBench 40.09 44.27 BIRD-SQL 42.70 44.59 BBH 86.88 89.73 AutoLogic 65.76 67.43 LEval 72.30 76.21 LongBenchv2 30.02 43.54

在技术报告中，Ling-2.6-1T-base 相较于 Ling-2.0-1T-base 在多个方面表现出广泛提升，尤其是在事实知识、多语言知识覆盖、长上下文理解以及面向推理的评估上，同时保持或增强了数学和代码能力。在此选定的数据子集中，一个值得注意的例外是MMLU-Pro，其中Ling-2.0-1T-base仍然略微更高。

6. 预期用途

推荐使用场景：

继续预训练

面向领域自适应的监督微调

偏好优化与 RL 后训练

蒸馏研究

长上下文与 MoE 系统研究

不推荐直接用于以下场景：

直接的终端用户聊天部署

未经过额外对齐与评估的安全关键型应用

单 GPU 本地推理

7. 局限性

这是一个基座模型，未经指令对齐。

未经过额外后训练的情况下，输出可能不准确、有偏见、不完整或不安全。

长上下文质量取决于推理时使用的服务堆栈、位置缩放配置以及提示词格式。

训练数据混合了互联网规模数据与合成数据，因此模型可能会复现事实错误或不良伪影。

技术报告中的评测基准结果是在受控的内部评估环境下收集的，不应视为对下游生产行为的保证。

8. 与其他版本的关系

Ling-2.6-1T：从该基座模型衍生出的经过指令和即时响应优化的模型

Ring-2.6-1T：从同一 2.6 代模型衍生出的推理与智能体优化模型

如果你的目标是交互式助手使用而非基座检查点研究，这些后训练模型通常是更好的起点。

9. 使用说明

这是一个基座检查点。用户可以加载它进行简单生成或进一步后训练。值得注意的是，实际部署万亿参数模型通常需要多节点分布式基础设施。以下示例仅展示加载模式。

```python import torch from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "inclusionAI/Ling-2.6-1T-base" tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_name, trust_remote_code=True, device_map="auto", ) prompt = "Explain the difference between full attention and linear attention." inputs = tokenizer(prompt, return_tensors="pt").to(model.device) outputs = model.generate( **inputs, max_new_tokens=256, do_sample=False, ) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ```

对于生产级推理，建议使用支持该架构和模型大小的分布式服务堆栈，例如 SGLang 或其他引擎。你可以参考我们的指令版本进行 SGLang 部署。

10. 许可证

本检查点及代码仓库采用 MIT 许可证授权。

聊天模板

文件信息

inclusionAI/Ling-2.6-1T-base 论文

Hugging Face开源生态推理模型发布

蚂蚁 inclusionAI：HuggingFace 新模型

精选61