蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base
Ling-2.6 用混合线性注意力把万亿 MoE 基座模型的上下文能力推到了 256K,对于研究长上下文和 MoE 的团队是个有价值的基座,但它是未对齐的预训练模型,不能直接当对话助手用。
Ling-2.6-1T-base 是蚂蚁 inclusionAI 开源的万亿参数 MoE 基座模型(总参约 1T,激活 63B)。它由 Ling-2.0-1T-base 升级而来,采用 Lightning Attention 与 MLA 以 7:1 混合的线性注意力架构,经约 9.6T token 的迁移预训练、持续预训练和中训练,上下文窗口从 4K 分阶段扩展至 256K。在 MMLU(86.82)、SimpleQA、LongBenchv2(43.54)等基准上超越前代。该模型仅供研究(继续预训练、微调、蒸馏等),不直接提供对话功能。
🤗 Hugging Face | 🤖 ModelScope | 技术报告
Ling-2.6-1T-base
Ling-2.6-1T-base 是支撑 Ling-2.6-1T 和 Ring-2.6-1T 的基础检查点。它是一个万亿参数规模的混合专家语言模型,基于 Ling-2.0-1T-base 进行改造,采用了混合线性注意力设计,并经历了继续预训练和长上下文中期训练。
此发布版本面向研究、继续预训练、知识蒸馏以及基于监督或偏好的微调。它不是一个经过聊天对齐的助手模型。如果您需要开箱即用的指令模型或推理模型,请使用对应的 Ling-2.6 或 Ring-2.6 后训练检查点。
1. 模型概述
Ling-2.6-1T-base 旨在保留 Ling-2.0 万亿级骨干网络的能力,同时大幅提升长上下文训练和推理的效率。核心升级是一个混合注意力改造,将 Lightning Attention 与 MLA 以 7:1 的比例结合,并配有从原始基于 GQA 的架构平滑迁移的管道。
根据技术报告,该模型在迁移预训练、继续预训练和中期训练阶段共使用了约 9.6T 模型 token 进行训练,并通过分阶段将上下文从 4K 扩展到 256K。同一基础检查点随后被特化为:
- Ling-2.6 用于即时、高效的 token 响应 - Ring-2.6 用于更深度的推理和长周期智能体工作流
2. 关键特性
- 混合线性注意力架构,将 Lightning Attention 与 MLA 以 7:1 的比例结合 - 万亿参数 MoE 骨干网络,从 Ling-2.0-1T-base 升级而来,而非从头重新训练 - 长上下文训练管道,在中期训练中扩展至 256K 上下文 - 继续预训练混合数据,涵盖智能体数据、长上下文数据、知识丰富的网络数据、数学、代码和多语言语料 - 在知识、数学、代码、推理和长上下文理解基准测试中表现出强大的基础模型质量
3. 模型摘要
项目 数值 架构 细粒度MoE结合混合线性注意力 参数量级 总参数量约1T,激活参数量约63B Transformer层数 80 注意力头数 64 隐藏层大小 8192 每层MoE的门控专家数 256 每层MoE的共享专家数 1 每token激活的门控专家数 8 稠密FFN层 前4个Transformer块 专家中间大小 2048 稠密层中间大小 18432 词表大小 157,184 位置编码 部分RoPE 注意力设计 Lightning Attention + MLA,比例7:1 训练流程 迁移预训练 + 继续预训练 + 中期训练 总训练token数 约9.6T 上下文训练计划 4K -> 32K -> 256K
4. 训练亮点
架构迁移
该模型从Ling-2.0-1T-base出发,通过多阶段迁移流程转换为Ling-2.6-1T架构,流程包括:
Lightning Attention 转换
线性预热
MLA 转换
MLA 预热
完整继续预训练
这种改造旨在保留预训练能力,同时降低长上下文计算成本和KV-cache压力。
数据混合
继续预训练和中期训练阶段包括:
基于工具使用和编程环境构建的智能体语料
涵盖数学、网页解析、摘要、检索和多跳推理的长上下文语料
通用网络知识数据,并针对性地增强STEM和事实性内容
数学与代码语料
覆盖21种语言的多语言数据
5. 基础模型评估
以下数据选自技术报告,反映基础模型评估结果,而非聊天对齐或指令微调后的性能。
评测基准 Ling-2.0-1T-base Ling-2.6-1T-base MMLU 86.03 86.82 MMLU-Pro 67.91 67.79 GPQA 41.92 45.45 SimpleQA 20.87 38.26 C-SimpleQA 64.53 76.83 MMMLU 68.68 71.53 GSM8K 89.31 93.93 OmniMath 33.60 38.70 HumanEval-Plus 83.54 85.98 LiveCodeBench 40.09 44.27 BIRD-SQL 42.70 44.59 BBH 86.88 89.73 AutoLogic 65.76 67.43 LEval 72.30 76.21 LongBenchv2 30.02 43.54
在技术报告中,Ling-2.6-1T-base 相较于 Ling-2.0-1T-base 在多个方面表现出广泛提升,尤其是在事实知识、多语言知识覆盖、长上下文理解以及面向推理的评估上,同时保持或增强了数学和代码能力。在此选定的数据子集中,一个值得注意的例外是MMLU-Pro,其中Ling-2.0-1T-base仍然略微更高。
6. 预期用途
推荐使用场景:
继续预训练
面向领域自适应的监督微调
偏好优化与 RL 后训练
蒸馏研究
长上下文与 MoE 系统研究
不推荐直接用于以下场景:
直接的终端用户聊天部署
未经过额外对齐与评估的安全关键型应用
单 GPU 本地推理
7. 局限性
这是一个基座模型,未经指令对齐。
未经过额外后训练的情况下,输出可能不准确、有偏见、不完整或不安全。
长上下文质量取决于推理时使用的服务堆栈、位置缩放配置以及提示词格式。
训练数据混合了互联网规模数据与合成数据,因此模型可能会复现事实错误或不良伪影。
技术报告中的评测基准结果是在受控的内部评估环境下收集的,不应视为对下游生产行为的保证。
8. 与其他版本的关系
Ling-2.6-1T:从该基座模型衍生出的经过指令和即时响应优化的模型
Ring-2.6-1T:从同一 2.6 代模型衍生出的推理与智能体优化模型
如果你的目标是交互式助手使用而非基座检查点研究,这些后训练模型通常是更好的起点。
9. 使用说明
这是一个基座检查点。用户可以加载它进行简单生成或进一步后训练。值得注意的是,实际部署万亿参数模型通常需要多节点分布式基础设施。以下示例仅展示加载模式。
```python import torch from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "inclusionAI/Ling-2.6-1T-base" tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_name, trust_remote_code=True, device_map="auto", ) prompt = "Explain the difference between full attention and linear attention." inputs = tokenizer(prompt, return_tensors="pt").to(model.device) outputs = model.generate( **inputs, max_new_tokens=256, do_sample=False, ) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ```
对于生产级推理,建议使用支持该架构和模型大小的分布式服务堆栈,例如 SGLang 或其他引擎。你可以参考我们的指令版本进行 SGLang 部署。
10. 许可证
本检查点及代码仓库采用 MIT 许可证授权。
聊天模板
文件信息
inclusionAI/Ling-2.6-1T-base 论文