Ling-2.6与Ring-2.6技术报告:高效即时的万亿参数智能体智能
万亿参数开源 Agent 模型,一个走即时响应,一个专攻复杂推理,对于做工具调用和自动化工作流的团队是能立刻上手的重要弹药。
Ling-2.6优化即时响应与输出token能力,Ring-2.6针对深度推理和复杂智能体工作流。基于Ling-2.0通过架构迁移预训练和大规模后训练升级。架构引入融合Lightning Attention与MLA的混合线性注意力设计,提升长上下文训练与解码效率。通过进化思维链、语言单元策略优化、双向偏好对齐和最短正确响应蒸馏优化token效率。提出KPop强化学习框架支持Ring-2.6-1T在环境交互数据上稳定训练,通过异步调度提升编码、搜索、工具使用和工作流执行的训练效率。2.6系列全部检查点已开源。
高效且可扩展的智能体智能需要模型既能提供低延迟响应,又能具备强大的推理能力,同时在训练、服务和部署上保持实用性。在本报告中,我们提出了 Ling-2.6 和 Ring-2.6,这是一系列为大规模应对这一挑战而设计的模型。Ling-2.6 针对即时响应生成和每个输出 token 的高能力进行了优化,而 Ring-2.6 则专为更深度的推理和更高级的智能体工作流而定制。我们没有从头开始训练,而是通过架构迁移预训练和大规模后训练来升级 Ling-2.0 基础模型。此次升级以模型架构、优化目标、服务系统和智能体训练环境的统一协同设计为指导,从而在模型能力和部署效率两方面均实现改进。在架构层面,我们引入了一种混合线性注意力设计,将 Lightning Attention 与 MLA 相结合,提高了长上下文训练和解码的效率。为了进一步提升 token 效率,我们通过演化思维链、语言单元策略优化、双向偏好对齐以及最短正确响应蒸馏来优化每个输出 token 的能力。针对智能体能力,我们提出了 KPop,这是一个强化学习框架,旨在支持 Ring-2.6-1T 在大规模环境基础数据上的稳定训练。KPop 通过在编码、搜索、工具使用和工作流执行之间进行异步调度来提高训练效率,从而实现对复杂智能体-环境交互的可扩展学习。Ling-2.6 和 Ring-2.6 共同为高效、可扩展且开放的智能体系统提供了一条实用路径。我们开源了 2.6 系列的所有检查点,以支持实用智能体智能领域的进一步研究和发展。