蚂蚁集团百灵大模型开源 Ling-2.6-flash,提供 BF16、FP8、INT4 等版本
阅读原文· ithome.com蚂蚁集团百灵大模型宣布开源Ling-2.6-flash,提供BF16、FP8、INT4等多个版本供开发者灵活选用。该模型总参数量104B,激活参数7.4B,是一款Instruct模型。官方基于开发者反馈优化了中英文切换及主流编程框架适配效果。其核心优势包括:采用混合线性架构,在4卡H20上推理速度最快达340 tokens/s;通过Token效率优化,在评测中消耗的tokens仅为同类模型的约1/10;针对Agent场景增强了工具调用与任务执行能力,在多项评测中达到先进水平。模型已在Hugging Face和ModelScope平台开源。
IT之家 4 月 29 日消息,蚂蚁集团旗下的百灵大模型今日宣布,Ling-2.6-flash 正式开源。同步提供 BF16、FP8、INT4 等多个版本,方便开发者根据不同硬件环境、推理成本和部署需求灵活选择。
Ling-2.6-flash 是一款总参数量 104B、激活参数 7.4B 的 Instruct 模型,两周前以 Elephant Alpha 的匿名身份登陆 OpenRouter。
官方表示,过去两周里持续收集来自开发者的真实反馈,并针对 Ling-2.6-flash 的使用体验进行了多轮优化,进一步改善了中英文自然切换能力,并提升了其在主流 Coding 框架中的适配效果。
据介绍,Ling-2.6-flash 的核心能力体现在三个方面:
混合线性架构,释放推理效率:通过引入混合线性架构,模型从底层优化计算效率,在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s,Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍
Token 效率优化,提升智效比:在训练过程中对 Token 效率进行了针对性校准,力求以更精简的输出完成既定目标。在 Artificial Analysis 的完整评测中,Ling-2.6-flash 仅消耗 15M tokens,约为 Nemotron-3-Super 等模型的 1/10