在笔记本上把 Gemma 26B 的生成速度拉高 40% 是个真实的体验提升,atomic.chat 把 MTP 带入 LLaMA.cpp 生态,本地 AI 玩家可以直接拿去用。
atomic.chat通过为LLaMA.cpp引入多令牌预测技术,大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案,由主模型进行验证。在MacBook Pro M5 Max上测试时,使Gemma 4 26B模型的令牌生成速度加快约40%,整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位,为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。
atomic[.]chat 刚刚让 Gemma 4 26B 在 LLaMA.cpp 中运行得更快。
在其 MacBook Pro M5 Max 测试中,模型 token 生成速度提升了约 40%。
这对本地大语言模型来说是个好消息,因为 LLaMA.cpp 和 GGUF 与本地 AI 用户群体关系紧密,而这一生态的支持往往延伸至桌面应用、编程智能体,以及私有的设备端助手。
MTP(maltai token prediction)就像一个更小型的辅助模型,负责草拟接下来几个词,而主模型再检查这些词是否可接受。
如果草稿正确,系统就会快速接受多个模型 token。
如果草稿错误,系统会拒绝错误部分,并回退到正常的生成模式。