# atomic.chat为LLaMA.cpp引入多令牌预测技术，显著加速本地模型推理

- 来源：Rohan Paul (@rohanpaul_ai)
- 发布时间：2026-05-08 07:38
- AIHOT 分数：78
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmow5nur702z9slcxewvl62nn
- 原文链接：https://x.com/rohanpaul_ai/status/2052533657525698802

## 精选理由

在笔记本上把 Gemma 26B 的生成速度拉高 40% 是个真实的体验提升，atomic.chat 把 MTP 带入 LLaMA.cpp 生态，本地 AI 玩家可以直接拿去用。

## AI 摘要

atomic.chat通过为LLaMA.cpp引入多令牌预测技术，大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案，由主模型进行验证。在MacBook Pro M5 Max上测试时，使Gemma 4 26B模型的令牌生成速度加快约40%，整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位，为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。

## 正文

atomic[.]chat 刚刚让 Gemma 4 26B 在 LLaMA.cpp 中运行得更快。

在其 MacBook Pro M5 Max 测试中，模型 token 生成速度提升了约 40%。

这对本地大语言模型来说是个好消息，因为 LLaMA.cpp 和 GGUF 与本地 AI 用户群体关系紧密，而这一生态的支持往往延伸至桌面应用、编程智能体，以及私有的设备端助手。

MTP（maltai token prediction）就像一个更小型的辅助模型，负责草拟接下来几个词，而主模型再检查这些词是否可接受。

如果草稿正确，系统就会快速接受多个模型 token。

如果草稿错误，系统会拒绝错误部分，并回退到正常的生成模式。

### 引用推文

> atomic.chat：Multi-Token Prediction (MTP) for LLaMA.cpp! Running Gemma4 local model 1.5x faster. We patched LLaMA.cpp. Quantized Gemma 4 assistant models into GGUF format. W...
