Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型
阅读原文· liquid.aiLiquid AI 把推理和工具调用塞进了消费级硬件,笔记本上跑 250 token/s,边缘 Agent 有了一个能打的离线选项。性能不算顶尖,但‘全本地’这个特性,对隐私敏感的场景是真卖点。
Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型,该模型采用混合专家(MoE)架构,在包含 38T token 的数据集上训练完成。
今天,我们正式发布 LFM2.5-8B-A1B,这是一款专为消费级硬件上快速、可靠的工具调用而设计的边缘模型。
该模型基于我们于 2025 年 10 月发布的 LFM2-8B-A1B 进行了升级,扩展了 128K 上下文窗口,扩大了预训练规模(从 12T 模型 token 增至 38T 模型 token),并采用了大规模强化学习。我们还将其词汇量翻倍,以提升对非拉丁语言的模型 token 化效率。最终得到的模型能够串联工具调用、完成任务,甚至可以在入门级笔记本电脑上流畅运行。
基础模型(LFM2.5-8B-A1B-Base)和训练后模型(LFM2.5-8B-A1B)今日已在 Hugging Face 和我们的 Playground 上线。请查看我们的文档,了解如何在本地运行和微调这些模型。

亮点
- 设备端个人助手。专为驱动真实应用而设计,可在所有设备上串联工具调用并遵循复杂指令。
- 压缩性能。在指令遵循和智能体任务上,与规模大得多的稠密模型和 MoE 模型相比也毫不逊色。
- 无与伦比的吞吐量。在其尺寸级别中,CPU 和 GPU 推理速度最快,且从发布首日起即支持 llama.cpp、MLX、vLLM 和 SGLang。
自 LFM2-8B-A1B 以来的改进
与 LFM2-8B-A1B 相比,新版本将上下文窗口从 32,768 模型 token 扩展到 128,000 模型 token。这使得模型能够处理更长的文档并进行更长时间的推理。词汇量也从 65,536 扩大到 128,000,以更高效地对非拉丁语系文本进行模型 token 化。我们观察到在印地语、泰语、越南语、印度尼西亚语和阿拉伯语上压缩效果尤为显著。其余架构沿用了与 LFM2-8B-A1B 相同的 MoE、GQA 和门控短卷积块组合,如下图所示。

Unlike its predecessor, LFM2.5-8B-A1B is a reasoning-only model, producing an explicit chain of thought before its final answer. We adopted this strategy because MoE models generally run in compute-bound settings, where a smaller number of active parameters makes each reasoning token cheap. This provides a significant quality boost without compromising speed.
得益于推理能力和大规模训练的扩展,这个新版本的表现显著提升:
| 基准测试 | LFM2-8B-A1B | LFM2.5-8B-A1B | 差值 (Δ) |
|---|---|---|---|
| AA-Omniscience 指数 | -78.42 | -24.70 | +53.62 |
| AA-Omniscience 准确率 | 7.33 | 8.67 | +1.34 |
| AA-Omniscience 非幻觉率 | 7.46 | 63.47 | +56.01 |
| IFEval | 79.44 | 91.84 | +12.40 |
| IFBench | 26.00 | 56.47 | +30.47 |
| Multi-IF | 58.54 | 79.93 | +21.39 |
| MATH500 | 74.80 | 88.76 | +13.96 |
| AIME25 | 20.00 | 42.53 | +22.53 |
| BFCLv3 | 45.07 | 64.36 | +19.29 |
| BFCLv4 | 25.52 | 48.50 | +22.98 |
| Tau² 电信 (Tau² Telecom) | 13.60 | 88.07 | +74.47 |
| Tau² 零售 (Tau² Retail) | 7.02 | 39.82 | +32.80 |
训练亮点
Tokenizer 扩展。LFM2-8B-A1B 最初使用一个针对初始语言覆盖范围优化的 65K BPE tokenizer 进行训练。为了更好地支持 LFM2.5 中的非拉丁字母,我们通过原位扩展现有 tokenizer 的方式将词汇量翻倍至 128K,而不是从头重新训练模型。我们在原始合并的基础上,继续使用多语言语料库进行 BPE 合并训练,这使大多数现有 token ID 保持恒等映射,并让每个新 token 确定性地分解为一系列原始子 token。我们将新的嵌入行初始化为其子 token 分解的均值,并保持共享行不变。然后通过一个简短的两阶段适配来恢复质量:仅嵌入训练,接着是全模型持续预训练。
下表报告了 chars/token,即每个 token 大致承载多少文本:数值越高越好,新 tokenizer 在所有 16 种语言中效率更高。
| Tokenizer | 阿拉伯语 (ar) | 德语 (de) | 英语 (en) | 西班牙语 (es) | 法语 (fr) | 印地语 (hi) | 印尼语 (id) | 意大利语 (it) | 日语 (ja) | 韩语 (ko) | 波兰语 (pl) | 葡萄牙语 (pt) | 俄语 (ru) | 泰语 (th) | 越南语 (vi) | 中文 (zh) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 旧 tokenizer | 2.239 | 3.641 | 4.063 | 3.442 | 3.618 | 0.961 | 2.731 | 3.251 | 1.836 | 1.652 | 2.672 | 3.194 | 2.703 | 0.671 | 1.519 | 1.475 |
| 新 tokenizer | 3.107 | 3.783 | 4.137 | 3.579 | 3.759 | 2.118 | 3.513 | 3.475 | 1.963 | 1.943 | 2.895 | 3.450 | 2.876 | 2.269 | 3.311 | 1.620 |
| 提升幅度 | +38.8% | +3.9% | +1.8% | +4.0% | +3.9% | +120.4% | +28.6% | +6.9% | +6.9% | +17.6% | +8.3% | +8.0% | +6.4% | +238.2% | +117.9% | +9.8% |
上下文扩展。我们首先通过一个专注于推理、数学、工具使用和较长文档的 2T token 中期训练阶段,将上下文窗口扩展到 32K。随后,我们通过增加 RoPE 基值 θ 并运行另一个专注于长文档和长轨迹数据的 400B token 中期训练阶段,将上下文扩展到 128K。
死循环。我们增加了一个针对性的偏好优化阶段,以减少长推理轨迹中的死循环。该阶段会识别在特定上下文中容易触发循环行为的 token,然后将概率质量重新分配到合理的替代选项上,同时保持其余下一个 token 的分布基本不变。在强化学习过程中,我们还增加了一个轻量级的塑形奖励,以抑制过度使用常见的引发循环的重启词,比如“等等……”。我们将在专门的博客文章中分享关于完整流程、目标以及实证结果的更多细节。
模型幻觉。由于其参数量较少,边缘模型的知识容量有限,这会导致更多的幻觉。为了缓解幻觉,我们增加了一个针对性的强化学习阶段,该阶段使用基于 avg@k 的奖励,覆盖多样化的知识数据集。目标是在保留现有知识的同时,强化对超出可靠知识范围的问题的拒答行为。这产生了更清晰的知识边界和更明确的表达不确定性方式。
基准测试
我们在涵盖知识、指令遵循、数学和智能体工作流的各项基准测试上评估了 LFM2.5-8B-A1B。该模型在总参数量相近的密集模型以及规模更大的 MoE 模型中均具有竞争力。
| 模型 | 参数量 | AA-Omniscience | 指令遵循 | ||||
|---|---|---|---|---|---|---|---|
| Index | 准确率 | 无幻觉 | IFEval | IFBench | Multi-IF | ||
| LFM2.5-8B-A1B | 8B/A1B | -24.70 | 8.67 | 63.47 | 91.84 | 56.47 | 79.93 |
| Granite-4.0-H-Tiny | 7B/A1B | -75.50 | 9.37 | 6.38 | 82.23 | 21.28 | 59.00 |
| Qwen3.5-4B | 4B | -51.53 | 17.20 | 16.99 | 87.80 | 50.38 | 67.43 |
| Qwen3-30B-A3B-Thinking-2507 | 30.5B/3.3B | -51.31 | 18.80 | 13.87 | 90.82 | 51.11 | 79.04 |
| Gemma-4-E2B-IT | 5.1B | -72 | 7.00 | 15.05 | 82.93 | 33.53 | 69.70 |
| Gemma-4-E4B-IT | 8B | -50.67 | 8.10 | 36.06 | 87.74 | 39.48 | 77.58 |
| Gemma-4-26B-A4B-IT | 26B/4B | -62.07 | 14.37 | 10.75 | 91.40 | 47.25 | 82.06 |
| gpt-oss-20b | 21B/3.6B | -49.17 | 14.57 | 24.50 | 86.73 | 58.65 | 76.64 |
基于 avg@k 的奖励机制使 LFM2.5-8B-A1B 在保持合理准确率的同时,实现了显著更低的模型幻觉率。它在指令遵循基准测试上也表现领先,以极少的活跃参数量就能匹配 Gemma 4-26B 等更大的混合专家模型。
数学与智能体工作流
| 模型 | 参数量 | 数学 | 工具使用 | |||||
|---|---|---|---|---|---|---|---|---|
| MATH500 | AIME25 | AIME26 | BFCLv3 | BFCLv4 | Tau² 电信 | Tau² 零售 | ||
| LFM2.5-8B-A1B | 8B/A1B | 88.76 | 42.53 | 50.00 | 64.79 | 49.73 | 88.07 | 39.82 |
| Granite-4.0-H-Tiny | 7B/A1B | 59.20 | 4.93 | 3.33 | 56.89 | 28.52 | 16.67 | 18.42 |
| Qwen3.5-4B | 4B | 80.76 | 54.28 | 58.33 | 71.06 | 54.01 | 87.72 | 71.93 |
| Qwen3-30B-A3B-Thinking-2507 | 30.5B/3.3B | 86.48 | 71.67 | 66.67 | 73.39 | 50.53 | 21.93 | 56.14 |
| Gemma-4-E2B-IT | 5.1B | 64.00 | 26 | 30 | 56.44 | 31.91 | 22.37 | 18.95 |
| Gemma-4-E4B-IT | 8B | 65.00 | 34.33 | 40.67 | 57.31 | 33.92 | 26.75 | 42.11 |
| Gemma-4-26B-A4B-IT | 26B/4B | 94.20 | 68.67 | 72.00 | 68.87 | 55.87 | 42.11 | 55.26 |
| gpt-oss-20b | 21B/3.6B | 92.40 | 68.53 | 68.67 | 62.52 | 49.88 | 57.24 | 53.51 |
在智能体基准测试上,LFM2.5-8B-A1B 与更大的模型竞争力相当,在 Tau2-Telecom 上尤其强劲。随着智能体测试平台逐渐成为使用模型的主要方式,LFM2.5-8B-A1B 是为设备端、完全私有的智能体提供动力的第一步。
稀疏推理,无处不在
LFM2.5-8B-A1B 在发布首日即获得整个推理生态系统的全面支持:
- LEAP —— Liquid 的边缘 AI 平台,适用于 iOS 和 Android 部署
- llama.cpp —— 用于高效边缘推理的 GGUF 检查点
- MLX —— 针对 Apple Silicon 优化的推理
- vLLM —— GPU 加速服务,实现生产级吞吐量
- SGLang —— GPU 加速服务,实现生产级吞吐量
- ONNX —— 跨多种加速器的跨平台推理
CPU 推理。LFM2.5-8B-A1B 在发布首日即支持 llama.cpp,并可在日常消费级硬件上运行。

在笔记本电脑级别的芯片上,它都是我们测试过的读取提示词和生成答案最快的模型,在 M5 Max 上解码速度达 253 token/s,在 Ryzen AI Max+ 395 上为 146 token/s,同时内存占用保持在 6 GB 以下。在手机上甚至能维持约 30 token/s 的速度,因此一个强大的助手可以在你自己的设备上即时且私密地运行。
GPU 推理。我们通过积极贡献于 vLLM 和 SGLang 的代码库来支持其推理。我们在单块 NVIDIA H100 SXM5 GPU 上,采用持续负载设置测量输出吞吐量(总输出 token 数除以挂钟时间):在每个并发级别,我们持续维持目标数量的在途请求,每个请求完成后立即替换。

我们使用 SGLang 0.5.12 对每个模型进行基准测试,输入 1,024 个 token,最多输出 256 个 token,采用 BF16 精度,每个并发级别取 3 次运行的平均值。LFM2.5-8B-A1B 是其规格级别中最快的模型,在高并发下达到每秒 18.5K 输出 token,单块 H100 每天可处理超过 1.6B 个 token。
Local Cowork:亲眼见证运行
我们的开源桌面智能体演示 Localcowork 现已基于 LFM2.5-8B-A1B 运行。其设置与我们 3 月份用于 LFM2-24B-A2B 演示时相同:单台笔记本电脑,13 个 MCP 服务器上的 67 个工具,无需云服务、无需 API 密钥、无需数据离开本机。在相同的工具菜单下,工具选择速度更快,可靠性显著提升。
演示的重点不在于单个工具,而在于工具调度循环在消费级硬件上感觉具有交互性:提问、建议、确认、执行、重复,每次调度都在不到一秒内完成,并附带完整的审计跟踪,且你的数据永远不会离开设备。
借助 LFM2.5,我们正在实现"AI 可随处运行"的愿景。这些模型具有以下特点:
- 开放权重——可无限制地下载、微调与部署
- 从第一天起就快——原生支持 llama.cpp、MLX、vLLM、SGLang,覆盖 Apple、AMD、Intel、Qualcomm 和 Nvidia 硬件
- 完整的模型家族——从用于定制化的基础模型到专门的音频与视觉变体,单一架构覆盖多种应用场景
设备端智能体的未来从此启程。我们迫不及待想看到你的创造。
引用
请按如下格式引用本文:
Liquid AI,“LFM2.5-8B-A1B:你笔记本电脑上的个人助手”,Liquid AI 博客,2026 年 5 月。
或使用 BibTeX 引用:
@article{liquidAI20268BA1B,
author = {Liquid AI},
title = {LFM2.5-8B-A1B: Personal Assistant On Your Laptop},
journal = {Liquid AI Blog},
year = {2026},
note = {https://www.liquid.ai/blog/lfm2-5-8b-a1b},
} adsasd