# Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型

- 来源：Hacker News 热门（buzzing.cc 中文翻译）
- 作者：simjnd
- 发布时间：2026-05-30 05:32
- AIHOT 分数：70
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmprg4syz00r2slljcxjiq9c2
- 原文链接：https://www.liquid.ai/blog/lfm2-5-8b-a1b

## 精选理由

Liquid AI 把推理和工具调用塞进了消费级硬件，笔记本上跑 250 token/s，边缘 Agent 有了一个能打的离线选项。性能不算顶尖，但‘全本地’这个特性，对隐私敏感的场景是真卖点。

## AI 摘要

Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型，该模型采用混合专家（MoE）架构，在包含 38T token 的数据集上训练完成。

## 正文

今天，我们正式发布 LFM2.5-8B-A1B，这是一款专为消费级硬件上快速、可靠的工具调用而设计的边缘模型。

该模型基于我们于 2025 年 10 月发布的 LFM2-8B-A1B 进行了升级，扩展了 128K 上下文窗口，扩大了预训练规模（从 12T 模型 token 增至 38T 模型 token），并采用了大规模强化学习。我们还将其词汇量翻倍，以提升对非拉丁语言的模型 token 化效率。最终得到的模型能够串联工具调用、完成任务，甚至可以在入门级笔记本电脑上流畅运行。

基础模型（LFM2.5-8B-A1B-Base）和训练后模型（LFM2.5-8B-A1B）今日已在 Hugging Face 和我们的 Playground 上线。请查看我们的文档，了解如何在本地运行和微调这些模型。

*AA-Omniscience Index（越高越好）：奖励正确答案，惩罚模型幻觉。得分范围从 -100 到 100。更多结果请参见 Artificial Analysis。

亮点

设备端个人助手。专为驱动真实应用而设计，可在所有设备上串联工具调用并遵循复杂指令。

压缩性能。在指令遵循和智能体任务上，与规模大得多的稠密模型和 MoE 模型相比也毫不逊色。

无与伦比的吞吐量。在其尺寸级别中，CPU 和 GPU 推理速度最快，且从发布首日起即支持 llama.cpp、MLX、vLLM 和 SGLang。

自 LFM2-8B-A1B 以来的改进

与 LFM2-8B-A1B 相比，新版本将上下文窗口从 32,768 模型 token 扩展到 128,000 模型 token。这使得模型能够处理更长的文档并进行更长时间的推理。词汇量也从 65,536 扩大到 128,000，以更高效地对非拉丁语系文本进行模型 token 化。我们观察到在印地语、泰语、越南语、印度尼西亚语和阿拉伯语上压缩效果尤为显著。其余架构沿用了与 LFM2-8B-A1B 相同的 MoE、GQA 和门控短卷积块组合，如下图所示。

Unlike its predecessor, LFM2.5-8B-A1B is a reasoning-only model, producing an explicit chain of thought before its final answer. We adopted this strategy because MoE models generally run in compute-bound settings, where a smaller number of active parameters makes each reasoning token cheap. This provides a significant quality boost without compromising speed.

得益于推理能力和大规模训练的扩展，这个新版本的表现显著提升：

基准测试

LFM2-8B-A1B

LFM2.5-8B-A1B

差值 (Δ)

AA-Omniscience 指数

-78.42

-24.70

+53.62

AA-Omniscience 准确率

7.33

8.67

+1.34

AA-Omniscience 非幻觉率

7.46

63.47

+56.01

IFEval

79.44

91.84

+12.40

IFBench

26.00

56.47

+30.47

Multi-IF

58.54

79.93

+21.39

MATH500

74.80

88.76

+13.96

AIME25

20.00

42.53

+22.53

BFCLv3

45.07

64.36

+19.29

BFCLv4

25.52

48.50

+22.98

Tau² 电信 (Tau² Telecom)

13.60

88.07

+74.47

Tau² 零售 (Tau² Retail)

7.02

39.82

+32.80

训练亮点

Tokenizer 扩展。LFM2-8B-A1B 最初使用一个针对初始语言覆盖范围优化的 65K BPE tokenizer 进行训练。为了更好地支持 LFM2.5 中的非拉丁字母，我们通过原位扩展现有 tokenizer 的方式将词汇量翻倍至 128K，而不是从头重新训练模型。我们在原始合并的基础上，继续使用多语言语料库进行 BPE 合并训练，这使大多数现有 token ID 保持恒等映射，并让每个新 token 确定性地分解为一系列原始子 token。我们将新的嵌入行初始化为其子 token 分解的均值，并保持共享行不变。然后通过一个简短的两阶段适配来恢复质量：仅嵌入训练，接着是全模型持续预训练。

下表报告了 chars/token，即每个 token 大致承载多少文本：数值越高越好，新 tokenizer 在所有 16 种语言中效率更高。

Tokenizer

阿拉伯语 (ar)

德语 (de)

英语 (en)

西班牙语 (es)

法语 (fr)

印地语 (hi)

印尼语 (id)

意大利语 (it)

日语 (ja)

韩语 (ko)

波兰语 (pl)

葡萄牙语 (pt)

俄语 (ru)

泰语 (th)

越南语 (vi)

中文 (zh)

旧 tokenizer

2.239

3.641

4.063

3.442

3.618

0.961

2.731

3.251

1.836

1.652

2.672

3.194

2.703

0.671

1.519

1.475

新 tokenizer

3.107

3.783

4.137

3.579

3.759

2.118

3.513

3.475

1.963

1.943

2.895

3.450

2.876

2.269

3.311

1.620

提升幅度

+38.8%

+3.9%

+1.8%

+4.0%

+3.9%

+120.4%

+28.6%

+6.9%

+6.9%

+17.6%

+8.3%

+8.0%

+6.4%

+238.2%

+117.9%

+9.8%

上下文扩展。我们首先通过一个专注于推理、数学、工具使用和较长文档的 2T token 中期训练阶段，将上下文窗口扩展到 32K。随后，我们通过增加 RoPE 基值 θ 并运行另一个专注于长文档和长轨迹数据的 400B token 中期训练阶段，将上下文扩展到 128K。

死循环。我们增加了一个针对性的偏好优化阶段，以减少长推理轨迹中的死循环。该阶段会识别在特定上下文中容易触发循环行为的 token，然后将概率质量重新分配到合理的替代选项上，同时保持其余下一个 token 的分布基本不变。在强化学习过程中，我们还增加了一个轻量级的塑形奖励，以抑制过度使用常见的引发循环的重启词，比如“等等……”。我们将在专门的博客文章中分享关于完整流程、目标以及实证结果的更多细节。

模型幻觉。由于其参数量较少，边缘模型的知识容量有限，这会导致更多的幻觉。为了缓解幻觉，我们增加了一个针对性的强化学习阶段，该阶段使用基于 avg@k 的奖励，覆盖多样化的知识数据集。目标是在保留现有知识的同时，强化对超出可靠知识范围的问题的拒答行为。这产生了更清晰的知识边界和更明确的表达不确定性方式。

基准测试

我们在涵盖知识、指令遵循、数学和智能体工作流的各项基准测试上评估了 LFM2.5-8B-A1B。该模型在总参数量相近的密集模型以及规模更大的 MoE 模型中均具有竞争力。

模型 参数量 AA-Omniscience 指令遵循

Index 准确率 无幻觉 IFEval IFBench Multi-IF

LFM2.5-8B-A1B 8B/A1B -24.70 8.67 63.47 91.84 56.47 79.93

Granite-4.0-H-Tiny 7B/A1B -75.50 9.37 6.38 82.23 21.28 59.00

Qwen3.5-4B 4B -51.53 17.20 16.99 87.80 50.38 67.43

Qwen3-30B-A3B-Thinking-2507 30.5B/3.3B -51.31 18.80 13.87 90.82 51.11 79.04

Gemma-4-E2B-IT 5.1B -72 7.00 15.05 82.93 33.53 69.70

Gemma-4-E4B-IT 8B -50.67 8.10 36.06 87.74 39.48 77.58

Gemma-4-26B-A4B-IT 26B/4B -62.07 14.37 10.75 91.40 47.25 82.06

gpt-oss-20b 21B/3.6B -49.17 14.57 24.50 86.73 58.65 76.64

基于 avg@k 的奖励机制使 LFM2.5-8B-A1B 在保持合理准确率的同时，实现了显著更低的模型幻觉率。它在指令遵循基准测试上也表现领先，以极少的活跃参数量就能匹配 Gemma 4-26B 等更大的混合专家模型。

数学与智能体工作流

模型 参数量 数学 工具使用

MATH500 AIME25 AIME26 BFCLv3 BFCLv4 Tau² 电信 Tau² 零售

LFM2.5-8B-A1B 8B/A1B 88.76 42.53 50.00 64.79 49.73 88.07 39.82

Granite-4.0-H-Tiny 7B/A1B 59.20 4.93 3.33 56.89 28.52 16.67 18.42

Qwen3.5-4B 4B 80.76 54.28 58.33 71.06 54.01 87.72 71.93

Qwen3-30B-A3B-Thinking-2507 30.5B/3.3B 86.48 71.67 66.67 73.39 50.53 21.93 56.14

Gemma-4-E2B-IT 5.1B 64.00 26 30 56.44 31.91 22.37 18.95

Gemma-4-E4B-IT 8B 65.00 34.33 40.67 57.31 33.92 26.75 42.11

Gemma-4-26B-A4B-IT 26B/4B 94.20 68.67 72.00 68.87 55.87 42.11 55.26

gpt-oss-20b 21B/3.6B 92.40 68.53 68.67 62.52 49.88 57.24 53.51

在智能体基准测试上，LFM2.5-8B-A1B 与更大的模型竞争力相当，在 Tau2-Telecom 上尤其强劲。随着智能体测试平台逐渐成为使用模型的主要方式，LFM2.5-8B-A1B 是为设备端、完全私有的智能体提供动力的第一步。

稀疏推理，无处不在

LFM2.5-8B-A1B 在发布首日即获得整个推理生态系统的全面支持：

LEAP —— Liquid 的边缘 AI 平台，适用于 iOS 和 Android 部署

llama.cpp —— 用于高效边缘推理的 GGUF 检查点

MLX —— 针对 Apple Silicon 优化的推理

vLLM —— GPU 加速服务，实现生产级吞吐量

SGLang —— GPU 加速服务，实现生产级吞吐量

ONNX —— 跨多种加速器的跨平台推理

CPU 推理。LFM2.5-8B-A1B 在发布首日即支持 llama.cpp，并可在日常消费级硬件上运行。

在笔记本电脑级别的芯片上，它都是我们测试过的读取提示词和生成答案最快的模型，在 M5 Max 上解码速度达 253 token/s，在 Ryzen AI Max+ 395 上为 146 token/s，同时内存占用保持在 6 GB 以下。在手机上甚至能维持约 30 token/s 的速度，因此一个强大的助手可以在你自己的设备上即时且私密地运行。

GPU 推理。我们通过积极贡献于 vLLM 和 SGLang 的代码库来支持其推理。我们在单块 NVIDIA H100 SXM5 GPU 上，采用持续负载设置测量输出吞吐量（总输出 token 数除以挂钟时间）：在每个并发级别，我们持续维持目标数量的在途请求，每个请求完成后立即替换。

我们使用 SGLang 0.5.12 对每个模型进行基准测试，输入 1,024 个 token，最多输出 256 个 token，采用 BF16 精度，每个并发级别取 3 次运行的平均值。LFM2.5-8B-A1B 是其规格级别中最快的模型，在高并发下达到每秒 18.5K 输出 token，单块 H100 每天可处理超过 1.6B 个 token。

Local Cowork：亲眼见证运行

我们的开源桌面智能体演示 Localcowork 现已基于 LFM2.5-8B-A1B 运行。其设置与我们 3 月份用于 LFM2-24B-A2B 演示时相同：单台笔记本电脑，13 个 MCP 服务器上的 67 个工具，无需云服务、无需 API 密钥、无需数据离开本机。在相同的工具菜单下，工具选择速度更快，可靠性显著提升。

演示的重点不在于单个工具，而在于工具调度循环在消费级硬件上感觉具有交互性：提问、建议、确认、执行、重复，每次调度都在不到一秒内完成，并附带完整的审计跟踪，且你的数据永远不会离开设备。

‍

借助 LFM2.5，我们正在实现"AI 可随处运行"的愿景。这些模型具有以下特点：

开放权重——可无限制地下载、微调与部署

从第一天起就快——原生支持 llama.cpp、MLX、vLLM、SGLang，覆盖 Apple、AMD、Intel、Qualcomm 和 Nvidia 硬件

完整的模型家族——从用于定制化的基础模型到专门的音频与视觉变体，单一架构覆盖多种应用场景

设备端智能体的未来从此启程。我们迫不及待想看到你的创造。

在 Playground 中尝试

在 Hugging Face 上下载

引用

请按如下格式引用本文：

Liquid AI，“LFM2.5-8B-A1B：你笔记本电脑上的个人助手”，Liquid AI 博客，2026 年 5 月。

或使用 BibTeX 引用：

@article{liquidAI20268BA1B,
author = {Liquid AI},
title = {LFM2.5-8B-A1B: Personal Assistant On Your Laptop},
journal = {Liquid AI Blog},
year = {2026},
note = {https://www.liquid.ai/blog/lfm2-5-8b-a1b},
}

adsasd