Perplexity开源Unigram分词器降低CPU占用

Perplexity@perplexity_ai · X

精选68导出 Markdown

2026-05-27 23:55·36天前

在 X 看原推· x.com

精选理由

Perplexity 开源的这个 tokenizer 能把 CPU 利用率砍掉五六倍，做实时推理的团队值得立马试试，对延迟敏感的场景是实打实的优化。

AI 摘要

我们开源了重新构建的Unigram分词器，可将CPU占用降低5-6倍。小型重排序器和嵌入模型在GPU上运行时间仅为个位数毫秒，使得CPU分词成为总延迟的重要组成部分。 http://github.com/perplexityai/pplx-garden

AI 翻译 · 中文

我们正在开源我们重建的 Unigram 分词器，该分词器将 CPU 利用率降低了 5–6 倍。

小型重排序器和嵌入向量模型在 GPU 上运行只需个位数毫秒，这使得 CPU 上的分词操作在总延迟中占据了显著份额。

http://github.com/perplexityai/pplx-garden