精选理由
Perplexity 开源的这个 tokenizer 能把 CPU 利用率砍掉五六倍,做实时推理的团队值得立马试试,对延迟敏感的场景是实打实的优化。
AI 摘要
我们开源了重新构建的Unigram分词器,可将CPU占用降低5-6倍。 小型重排序器和嵌入模型在GPU上运行时间仅为个位数毫秒,使得CPU分词成为总延迟的重要组成部分。 http://github.com/perplexityai/pplx-garden
AI 翻译 · 中文
我们正在开源我们重建的 Unigram 分词器,该分词器将 CPU 利用率降低了 5–6 倍。
小型重排序器和嵌入向量模型在 GPU 上运行只需个位数毫秒,这使得 CPU 上的分词操作在总延迟中占据了显著份额。
http://github.com/perplexityai/pplx-garden