# inclusionAI发布MingTok-Audio：首个统一连续语音分词器

- 来源：蚂蚁 inclusionAI：GitHub 新仓库
- 作者：inclusionAI
- 发布时间：2025-09-29 11:19
- AIHOT 分数：57
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmorb7ik40079slhfn285yff9
- 原文链接：https://github.com/inclusionAI/MingTok-Audio

## 精选理由

蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数，比第二名翻了快一倍，做语音理解和生成的团队值得拿这个当新 baseline 跑一下。

## AI 摘要

inclusionAI团队推出了MingTok-Audio，这是首个能有效融合语义与声学特征的统一连续语音分词器，适用于语音理解与生成任务。该模型基于纯因果Transformer架构，去除了卷积层以提升效率，并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上，其帧率为50，在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04，SIM为0.96，STOI为0.98，显著优于对比模型。在下游ASR任务中，其在多个方言数据集上取得了更低的错误率，例如在Hunan Minnan数据集上WER低至9.80%。

## 正文

该来源未收录可展示正文，站内仅提供摘要。
