蚂蚁 inclusionAI:GitHub 新仓库
inclusionAI发布MingTok-Audio:首个统一连续语音分词器
精选理由
蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数,比第二名翻了快一倍,做语音理解和生成的团队值得拿这个当新 baseline 跑一下。
AI 摘要
inclusionAI团队推出了MingTok-Audio,这是首个能有效融合语义与声学特征的统一连续语音分词器,适用于语音理解与生成任务。该模型基于纯因果Transformer架构,去除了卷积层以提升效率,并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上,其帧率为50,在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04,SIM为0.96,STOI为0.98,显著优于对比模型。在下游ASR任务中,其在多个方言数据集上取得了更低的错误率,例如在Hunan Minnan数据集上WER低至9.80%。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文github.com