mlx-audio v0.4.4 发布,所有模型均运行在 Apple Silicon。新增 15+ 个模型:TTS 包括 VoxCPM2(2B 参数、48kHz、30 种语言)、MOSS-TTS、Higgs Audio v3 等;ASR 包括 Mega-ASR(基于 Qwen3-ASR-1.7B + LoRA 路由)、Nemotron 3.5 ASR(实时流式)、Cohere ASR(长文本转录速度提升 1.7 倍)等;VAD 新增 Silero VAD、FSMN-VAD、Step-Audio 2。服务器改进支持 OpenAI 兼容的 response_format、/v1/audio/voices 接口及逐词时间戳。安装命令:uv pip install -U mlx-audio。
🚀 mlx-audio v0.4.4 已发布--这是我们迄今为止推出的功能最强大的版本。 新增了 15 个 TTS(文本转语音)、ASR(自动语音识别)及 VAD(语音活动检测)模型,提升了长文本内容转录的速度,并改进了与 OpenAI 兼容的音频服务器功能。所有这些技术都运行在 Apple Silicon 平台上。
🎤 新增的 TTS 语音引擎: • VoxCPM2(支持 2B 语言库、48kHz 音频格式、30 种语言) • MOSS-TTS / TTSD / 1.5 • Higgs Audio v3 • Miso、Dramabox、Irodori-TTS v3(VoiceDesign 技术支持)
📝 新增的 STT/ASR (语音转文本/自动语音识别)工具: • Mega-ASR(基于 Qwen3-ASR 1.7B 模型,支持 LoRA 路由技术) • Nemotron 3.5 ASR(支持实时语音识别功能) • granite-speech-4.1-2b-nar、Fun-ASR-Nano • Cohere ASR(长文本转录速度提升 1.7 倍)