# mlx-audio v0.4.4 发布：新增 15+ 个 TTS/ASR/VAD 模型及服务器改进

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-06-07 00:48
- AIHOT 分数：66
- AIHOT 链接：https://aihot.virxact.com/items/cmq2ljuxu00iksl6nytmejnui
- 原文链接：https://x.com/berryxia/status/2063301957385867652

## AI 摘要

mlx-audio v0.4.4 发布，所有模型均运行在 Apple Silicon。新增 15+ 个模型：TTS 包括 VoxCPM2（2B 参数、48kHz、30 种语言）、MOSS-TTS、Higgs Audio v3 等；ASR 包括 Mega-ASR（基于 Qwen3-ASR-1.7B + LoRA 路由）、Nemotron 3.5 ASR（实时流式）、Cohere ASR（长文本转录速度提升 1.7 倍）等；VAD 新增 Silero VAD、FSMN-VAD、Step-Audio 2。服务器改进支持 OpenAI 兼容的 response_format、/v1/audio/voices 接口及逐词时间戳。安装命令：`uv pip install -U mlx-audio`。

## 正文

🚀 mlx-audio v0.4.4 已发布--这是我们迄今为止推出的功能最强大的版本。
新增了 15 个 TTS（文本转语音）、ASR（自动语音识别）及 VAD（语音活动检测）模型，提升了长文本内容转录的速度，并改进了与 OpenAI 兼容的音频服务器功能。所有这些技术都运行在 Apple Silicon 平台上。

🎤 新增的 TTS 语音引擎：
• VoxCPM2（支持 2B 语言库、48kHz 音频格式、30 种语言）
• MOSS-TTS / TTSD / 1.5
• Higgs Audio v3
• Miso、Dramabox、Irodori-TTS v3（VoiceDesign 技术支持）

📝 新增的 STT/ASR （语音转文本/自动语音识别）工具：
• Mega-ASR（基于 Qwen3-ASR 1.7B 模型，支持 LoRA 路由技术）
• Nemotron 3.5 ASR（支持实时语音识别功能）
• granite-speech-4.1-2b-nar、Fun-ASR-Nano
• Cohere ASR（长文本转录速度提升 1.7 倍）

🔊 新增的语音处理组件及编码器：
• Silero VAD、FSMN-VAD、Step-Audio 2

⚙️ 服务器改进：新增了与 OpenAI 兼容的数据格式（response_format），支持 /v1/audio/voices 格式以及逐词时间戳功能；服务器端的语音活动检测功能已由 lllucas 完成开发。

安装方法：`uv pip install -U mlx-audio`

明天安装测试看看实际效果，对于中文的支持效果如何？

### 引用推文

> Prince Canuma：🚀 mlx-audio v0.4.4 is out - our biggest model drop yet. 15+ new TTS, ASR & VAD models, faster long-form transcription, and an expanded OpenAI-compatible audio ...
