微软开源的VibeVoice-ASR是一个9B参数语音转文字模型,采用MIT协议。其核心优势在于单次可处理长达60分钟的连续音频,并直接输出带说话人、时间戳的结构化文本,原生支持50多种语言及中英混说。实测在128GB内存的MacBook Pro上,其4-bit量化版转录一小时音频约需9分钟,但预填充阶段内存峰值达61.5GB,要求设备内存至少64GB。模型存在单次60分钟时长限制,且对录音环境变化敏感,但为播客、会议等长音频转录提供了简化流程。
微软 1 月开源的 VibeVoice-ASR 语音识别模型(https://github.com/microsoft/VibeVoice),Simon Willison 在 Mac 上测试后给出了一份具体的实测报告。
VibeVoice-ASR 是微软研究院今年 1 月 21 日开源的 9B 参数语音转文字模型,MIT 协议。最大卖点是单次能处理 60 分钟连续音频,而且把"谁在说、什么时候说、说了什么"做成结构化输出。
传统方案要拿 Whisper(OpenAI 开源的语音识别模型)配上 pyannote 这种说话人分离工具拼起来,这次一个模型直接搞定,原生支持 50 多种语言和中英混说。
Simon 跑的是社区做的 4-bit 量化版(5.71GB,原模型 17.3GB),机器是 128GB 内存的 M5 Max MacBook Pro,转写一小时播客花了 8 分 45 秒。调用时要手动把 max-tokens 调到 32768,否则默认 8192 只够大约 25 分钟的音频。Activity Monitor 监控显示,prefill(预填充)阶段内存峰值飙到 61.5GB,生成阶段稳定在 18GB 上下,普通 32GB 笔电基本跑不动这个量化版。
一个有趣的细节:模型把这场播客识别成了三个说话人。实际上只有 Simon 和主持人 Lenny 两人对谈,但 Lenny 的开场白和广告口播用了不同的录音环境,模型干脆把这部分切成了第三人。