宝玉@dotey

2026-04-29 08:06·65天前

AI 摘要

微软开源的VibeVoice-ASR是一个9B参数语音转文字模型，采用MIT协议。其核心优势在于单次可处理长达60分钟的连续音频，并直接输出带说话人、时间戳的结构化文本，原生支持50多种语言及中英混说。实测在128GB内存的MacBook Pro上，其4-bit量化版转录一小时音频约需9分钟，但预填充阶段内存峰值达61.5GB，要求设备内存至少64GB。模型存在单次60分钟时长限制，且对录音环境变化敏感，但为播客、会议等长音频转录提供了简化流程。

微软 1 月开源的 VibeVoice-ASR 语音识别模型（https://github.com/microsoft/VibeVoice），Simon Willison 在 Mac 上测试后给出了一份具体的实测报告。

VibeVoice-ASR 是微软研究院今年 1 月 21 日开源的 9B 参数语音转文字模型，MIT 协议。最大卖点是单次能处理 60 分钟连续音频，而且把"谁在说、什么时候说、说了什么"做成结构化输出。

传统方案要拿 Whisper（OpenAI 开源的语音识别模型）配上 pyannote 这种说话人分离工具拼起来，这次一个模型直接搞定，原生支持 50 多种语言和中英混说。

Simon 跑的是社区做的 4-bit 量化版（5.71GB，原模型 17.3GB），机器是 128GB 内存的 M5 Max MacBook Pro，转写一小时播客花了 8 分 45 秒。调用时要手动把 max-tokens 调到 32768，否则默认 8192 只够大约 25 分钟的音频。Activity Monitor 监控显示，prefill（预填充）阶段内存峰值飙到 61.5GB，生成阶段稳定在 18GB 上下，普通 32GB 笔电基本跑不动这个量化版。

一个有趣的细节：模型把这场播客识别成了三个说话人。实际上只有 Simon 和主持人 Lenny 两人对谈，但 Lenny 的开场白和广告口播用了不同的录音环境，模型干脆把这部分切成了第三人。

硬限制有两个：单次最多 60 分钟，超过要自己切片处理，还得手动对齐切片间的说话人 ID；想本地跑量化版至少要 64GB 以上内存的机器。对做播客转写、会议纪要、采访整理的人来说，原来拼接的多步流程现在能压缩成一次推理。

Simon WillisonMicrosoft's MIT licensed VibeVoice speech-to-text model (think Whisper with speaker diarization) is really good - my notes on running the 5.71GB 4bit MLX conver...

Microsoft 开源生态教程/实践语音

在 X 查看原推

宝玉@dotey · X

62导出 Markdown

2026-04-29 08:06·65天前

在 X 看原推· x.com

AI 摘要

微软 1 月开源的 VibeVoice-ASR 语音识别模型（https://github.com/microsoft/VibeVoice），Simon Willison 在 Mac 上测试后给出了一份具体的实测报告。

传统方案要拿 Whisper（OpenAI 开源的语音识别模型）配上 pyannote 这种说话人分离工具拼起来，这次一个模型直接搞定，原生支持 50 多种语言和中英混说。