# 微软开源VibeVoice-ASR语音识别模型，支持长音频与说话人分离

- 来源：宝玉 (@dotey)
- 发布时间：2026-04-29 08:06
- AIHOT 分数：62
- AIHOT 链接：https://aihot.virxact.com/items/cmojau3on02qeslzp1jybklab
- 原文链接：https://x.com/dotey/status/2049279099454292283

## AI 摘要

微软开源的VibeVoice-ASR是一个9B参数语音转文字模型，采用MIT协议。其核心优势在于单次可处理长达60分钟的连续音频，并直接输出带说话人、时间戳的结构化文本，原生支持50多种语言及中英混说。实测在128GB内存的MacBook Pro上，其4-bit量化版转录一小时音频约需9分钟，但预填充阶段内存峰值达61.5GB，要求设备内存至少64GB。模型存在单次60分钟时长限制，且对录音环境变化敏感，但为播客、会议等长音频转录提供了简化流程。

## 正文

微软 1 月开源的 VibeVoice-ASR 语音识别模型（https://github.com/microsoft/VibeVoice），Simon Willison 在 Mac 上测试后给出了一份具体的实测报告。

VibeVoice-ASR 是微软研究院今年 1 月 21 日开源的 9B 参数语音转文字模型，MIT 协议。最大卖点是单次能处理 60 分钟连续音频，而且把"谁在说、什么时候说、说了什么"做成结构化输出。

传统方案要拿 Whisper（OpenAI 开源的语音识别模型）配上 pyannote 这种说话人分离工具拼起来，这次一个模型直接搞定，原生支持 50 多种语言和中英混说。

Simon 跑的是社区做的 4-bit 量化版（5.71GB，原模型 17.3GB），机器是 128GB 内存的 M5 Max MacBook Pro，转写一小时播客花了 8 分 45 秒。调用时要手动把 max-tokens 调到 32768，否则默认 8192 只够大约 25 分钟的音频。Activity Monitor 监控显示，prefill（预填充）阶段内存峰值飙到 61.5GB，生成阶段稳定在 18GB 上下，普通 32GB 笔电基本跑不动这个量化版。

一个有趣的细节：模型把这场播客识别成了三个说话人。实际上只有 Simon 和主持人 Lenny 两人对谈，但 Lenny 的开场白和广告口播用了不同的录音环境，模型干脆把这部分切成了第三人。

硬限制有两个：单次最多 60 分钟，超过要自己切片处理，还得手动对齐切片间的说话人 ID；想本地跑量化版至少要 64GB 以上内存的机器。对做播客转写、会议纪要、采访整理的人来说，原来拼接的多步流程现在能压缩成一次推理。

### 引用推文

> Simon Willison：Microsoft's MIT licensed VibeVoice speech-to-text model (think Whisper with speaker diarization) is really good - my notes on running the 5.71GB 4bit MLX conver...
