# 微软开源语音转文本模型VibeVoice简介与实测

- 来源：Simon Willison 博客
- 发布时间：2026-04-28 07:46
- AIHOT 分数：64
- AIHOT 链接：https://aihot.virxact.com/items/cmoi4sasy008ysle9mfo379g4
- 原文链接：https://simonwillison.net/2026/Apr/27/vibevoice

## AI 摘要

微软于2026年1月发布开源语音转文本模型VibeVoice，采用MIT许可证并内置说话人日志功能。社区提供的4位量化MLX版本约5.71GB。实测在128GB内存的M5 Max MacBook Pro上，使用mlx-audio工具处理一段60分钟音频耗时约8分45秒，峰值内存占用达30.44GB。模型默认支持最长25分钟音频，通过调整参数可处理至多1小时音频，输出为带时间戳和说话人ID的JSON格式，便于用Datasette Lite浏览分析。

## 正文

这是一则列表来源，站内未收录完整正文。