Simon Willison 博客

微软开源语音转文本模型VibeVoice简介与实测

2026-04-28 07:46·66天前

AI 摘要

微软于2026年1月发布开源语音转文本模型VibeVoice，采用MIT许可证并内置说话人日志功能。社区提供的4位量化MLX版本约5.71GB。实测在128GB内存的M5 Max MacBook Pro上，使用mlx-audio工具处理一段60分钟音频耗时约8分45秒，峰值内存占用达30.44GB。模型默认支持最长25分钟音频，通过调整参数可处理至多1小时音频，输出为带时间戳和说话人ID的JSON格式，便于用Datasette Lite浏览分析。

这是一则列表来源，站内未收录完整正文。

Microsoft 开源/仓库教程/实践语音

阅读完整原文导出 Markdown

Simon Willison 博客

64导出 Markdown