视频翻译过去得拼几个 API,Violin 一个开源 Skill 把 ASR、翻译、TTS 全通了,还加上视频对话和风格定制,做多语言内容传播的必须收藏。
牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。
兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。
视频已经是互联网绝对主流的内容形式。
可绝大多数高质量讲座、演讲、播客却被单一语言死死锁住,全球观众根本触达不到。
Violin把ASR、LLM翻译、TTS三者无缝串成一条流水线。
「输入一段视频,它就能自动完成语音识别、多语言翻译、自然语音合成。」
最实用的是两个功能:
你可以个性化翻译风格,把学术报告改成孩子也能听懂的版本; 还能直接和视频聊天,任何问题都基于视频内容给出答案。
它同时支持Web应用、CLI命令行和Agent Skill,全部MIT开源。