# 小互开源视频翻译工具：一句话自动下载、转写、翻译、烧字幕

- 来源：小互 (@xiaohu)
- 发布时间：2026-06-08 21:11
- AIHOT 分数：79
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq597yqb05pzslt20f3ua8tc
- 原文链接：https://x.com/xiaohu/status/2063972223170556302

## 精选理由

小互把自己用了半年的视频翻译工具开源了，本地Whisper转写加AI润色，下载、翻译、烧字幕一句话搞定，做海外视频搬运或想省时间的，装一下就能省掉大半天手工。

## AI 摘要

小互（@xiaohu）开源视频翻译工具（xiaohu-video-translate），只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行，不花API费。支持YouTube、Bilibili、抖音等链接及本地文件，英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳，按语义断句，每行不超过12字，双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成，可单独或串联使用，适配Claude Code、Codex、OpenClaw等AI编程工具。已开源，附安装指南。

## 正文

http://x.com/i/article/2063968924019163136

# 一句话，翻译任何视频：我把用了半年的视频翻译工具开源了

有人说，现在 AI 自动翻译字幕的工具一大把，你这个还有啥用？

确实有不少工具能在线翻译视频，我自己也用了很多。但总觉得翻得不太准、不太好，有时候还冒出一堆错误。

另外我经常在推特、视频号上分享海外视频，干脆就顺手做了这么一套--所以它其实还能帮你把海外视频搬运到国内平台，嘿嘿。

这套工具我用了半年，来回调了很多次，现在比较成熟了，整理干净开源给大家。

装好以后，你只要对它说一句「把这个链接翻译成中文字幕视频」，剩下的它全自动做完：下载、转写、翻译、润色、烧字幕、出文稿，一条龙到底。

转写完全在你自己电脑上跑，不花一分钱 API 费。翻译用的就是你已经装好的 AI，顺手就做了。而且不只英文，日语、韩语、法语这些外语视频，一样能转成中文字幕。

还有它本质就是几个脚本加一份说明书，没绑死 Claude Code 一家--小龙虾（OpenClaw）、Gemini、Codex 这些 AI 编程工具也都能用，区别只是各家装技能的方式不同。

下面手把手带你装上、跑通第一个视频。

## 这玩意儿到底能干嘛

给它一个视频链接（YouTube、Bilibili、抖音都行），或者一个本地视频文件，它会一条龙做完这五步：

> 下载 → 转写 → 翻译 → 润色 → 烧字幕，最后顺带出一份文稿

拆开说就是：

- 把视频下下来（本地文件就直接用）

- 提取音频，用 Whisper 转写成带精确时间戳的原文字幕

- 把原文翻译成中文，再润色成符合中文观看习惯的字幕

- 把字幕烧进画面，输出一个带中文字幕的视频

- 顺便再出一份 Markdown 文稿，方便你存档或者改成文章

语言不挑。 英语、日语、韩语、法语、西班牙语，只要 Whisper 听得懂的，都能转成中文字幕。它会自己识别原视频是什么语言，再翻成中文。中文视频就只做转写出文稿，不绕翻译这一步。

字幕有两种可以选。一种是纯中文，画面干净。另一种是中英双语，中文大、英文小，主次分明，适合想顺便练听力的人。

你全程不用记任何命令。想要什么就用大白话说，比如「这个要双语字幕」「不要水印」「用快速模式」，它都听得懂。

> 简单说，它把「下载 + 转写 + 翻译 + 配字幕」这条原本要开四五个软件、来回折腾一两个小时的流水线，压缩成了说一句话。

## 跟现成的翻译工具有啥不一样

市面上字幕工具不少，我自己用下来最在意三件事，这套工具就是冲着这三件事做的。

第一，本地、免费、能离线。 转写用的是 OpenAI 开源的 Whisper 模型，苹果芯片的 Mac 上还会自动调 GPU 加速。整个转写过程在你电脑里完成，不上传、不收费。翻译复用你已经在用的 AI，不用再单独买一个翻译 API。

第二，时间戳是真的准。 很多工具的字幕会跑在说话人前面，或者半句话挤进下一条，看着难受。这套工具拿到的是精确到每个词什么时候说出口的时间戳，再按「一句话 + 换气停顿」来切，字幕基本说完正好换条。

第三，字幕是给人看的，不是机翻直出。 它会自动纠正转写听错的专有名词（Claude 经常被听成 cloud，MCP 被听成 NCP），按语义断句，每行不超过十二个字，技术术语保留英文。双语模式下中文大、英文小，同一条里拉开字号，不是两行一样大堆在一起。

这些都是我自己做了上百条视频踩出来的细节，全写进规则里了。

## 效果长这样

拿 a16z 刚发的一条访谈试试。受访的是前 OpenAI 首席技术官 Mira Murati，我让工具配了中英双语字幕。

她原话里有个比喻：

> It's more like a tandem bike where both people are pedaling.

机翻大概会甩给你「串联自行车」这种读着别扭的词。这套工具翻成的是：

> 它更像一辆双人自行车，两个人一起踩着踏板。

接地气、不绕口。专有名词也拎得清，Thinking Machines 这种公司名直接留英文，不硬翻。

你只要发一句「链接 + 翻译这个视频」，它会先问你要纯中文还是中英双语--我平时主要翻成中文，就默认留了这两个选项，实际上翻成任意语言都行。

除了带字幕的视频，它还会同时出一份文稿，原文加中文对照。

整段读下来是这样：

> 它更像是去造这样一种系统：不会自己闷头狂奔、把整个文明甩在身后，而更像一辆双人自行车，两个人一起踩着踏板。上坡的时候，也许更有劲的那个人踩得更用力，但两个人的手都在车把上。

不挑语言是这套工具最实在的地方。同一段访谈，中文、日语、韩语、阿拉伯语、法语都能翻成双语字幕--各国译文在上、英文原文统一压一行在下，主次分明，连从右往左写的阿拉伯语也排得整整齐齐：

十几分钟的视频没问题

一个半小时以上的长视频也能轻松应对

## 它其实是三个技能

打开仓库你会看到三个文件夹，各管一段活，可以单独用，也可以串起来用：

- xiaohu-video-md：总指挥。负责下载、转写、调翻译、烧字幕、出文稿

- xiaohu-subtitle-polish：专门管字幕翻译润色。纠错、翻译、断句、对时间轴、做双语

- xiaohu-video-download：纯下载工具。下视频、下音频、下整个播放列表，也能给本地视频烧字幕

翻译一个视频的时候，是 xiaohu-video-md 在总调度，翻译那一步它自己会去叫 xiaohu-subtitle-polish。你不用管这些，知道有这么三块就行。

## 手把手安装

这套工具目前是给 Mac 调的，苹果芯片的机器跑得最顺。装法有两种，挑一种就行：嫌麻烦，就把下面那段话整段丢给 AI，让它替你全装完；想搞清楚每一步在干嘛、或者怕中途出岔子，就照着后面的手动三步敲。

## 偷懒版：把这段话丢给 AI

打开你的 AI 编程工具，Claude Code、Codex、小龙虾（OpenClaw）都行，把下面这段原样复制进去发给它。它会自己判断你是什么系统、装好依赖、拉仓库、跑安装脚本，一条龙搞定，中间该问你的会停下来问：

> 帮我安装这个视频翻译工具：https://github.com/xiaohuailabs/xiaohu-video-translate

按下面的顺序来：
1. 先看我的系统：Mac 还是 Windows；Mac 的话是不是苹果芯片（M 系列）
2. 装依赖：yt-dlp、ffmpeg、whisper-cpp（Mac 用 brew install，Windows 走 WSL 或 winget）。
转写引擎--苹果芯片装 mlx-whisper，其它机器一律装 faster-whisper
3. git clone 这个仓库，进目录跑 bash install.sh，把三个技能装进我的技能目录
4. 装完找到 xiaohu-video-md 技能里的 config.json（Claude Code 在 ~/.claude/skills/ 下），
问我成品想存在哪个文件夹，帮我把 output_dir 改成完整路径
5. 最后检查依赖都装齐了没，告诉我能不能开始用

每一步做完简单说一句你干了啥；依赖装失败就停下来问我，别硬往下跑。

它替你跑的其实就是下面这三步，只是你不用自己敲。想自己动手、或者中途卡住想排查，就照着手动版来。

## 第一步：装几个基础工具

先确认你装了 Homebrew（Mac 上最常用的软件包管理器，没装的去 brew.sh 按提示装一下）。然后一行命令把三个工具装上：

> brew install yt-dlp ffmpeg whisper-cpp

> 这三个分别是：yt-dlp 负责下视频，ffmpeg 负责音视频处理和烧字幕，whisper-cpp 是「只下载」子技能在本地转写时用的备用命令，主翻译流程不靠它，真正干转写的是下面这步要装的引擎。

再装一个转写引擎。苹果芯片的 Mac 用这个，会走 GPU 加速，最快：（命令里 --break-system-packages 看着吓人，其实只是绕过新版系统的一个安装限制，不动你系统本身，放心敲。）

> pip3 install --break-system-packages mlx-whisper

如果不是苹果芯片，就换成通用版本：

> pip3 install --break-system-packages faster-whisper

## 第二步：把技能装进 Claude

把仓库拉下来，跑一下自带的安装脚本：

> git clone https://github.com/xiaohuailabs/xiaohu-video-translate.git
cd xiaohu-video-translate
bash install.sh

这个脚本会把三个技能复制到 Claude 的技能目录，自动生成配置文件，还会帮你检查依赖装齐没有。脚本跑到最后会逐项打印 【OK】 或 【缺】，看到 yt-dlp、ffmpeg、转写引擎都是 【OK】 就说明装齐了，哪个显示 【缺】 就按提示补那一个。这里路径以 Claude Code 为例（技能在 ~/.claude/skills/）；你要是用 Codex、小龙虾，把这个目录换成你那家工具的技能目录就行，其余都一样。

## 第三步：告诉它把成品放哪

打开 ~/.claude/skills/xiaohu-video-md/config.json 这个文件，把里面的 output_dir 改成你想存放成品的文件夹路径（要写完整路径，比如 /Users/你的用户名/Documents/视频翻译）。

中间的临时文件会进 tmp/，最终的文稿进 data/，烧好的视频默认放在下载文件夹里。

> 转写模型不用手动下。第一次跑的时候，mlx-whisper 会自己从网上把模型拉下来（一点五个 G 左右），下一次就直接用了。

装完，重启一下你的 AI 工具，就能用了。

## Windows 用户看这里

上面是 Mac 的装法。Windows 也能跑，但有几处不一样，别照搬。

最省事的办法是用 WSL，也就是 Windows 自带的 Linux 子系统。装好以后把下面这几样装上，脚本就能原样跑：

> sudo apt install ffmpeg
pip3 install yt-dlp faster-whisper

如果不想用 WSL，想直接在 Windows 上装，记住三点：

- 转写引擎用 faster-whisper，别装那个苹果芯片专用的版本。脚本检测不到苹果引擎，会自动用它兜底

- 安装脚本得用 Git Bash 跑，或者干脆手动把三个技能文件夹复制到工具的技能目录，再把每个配置模板复制成正式配置

- 字幕字体要换。默认用的是 Mac 的苹方，Windows 上没有这个字体，中文会显示成方块。把命令里的 PingFang SC 换成系统自带的微软雅黑就行

直接在 Windows 上装依赖的话，命令是这样：

> pip install yt-dlp faster-whisper
winget install Gyan.FFmpeg

> 字体这条 Linux 上也一样，苹方是苹果独有的，得换成系统里的中文字体。想让非苹果系统也能自动选对字体、开箱即用，我正在做适配，可以去仓库提 issue 催我。

## 怎么用

装好以后就一句话的事。下面这些话你都可以直接说：

你说的话 它做的事 把这个链接翻译成中文字幕视频 + 链接 全流程，下载到出成品 翻译这个视频，要中英双语字幕 + 链接 同上，字幕换成中英双语 把这个视频转成文字 + 链接 只出 Markdown 文稿，不烧字幕 给我本地这个视频加中文字幕 + 文件路径 本地文件直接处理 下载这个视频 + 链接 只下载，不翻译 用快速模式转写 换更快但精度略低的模型 翻译时不要水印 关掉水印

## 几个坑先跟你说在前面

都是我自己踩过的，提前知道能少走弯路。

YouTube 有时候下不动，报一串 403 之类的错。 这是 YouTube 近一年风控变严了。脚本会自动从你浏览器里读 cookies 重试，一般能过。还不行就挂个代理。

烧出来的中文字幕是一个个方块。 这是 Mac 字体索引的老问题，脚本默认已经绕开了，正常装完不会遇到。只有你手动改过字体设置、或换了系统里没有的字体才会冒出来，真碰上就把字体换回 PingFang SC（苹方）。

第一次用抖音，要先登录一次。 跑一下 python3 ~/.claude/skills/xiaohu-video-md/scripts/douyin_login.py，弹出来的浏览器里扫码登录，登录状态只存在你自己电脑上，不会上传到任何地方。开源仓库里我也把我自己的登录信息全删干净了，你拿到的是空的。

## 拿去用，随便改

仓库地址在这：

> github.com/xiaohuailabs/xiaohu-video-translate

代码是 MIT 协议，水印、字幕样式、默认字号这些你都可以照自己喜欢改。唯一提醒一句：别把你自己的配置文件和抖音登录信息传到公开仓库上去，仓库里已经默认帮你挡掉了。

这套工具是我日常真在用的，不是写来演示的玩具。觉得好用，点个 star，有问题提 issue，我会接着维护。

下期我会开源自己的文章 IP 配图技能--用个人 IP 形象给文章生成配图，本文里那些插画就是这么来的。
