Leaf 开源的这个实时语音分身项目,把工程延迟拆解到毫秒级,选型和人格蒸馏细节全公开,想做个性化语音机器人的可以直接复用,实践导向很强。
开发者 Leaf 开源项目,将网红峰哥做成能实时通话的 AI 分身,集成实时对话、音色克隆和人格注入,工程延迟压到 1 秒内。技术拆解:语音识别用 Cartesia ink-whisper 降噪防误触发;大模型选 MiniMax 高速版,首字响应 361ms;语音合成用 VoxCPM 开源克隆,15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通:克隆项目后,用 Claude Code 或 Cursor 配置,填两个 API Key 即可使用。
有人把网红峰哥做成了能实时打电话的 AI 分身,
连说话风格都一模一样。 这是开发者 Leaf 刚开源的项目,
把实时对话、音色克隆、人格注入三件事打通了,
工程延迟压到一秒以内。 最厉害的是拆解式优化思路,
把语音链路拆成三步逐个击破:
・语音识别用 Cartesia ink-whisper, 降噪防误触发
・大模型选 MiniMax 高速版,首字响应三百六十一毫秒
・语音合成用 VoxCPM 开源克隆,十五秒素材就能复刻
从最初八到二十秒的语音邮件感,
硬生生优化到实际体感两到三秒,
跟打电话没区别,光声音像还不够,项目用女娲 Skill 做人格蒸馏,从直播语料里提取口头禅、思维方式、表达逻辑,
聊起来真的像本人在跟你说话, 普通人半小时就能跑通: 把项目克隆到本地 扔给 Claude Code 或 Cursor 说帮我配置启动 填两个 API Key 就能用 想换成任何人都可以, 准备十五秒清晰语音加一段人格描述就行。 GitHub 链接放评论区,想做自己 AI 分身的直接拿去用。