xAI通过Grok API上线声音克隆功能,用户录制一分钟即可快速获得个人声音模型,并免费用于语音代理。与ElevenLabs提供“生成好听声音”的定位不同,xAI聚焦于“生成你的声音”,将声音视为数字身份证,强调其身份属性。安全上要求本人实时录制并验证短语,以防滥用。未来,结合Grok的推理能力,可能诞生能像用户一样思考和说话的AI代理。零门槛技术将推动有声书、游戏配音等应用,但也加剧了深假与诈骗风险,标志着声音正从工具转向身份核心。
看到分多人说xAI的声音克隆要干死ElevenLabs, 但我觉得大家都看错了, 这可不是一次普通的TTS更新兄弟们, 更像是xAI给所有Grok用户发的第一张数字身份证,接下来我跟大家详细说清楚。
咱们先来看下最基本的事实, 录一分钟你的声音, 不到两分钟, 你就得到了一个和你说话一模一样的声音模型, 没有额外费用, 直接集成在Grok API里, 可以立刻用来做语音代理,
有意思的是, xAI其实也没吹自己的声音有多像, 它通篇在讲一件事, 你的声音就是你的Grok Agent的声音, 以后你的AI助理, 会用你的语气, 你的语速, 你的停顿习惯, 替你接电话, 替你开会, 替你和别人聊天,
卧槽这才是最屌的的地方, ElevenLabs卖的是"生成好听的声音", xAI卖的是"生成你的声音", 一个是工具, 一个是身份, 这俩根本就不是一个维度的竞争,
另外,它的安全设计也很有意思, 禁止从现有录音克隆, 必须本人实时录制, 还要读一段验证短语, 双重确认是你本人, 这一点其实xAI比谁都清楚, 声音一旦变成身份, 那隐私和安全就是生命线。
当然也有很多人担心深假和诈骗, 这个肯定是有非常大风险的, 但问题是你挡不住这个趋势, 我相信未来每个人都会有自己的数字声音分身, 就像现在每个人都有手机号一样📱
更恐怖的还在后面, 就是当你的声音和Grok的推理能力结合在一起,你们知道会发生什么吗?