Cartesia 同时发布实时语音合成和识别两个模型的迭代版,双双登顶第三方基准,80ms 首音频延迟让语音代理的交互感接近真人,做实时语音应用的开发者可以重点看一下。
Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首,首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。
Cartesia 发布了 Sonic 3.5 和 Ink 2 两款模型,它们作为一个实时语音栈运行,一侧负责转录,另一侧负责语音合成。
> Ink 2 在 Artificial Analysis 的流式语音转文本排行榜上准确率排名第一。
> Sonic 3.5 在实时文本转语音排行榜上以约 82 毫秒的首音延迟位居榜首。
[引用 @krandiash]:我们发布了 Sonic-3.5 和 Ink-2,这是目前可用于语音智能体的排名第一的文本转语音和语音转文本流式模型。
全新架构为速度与质量开辟了新前沿。
我们现已成为唯一一家在说话和聆听两方面都拥有排名第一模型的提供商。