StepFun 推出的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测排行榜中位列全球第三,Elo 评分为 1187 分,仅次于 Inworld TTS 1.5 Max 与 Google Gemini 3.1 Flash TTS。该模型语音自然度较前代显著提升,并以 8 分优势超越 Eleven v3。其定价为每百万字符 85 美元,生成速度为每秒 37.6 字符,并提供了全局上下文提示和行内情感标签两种语音控制方式。
Highest-ranked Chinese TTS model on the @ArtificialAnlys Speech Arena. Top 3 globally. Blind test. Real ears. They picked it!
StepAudio 2.5 TTS.