StepFun 这个语音模型把副语言感知做进了实时 API,产品人想搞点情感化语音交互的可以试试,预设角色能省不少调 prompt 的功夫。
StepAudio 2.5 Realtime 是一款实时语音交互模型。其核心优势在于能感知用户的副语言特征,如语气、节奏、停顿甚至轻叹,从而理解话语背后的真实意图。该模型支持通过 API 高度定制角色人格与说话风格,内置超过10,000种可组合的预置角色,并提供5种开箱即用的预设角色供体验。同时,模型经过RLHF优化,能在复杂的角色扮演压力测试中稳定保持设定的人设。支持中英文双语交互。
StepAudio 2.5 Realtime 现已上线!
实时语音,能捕捉你真实表达的含义——语调、语速、停顿、叹息,甚至说到一半时的半笑。
- 顶级副语言感知能力——识别语调、语速、微情绪 - 通过 API 自定义角色——可设定个性、背景故事、独特习惯、语言风格 - 10,000+ 原生角色 → 数百万种特征组合 - 5 个预设角色,开箱即用 - 支持中/英文
经过 RLHF 微调,即使在角色扮演压力测试下也能保持角色设定。
立即体验 → https://www.stepfun.com/studio/audio?tab=voice-chat 模型卡片:https://stepaudiollm.github.io/step-audio-2.5-realtime/