# StepAudio实时语音发布，能听懂你的语气与言外之意

- 来源：StepFun (@StepFun_ai)
- 发布时间：2026-05-24 06:36
- AIHOT 分数：76
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpixygw410zxsljwqtlbvr66
- 原文链接：https://x.com/StepFun_ai/status/2058316152351424590

## 精选理由

StepFun 这个语音模型把副语言感知做进了实时 API，产品人想搞点情感化语音交互的可以试试，预设角色能省不少调 prompt 的功夫。

## AI 摘要

StepAudio 2.5 Realtime 是一款实时语音交互模型。其核心优势在于能感知用户的副语言特征，如语气、节奏、停顿甚至轻叹，从而理解话语背后的真实意图。该模型支持通过 API 高度定制角色人格与说话风格，内置超过10,000种可组合的预置角色，并提供5种开箱即用的预设角色供体验。同时，模型经过RLHF优化，能在复杂的角色扮演压力测试中稳定保持设定的人设。支持中英文双语交互。

## 正文

StepAudio 2.5 Realtime 现已上线！

实时语音，能捕捉你真实表达的含义——语调、语速、停顿、叹息，甚至说到一半时的半笑。

- 顶级副语言感知能力——识别语调、语速、微情绪 - 通过 API 自定义角色——可设定个性、背景故事、独特习惯、语言风格 - 10,000+ 原生角色 → 数百万种特征组合 - 5 个预设角色，开箱即用 - 支持中/英文

经过 RLHF 微调，即使在角色扮演压力测试下也能保持角色设定。

立即体验 → https://www.stepfun.com/studio/audio?tab=voice-chat 模型卡片：https://stepaudiollm.github.io/step-audio-2.5-realtime/