针对实时高质量空间音频生成中存在的质量与延迟权衡及多模态空间信息捕捉难题,本文提出了SwanSphere。这是一个统一的流式框架,用于从全景视频和文本提示生成高保真空间音频。其核心贡献在于:1) 提出了一种因果自回归扩散Transformer架构,实现了流式的高质量生成;2) 设计了空间视频-音频对比学习策略来对齐视频编码器与声学域,并结合多目标在线直接偏好优化,增强了空间感知与多模态合成的鲁棒性;3) 开发了一个自动标注流程,用于生成详细的空间描述,以缓解数据稀缺问题。实验证明,SwanSphere在视频到空间音频和文本到空间音频任务中均表现优异。