全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态论文 · 36 条

全部一手资讯 X 论文

标签「语音」清除

7月1日周三

20:28HuggingFace Daily Papers（社区热门论文）51FlexiSLM：一种动态可控帧率的语音语言模型

6月27日周六

15:24Rohan Paul46语言数字双胞胎助力老年人认知监测：日常言语可作为低负担追踪工具

6月24日周三

08:00HuggingFace Daily Papers（社区热门论文）47单一模型适配多种延迟：用于多样化实时应用的通用语音增强方案

6月23日周二

08:00HuggingFace Daily Papers（社区热门论文）57ConvFill：对话式填充实现语音智能体响应与能力兼得

6月21日周日

08:00HuggingFace Daily Papers（社区热门论文）55交错式语音语言模型在文本中隐式工作

6月19日周五

08:00HuggingFace Daily Papers（社区热门论文）47非语言发声中的说话人身份：条件蒸馏与混合专家方法

6月10日周三

16:56HuggingFace Daily Papers（社区热门论文）67稀疏自编码器解释与操控文本转语音语言模型

03:55Hugging Face：Blog（RSS）67精选Hugging Face 博客发布语音智能体代码切换基准测试

6月8日周一

14:14Tencent Hy69精选腾讯混元联合多家机构发布首个音频编辑基准MMAE

6月5日周五

12:47HuggingFace Daily Papers（社区热门论文）61迈向真正多语言 ASR：代码切换语音识别向未见语言对的泛化研究

08:00HuggingFace Daily Papers（社区热门论文）56Whisper幻觉检测与缓解：基于隐表示引导和稀疏自编码器

08:00HuggingFace Daily Papers（社区热门论文）63熵作为结构先验：DiT信念空间上的对数障碍驱动音乐多样性与发展

6月4日周四

10:42HuggingFace Daily Papers（社区热门论文）60Audio-Interaction：统一流式音频交互模型

6月3日周三

08:00HuggingFace Daily Papers（社区热门论文）57SpeechEditBench：双语多属性指令引导语音编辑基准

5月29日周五

14:30HuggingFace Daily Papers（社区热门论文）69ChildVox：一个用于理解和表征儿童期声音的语音、音频与大型音频-语言模型基准

10:29HuggingFace Daily Papers（社区热门论文）57用于生成的原生音视频对齐

08:00HuggingFace Daily Papers（社区热门论文）50OpenSTBench：超越语义评估的语音翻译统一评估框架

08:00HuggingFace Daily Papers（社区热门论文）55SwanVoice：面向独白与对话的富有表现力的零样本文本转语音模型

08:00HuggingFace Daily Papers（社区热门论文）59基于自回归扩散Transformer的流式同步空间音频生成

5月28日周四

08:00HuggingFace Daily Papers（社区热门论文）45Agentic ASR：面向类人交互式语音识别的智能体校正与语义评估

5月27日周三

08:00HuggingFace Daily Papers（社区热门论文）50多场景长语音生成综合评测基准

5月22日周五

08:00HuggingFace Daily Papers（社区热门论文）66StepAudio 2.5 技术报告

5月20日周三

04:04HuggingFace Daily Papers（社区热门论文）67WavFlow：波形空间中的音频生成

5月19日周二

08:00HuggingFace Daily Papers（社区热门论文）67Mega-ASR：通过扩展真实世界声学模拟实现野外语音识别

5月15日周五

01:46HuggingFace Daily Papers（社区热门论文）71精选EVA-Bench：端到端语音智能体评估新框架

5月14日周四

14:46HuggingFace Daily Papers（社区热门论文）60Vividh-ASR：面向鲁棒印度语语音识别的复杂度分层基准与优化动态研究

08:00HuggingFace Daily Papers（社区热门论文）50AuralSAM2：通过金字塔音视频特征提示赋能SAM2倾听

5月10日周日

02:27AK56MiniCPM-o 4.5实现全双工全模态实时交互

5月4日周一

08:00HuggingFace Daily Papers（社区热门论文）51全双工语音模型中的LWS：文本优先三通道范式

08:00HuggingFace Daily Papers（社区热门论文）66TTS-STT飞轮系统：合成实体密集音频弥补印度语言ASR在细分领域的性能差距

5月1日周五

08:00HuggingFace Daily Papers（社区热门论文）56LASE：用于印度语系跨文字身份保护的语言对抗性说话人编码

4月28日周二

08:00HuggingFace Daily Papers（社区热门论文）52PSP：一个面向印度语种TTS的、按音系维度划分的可解释口音基准

08:00HuggingFace Daily Papers（社区热门论文）57Praxy Voice：零商业数据成本，通过语音提示恢复与BUPS实现商业级印度语TTS

4月23日周四

08:00HuggingFace Daily Papers（社区热门论文）45语音优先国家的偏好：印度语言TTS的大规模配对评估与偏好分析

4月16日周四

19:58公众号：龙猫LongCat（美团）38LongCat-AudioDiT：突破零样本TTS音色克隆上限

9月29日周一

11:19蚂蚁 inclusionAI：GitHub 新仓库38inclusionAI/Ming-Freeform-Audio-Edit

没有更多了

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

7月1日

20:28

HuggingFace Daily Papers（社区热门论文）

51

FlexiSLM：一种动态可控帧率的语音语言模型

FlexiSLM是首个支持动态可控帧率的语音语言模型。它利用动态帧率表示，在高质量操作点上超越了固定帧率的7B模型Qwen2.5-Omni和Kimi-Audio。FlexiSLM可精确控制帧率至4.0 Hz；在6.25 Hz下推理时间相比12.5 Hz减半，同时保持强语音质量。

论文/研究语音

6月27日

15:24

Rohan Paul@rohanpaul_ai

46

语言数字双胞胎助力老年人认知监测：日常言语可作为低负担追踪工具

该论文测试老年人日常言语能否成为有效的认知监测双胞胎，结论基本可行。AI通过学习个体随时间变化的说话方式（节奏、停顿、主题、风格习惯），捕捉临床快照易漏掉的小模式——认知衰退往往在语言中早于明显症状出现。个性化模型能检测出与思维能力相关的细微言语变化，而普通GPT回答大多错过这些信号。研究显示，日常对话可成为一种低负担的长期认知健康追踪方式。

论文/研究语音

6月24日

08:00

HuggingFace Daily Papers（社区热门论文）

47

单一模型适配多种延迟：用于多样化实时应用的通用语音增强方案

针对不同实时语音应用需单独训练增强模型的痛点，本文提出一种通用实时语音增强模型，可同时控制算法延迟与计算延迟。算法延迟通过可配置的前瞻帧灵活调整，并引入并行卷积层应对不同填充配置带来的学习低效；计算延迟由早期退出机制控制，支持在不同网络深度推理。两阶段训练策略（共享到多解码器过渡）缩小了通用模型与专用模型的性能差距。该框架使单个模型可在多种延迟预算下部署，无需重新训练。

论文/研究语音

6月23日

08:00

HuggingFace Daily Papers（社区热门论文）

57

ConvFill：对话式填充实现语音智能体响应与能力兼得

语音智能体面临响应速度与复杂能力的权衡。ConvFill 提出“对话式填充”（conversational infill）方法：用小参数 talker 模型实时生成上下文响应，隐藏外部 reasoner 模型的推理延迟，并在推理中动态整合 reasoner 的流式知识。基于 290,571 条合成数据、6 个领域、7 个 135M–1.7B 参数小语言模型验证任务可学习性。系统保持毫秒级首次响应时间，准确性差距缩小至前沿 reasoner 模型的 6.3% 以内。在 Apple M2 SoC 上的 18 人用户研究中，ConvFill 整体与前沿模型持平，检索密集型任务更受青睐，响应性显著更高。代码、模型和数据集已开源。

推理论文/研究语音

6月21日

08:00

HuggingFace Daily Papers（社区热门论文）

55

交错式语音语言模型在文本中隐式工作

通过logit lens分析不同家族和规模的交错式语音语言模型，发现模型在中间层隐式地将语音转录为文本token——77%的数据中目标语音对应的文本词出现在候选词前列，随后模型在文本空间中预测下一个词再转回语音域。这一行为并非源自语音识别训练，交错数据和文本LM初始化是诱发该机制的关键因素。

多模态论文/研究语音

6月19日

08:00

HuggingFace Daily Papers（社区热门论文）

47

非语言发声中的说话人身份：条件蒸馏与混合专家方法

针对非语言发声（NVV）中说话人身份一致性评估，现有说话人验证（SV）系统泛化差且微调会导致灾难性遗忘。本文提出融合冻结Data2Vec自监督特征与ECAPA-TDNN的框架，并加入带领域感知路由的混合专家（MoE）模块。通过预训练教师模型在语音输入上施加条件蒸馏损失以保持语音验证精度，同时用对比损失弥合语音与NVV的域间差距。该方法将NVV的等错误率（EER）从38.93%降至22.66%，语音EER从13.17%降至9.24%。

arXiv 论文/研究语音

6月10日

16:56

HuggingFace Daily Papers（社区热门论文）

67

稀疏自编码器解释与操控文本转语音语言模型

研究在CosyVoice3的语言模型骨干上训练BatchTopK稀疏自编码器，并引入模态感知自动解释管道，为每个特征标注其触发来源（文本前缀、1秒语音片段或两者）。恢复的特征涵盖音素、笑声、口音提示和说话者性别，可解释性强。通过SAE潜空间进行操控表明这些特征具有因果性：定向干预使笑声概率从0.02升至0.79，翻转感知的说话者性别，并在保留口语内容的同时控制语速。SAE特征既可作为可解释性对象，也可作为TTS合成的控制方向。

论文/研究语音

03:55

Hugging Face：Blog（RSS）

精选67

Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言，基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统，包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现：代码切换的转录成本因语言对和模型而异；ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face 评测/基准语音

推荐理由：如果你在给多语言客户做语音Agent，这篇博客直接把主流ASR的code-switching能力测了一遍，ElevenLabs Scribe V2目前最强，还开源了数据集，拿来就能测自己的模型。

6月8日

14:14

Tencent Hy@TencentHunyuan

精选69

腾讯混元联合多家机构发布首个音频编辑基准MMAE

腾讯混元联合上海交大、南洋理工等机构推出MMAE（Massive Multitask Audio Editing Benchmark），这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改，而非简单生成。当前模型在该基准上的精确匹配率（EMR）低于5%，暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项，覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度（基础修改到多跳推理及多轮编辑）、8种操作类型（局部到全局）。论文、代码、数据集和演示已公开。

多模态论文/研究语音

推荐理由：过去一年语音和音乐生成很热，但音频编辑还没人正经测过，腾讯这个基准把现状血淋淋地摆出来了，不到5%的准确率意味着整个方向都还在起步期。

6月5日

12:47

HuggingFace Daily Papers（社区热门论文）

61

迈向真正多语言 ASR：代码切换语音识别向未见语言对的泛化研究

代码切换ASR（CS-ASR）因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调，但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法，探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明，合并的双语CS-ASR模型仅能适度泛化到未见语言对，提示双语CS能力在跨语言对间的迁移有限。

多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

56

Whisper幻觉检测与缓解：基于隐表示引导和稀疏自编码器

针对Whisper ASR模型在非语音音频上生成连贯转录（幻觉）的问题，研究提取音频编码器激活，评估原始Whisper激活和Sparse AutoEncoder（SAE）隐变量两个表示空间。两者均编码线性可分的幻觉相关信息，判别力集中在稀疏特征子集并向深层编码器递增。提出的SAE隐变量空间引导策略，在完整非语音测试集上将Whisper small幻觉率从72.63%降至14.11%，Whisper large-v3从86.88%降至27.33%，语音数据上WER退化很小，性能接近基于微调的方法。

论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

63

熵作为结构先验：DiT信念空间上的对数障碍驱动音乐多样性与发展

在监督式扩散训练中，Eisbach log-barrier利用DiT输出空间能量分布的熵导出无参数权重：高熵抑制梯度，低熵保留梯度。应用于Stable Audio 3 Medium在MusicCaps上的LoRA微调，意外产生更强的主题发展、更清晰的声学区分和更高的纹理多样性，而非模式坍缩。原因在于监督扩散中梯度方向锁定于真实值，置信度仅缩放步长，且时间熵压低平坦样本而保留高对比样本。该方法形成在线自参照数据课程，伴随噪声层级动力学分析与可检验预测。

数据/训练论文/研究语音

6月4日

10:42

HuggingFace Daily Papers（社区热门论文）

60

Audio-Interaction：统一流式音频交互模型

Audio-Interaction是一种统一流式音频模型，通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署，包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本，覆盖7项基本能力、28个子任务；Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中，Audio-Interaction保持主流音频任务竞争力，同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。

智能体多模态论文/研究语音

6月3日

08:00

HuggingFace Daily Papers（社区热门论文）

57

SpeechEditBench：双语多属性指令引导语音编辑基准

SpeechEditBench 是一个双语多属性基准测试，系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务，并提出基于锚点的评估协议，分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现：（1）无单一模型在所有维度表现优异；（2）闭源语音LLM整体优于开源模型；（3）组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架，数据代码已公开。

arXiv 论文/研究语音

5月29日

14:30

HuggingFace Daily Papers（社区热门论文）

69

ChildVox：一个用于理解和表征儿童期声音的语音、音频与大型音频-语言模型基准

ChildVox 是一个用于评估AI模型对儿童多样化声学信号理解能力的新基准。它覆盖了从出生到学龄的完整发展轨迹，包含生理声音、非语言发声、规范音节和口语语言。该基准整合了17个儿童音频与语音数据集中的20多个子任务，实现了系统性跨语料库、跨领域比较。我们评估了自监督、面向ASR及大型音频-语言模型三类基础模型，任务涵盖生理声音分类、发声与规范音节建模、语音质量评估与识别。结果表明，ChildVox提供了一套高性能模型，能够识别广泛的儿童声学信号，支持下游应用，如表征儿童语言水平和追踪语音发展。

论文/研究评测/基准语音

10:29

HuggingFace Daily Papers（社区热门论文）

57

用于生成的原生音视频对齐

针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题，本文提出了NAVA（原生音视频对齐）框架。该框架在专用交互空间建立音视频对应关系后，利用外部上下文条件化联合去噪过程。具体实现上，NAVA采用Align-then-Fuse MMDiT架构，并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明，NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

OpenSTBench：超越语义评估的语音翻译统一评估框架

OpenSTBench 是一个统一的多维评估框架，将语音翻译系统（S2TT 和 S2ST，涵盖离线与流式两种模式）输出转化为共享评估格式，联合评测翻译质量、语音质量、说话人保留、情感与副语言保真度、时间一致性以及延迟。实验表明，翻译质量强的系统在语音质量和时间质量上仍存在显著差异。代码与数据集已开源至 GitHub。

arXiv GitHub 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

55

SwanVoice：面向独白与对话的富有表现力的零样本文本转语音模型

SwanVoice 是一个支持 1-4 位说话人的零样本文本转语音（TTS）模型，旨在解决现有方法在合成富有表现力的长对话时推理成本高、声学一致性和情感连贯性差的问题。模型基于 SwanData-Speech 数据集构建，采用 25Hz VAE 与带停顿感知符号的原始文本条件处理，并结合具有说话人轮次条件的 flow-matching DiT。训练从独白数据开始，逐步过渡到真实对话数据，并使用 DiffusionNFT 进行后训练。在 SwanBench-Speech 评测中，SwanVoice 在独白和对话设置下的丰富性与层次性分数均优于所有开源基线，但内容准确性仍是主要限制。音频 demo 已上线。

arXiv 论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

59

基于自回归扩散Transformer的流式同步空间音频生成

针对实时高质量空间音频生成中存在的质量与延迟权衡及多模态空间信息捕捉难题，本文提出了SwanSphere。这是一个统一的流式框架，用于从全景视频和文本提示生成高保真空间音频。其核心贡献在于：1) 提出了一种因果自回归扩散Transformer架构，实现了流式的高质量生成；2) 设计了空间视频-音频对比学习策略来对齐视频编码器与声学域，并结合多目标在线直接偏好优化，增强了空间感知与多模态合成的鲁棒性；3) 开发了一个自动标注流程，用于生成详细的空间描述，以缓解数据稀缺问题。实验证明，SwanSphere在视频到空间音频和文本到空间音频任务中均表现优异。

多模态论文/研究语音

5月28日

08:00

HuggingFace Daily Papers（社区热门论文）

45

Agentic ASR：面向类人交互式语音识别的智能体校正与语义评估

针对单遍语音识别难以纠正语义关键错误的问题，研究者提出 Agentic ASR 闭环框架，将单遍 ASR 前端与语义校正、意图路由、基于推理的编辑整合，并将交互式语音识别建模为多轮校正任务。同时引入句子级语义错误率（S²ER）作为基于大语言模型的语义评估指标，并构建交互模拟系统用于可扩展、可复现的基准测试。在多语言、命名实体密集及代码切换基准上，迭代交互持续降低语义错误，S²ER 改善幅度远大于传统 token 级指标。人类-AI 对齐和消融研究验证了语义评估器的可靠性与框架的鲁棒性。代码和在线演示已公开。

智能体论文/研究语音

5月27日

08:00

HuggingFace Daily Papers（社区热门论文）

50

多场景长语音生成综合评测基准

SwanBench-Speech是一个针对长语音生成的综合评测基准，涵盖长语音生成和对话生成，覆盖声学、语义和表现力挑战。该基准包含1,101个样本，横跨17种常见语音场景，并从上述三个维度定义了包含7个指标的自动化评测方案。实验揭示，当前模型在高表达性场景下表现依然吃力，且在一致性与层次感上与真实录音存在明显差距。

论文/研究评测/基准语音

5月22日

08:00

HuggingFace Daily Papers（社区热门论文）

66

StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型，能在自动语音识别（ASR）、语音合成（TTS）和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间，通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习（RLHF）为核心机制，并配合专门的解码策略，将共享主干塑造成三种操作模式：ASR分支提升转录效率；TTS分支实现可控、富有表现力的合成；实时分支则达成低延迟、角色一致的对话。在标准基准测试中，StepAudio 2.5 在三项任务上均取得最优结果，证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音

5月20日

04:04

HuggingFace Daily Papers（社区热门论文）

67

WavFlow：波形空间中的音频生成

WavFlow挑战了音频生成依赖潜空间压缩的范式，提出了一种直接在原始波形空间生成高保真音频的框架。为解决高维信号建模难题，方法将音频重塑为二维令牌网格并引入幅度提升，结合流匹配的直接预测实现稳定优化。通过自动化管线构建500万高质量三元组数据集，模型从零学习细粒度声学特征。实验显示，WavFlow在视频到音频（VGGSound）和文本到音频（AudioCaps）基准上达到与主流潜空间方法相当甚至更优的性能，证明了中间压缩并非必要，为多模态音频生成提供了更简洁可扩展的路径。

arXiv 多模态论文/研究语音

5月19日

08:00

HuggingFace Daily Papers（社区热门论文）

67

Mega-ASR：通过扩展真实世界声学模拟实现野外语音识别

Mega-ASR是一个应对真实环境噪声与失真的统一语音识别框架，旨在突破现有模型面临的声学鲁棒性瓶颈。该研究发布了新的大规模复合数据集Voices-in-the-Wild-2M，涵盖7种经典声学现象与54种符合物理规律的复合干扰场景。通过声学-语义渐进式监督微调与双粒度词错误率门控策略优化进行训练，Mega-ASR在多个基准测试中显著超越先前系统：在VOiCES测试集上词错误率从54.01%降至45.69%，在NOIZEUS上从29.34%降至21.49%。在复杂组合声学场景下，其词错误率相对强基线进一步降低超过30%，为构建稳健的实景语音识别系统确立了可扩展的技术范式。

arXiv 论文/研究语音

5月15日

01:46

HuggingFace Daily Papers（社区热门论文）

精选71

EVA-Bench：端到端语音智能体评估新框架

EVA-Bench是一个端到端语音智能体评估框架，解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真，并提出了衡量任务完成度、音频保真度的EVA-A指标，以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集，采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现，无系统能在两项核心指标上同时超过0.5，峰值与可靠性能差距显著，且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。

Hugging Face 论文/研究评测/基准语音

推荐理由：EVA-Bench 把语音代理评估从「能对话就行」推进到「对话质量+鲁棒性」的全维度打分，还开源了 213 个企业场景，做语音助手的团队该认真看看。

5月14日

14:46

HuggingFace Daily Papers（社区热门论文）

60

Vividh-ASR：面向鲁棒印度语语音识别的复杂度分层基准与优化动态研究

针对多语言ASR模型微调中出现的“录音室偏差”问题，本研究发布了Vividh-ASR基准，涵盖印地语和马拉雅拉姆语的四个语音复杂度层级。通过控制学习率时机与课程顺序的实验发现，早期大参数更新可显著降低整体词错误率，而由难到易的课程顺序能进一步提升自发语音识别效果。据此提出的反向多阶段微调方法，使2.44亿参数的Whisper模型性能达到或超过传统微调的7.69亿参数模型。表征分析表明，有效调度将适应过程集中于解码器，同时保持了编码器的预训练声学结构。基准与模型均已开源。

论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

50

AuralSAM2：通过金字塔音视频特征提示赋能SAM2倾听

针对SAM2在音频模态整合上的不足，本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征，生成稀疏和密集提示，并基于SAM2的特征金字塔在视觉层间传播音频线索，以强化跨模态影响。同时，引入音频引导对比损失函数，进一步对齐音频与视觉特征。实验表明，该方法在公开基准上显著提升了准确率，同时将对SAM2可提示分割交互效率的影响降至最低。

arXiv GitHub 多模态论文/研究

5月10日

02:27

AK@_akhaliq

56

MiniCPM-o 4.5 迈向实时全双工全模态交互论文： https://huggingface.co/papers/2604.27393

Hugging Face 多模态论文/研究语音

5月4日

08:00

HuggingFace Daily Papers（社区热门论文）

51

全双工语音模型中的LWS：文本优先三通道范式

现有语音大模型仅支持口语回复，限制代码生成等文本能力。研究人员提出Listen-Write-Speak (LWS)范式，单个自回归LLM在共享因果注意力上下文中持续聆听用户音频，以可见自由文本作为主要输出，并并行生成实时语音。该行为通过Token Schema实现，无需修改架构，由两阶段数据流水线学习。LWS在Full-Duplex-Bench展现强全双工交互，VoiceBench AlpacaEval得4.72，写作-语音一致性92.6%，在URO-Bench上持续优于消融模型。代码与数据集已开源。

论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

66

TTS-STT飞轮系统：合成实体密集音频弥补印度语言ASR在细分领域的性能差距

针对数字、地址、品牌名等细分领域的印度语言自动语音识别，现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统，以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后，在泰卢固语测试集上的实体命中率提升至0.473，较最佳开源模型提升17倍，较商业系统提升3倍，同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效，并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。

arXiv GitHub 数据/训练论文/研究

5月1日

08:00

HuggingFace Daily Papers（社区热门论文）

56

LASE：用于印度语系跨文字身份保护的语言对抗性说话人编码

研究提出LASE（语言对抗性说话人编码器），以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头，结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练，使编码消除语言信息的同时保留说话人特征。实验表明，在1118个跨文字语音对上，LASE将身份漂移降至接近零，并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中，LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。

Hugging Face 开源生态论文/研究语音

4月28日

08:00

HuggingFace Daily Papers（社区热门论文）

52

PSP：一个面向印度语种TTS的、按音系维度划分的可解释口音基准

研究团队提出PSP（音素替换剖面），一种用于量化评估印度语种TTS系统口音的可解释基准方法。PSP将口音分解为六个互补维度：卷舌音坍缩率、送气音保真度、元音长度保真度、泰米尔语卷舌近音保真度、Frèchet音频距离以及韵律特征散度。通过在印地语、泰卢固语和泰米尔语上测试五个TTS系统，研究发现：卷舌音错误率随音系难度递增；PSP评估结果与传统可懂度指标排序存在差异；没有单一系统在所有维度上均表现最优。团队同时开源了包括母语参考中心向量、评分代码在内的一系列资源。

论文/研究评测/基准语音

08:00

HuggingFace Daily Papers（社区热门论文）

57

Praxy Voice：零商业数据成本，通过语音提示恢复与BUPS实现商业级印度语TTS

Praxy Voice提出一种无需商业训练数据、不重新训练声学解码器，即可将非印度语系基础TTS模型提升至商业级印度语输出质量的方法。其结合三项技术：BUPS统一音素空间将七种印度文字罗马化；仅在文本标记预测器上训练LoRA适配器；以及通过同语言参考音频与特定采样配置实现语音提示恢复。在泰卢固语、泰米尔语和印地语的评估中，该系统在音韵指标上达到或略微超越商业基线。针对语码混合场景，额外引入IndicF5分支，显著降低了混合语句的错误率。项目已开源相关资源。

开源生态论文/研究语音

4月23日

08:00

HuggingFace Daily Papers（社区热门论文）

45

语音优先国家的偏好：印度语言TTS的大规模配对评估与偏好分析

本研究提出一个结合语言控制与感知标注的多语言TTS受控多维配对评估框架。针对10种印度语言的5000余条原生及语码混合句子，对7个前沿TTS系统进行了评估，收集了超过1900名母语评分者提供的12万对以上比较数据。评分者除整体偏好外，还从可懂度、表现力、音质、生动性、噪声和幻觉六个感知维度进行判断。研究通过Bradley-Terry模型构建多语言排行榜，利用SHAP分析解读人类偏好，并分析了排行榜的可靠性及各模型在不同感知维度上的优势与权衡。

论文/研究评测/基准语音

4月16日

19:58

公众号：龙猫LongCat（美团）

38

LongCat-AudioDiT：突破零样本TTS音色克隆上限

美团技术团队推出的LongCat-AudioDiT模型，实现了零样本TTS音色克隆，让AI直接学习声音本身的规律，跳过中间处理环节，从而突破音色克隆的上限。

开源/仓库论文/研究语音

9月29日

11:19

蚂蚁 inclusionAI：GitHub 新仓库

38

inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集，用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务，包括语义编辑（自由形式删除、插入、替换）和声学编辑（时间拉伸、音高转换等）。音频样本源自seed-tts eval、LibriTTS等开源数据集，其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度，并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音