4月17日

08:00

HuggingFace Daily Papers（社区热门论文）

研究团队提出分层编解码器扩散Transformer模型 HiCoDiT，利用 RVQ 编解码器的分层结构解决现有视频到语音生成方法忽视语音层级特性的问题。该方法通过低级块基于唇形同步运动与面部身份建模说话人感知语义，高级块利用面部表情调节细粒度韵律动态，并引入双尺度自适应实例层归一化实现从粗到细的条件控制。实验表明，该模型在语音保真度和表现力上显著优于基线方法，代码与演示已开源。

多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

ArtifactNet：基于物理伪影提取的AI音乐检测方法

研究团队提出轻量级框架ArtifactNet，通过提取神经音频编解码器遗留的物理伪影识别AI音乐。该框架采用3.6M参数UNet提取残差并分解为7通道特征，经0.4M参数CNN分类，总参数量仅4.0M。配套发布含6,183首曲目的ArtifactBench基准（涵盖22个AI生成器）。在2,263首测试集上，该方法取得F1=0.9829、FPR=1.49%，远超CLAM等方法，参数量仅为其1/49。多格式增强训练使跨编解码器概率漂移降低83%。

arXiv 安全/对齐论文/研究语音

05:44

Rohan Paul@rohanpaul_ai

看起来 ChatGPT 网页版刚刚为听写功能添加了键盘快捷键。很有用。

OpenAI 产品更新语音

01:44

Rohan Paul@rohanpaul_ai

TTS评估体系与真实体验严重脱节

TTS评估体系存在根本性缺陷。当前主流评测标准与真实对话场景中的用户偏好严重脱节，技术迭代速度已超越基准测试的发展。针对实时对话代理的系统应在真实交互中评估，而非依赖孤立音频片段。核心问题在于，现有方法将"自然度"简化为可平均、排名的单一指标，忽视了人类语音感知的关键细节——微妙的时间变化、克制的情感表达、不均匀的呼吸节奏以及契合语境的措辞方式。

Sudarshan Kamath: http://x.com/i/article/2043661447478329344

智能体大佬观点语音

4月16日

19:58

公众号：龙猫LongCat（美团）

LongCat-AudioDiT：突破零样本TTS音色克隆上限

美团技术团队推出的LongCat-AudioDiT模型，实现了零样本TTS音色克隆，让AI直接学习声音本身的规律，跳过中间处理环节，从而突破音色克隆的上限。

开源/仓库论文/研究语音

14:04

公众号：阶跃星辰（Step）

阶跃 StepAudio 2.5 TTS 上线！人人都能是配音导演

产品更新语音

08:00

HuggingFace Daily Papers（社区热门论文）

WavAlign：通过自适应混合后训练增强语音对话模型的智能与表现力

研究团队提出WavAlign方法，针对端到端语音对话模型智能与表现力不足的问题，设计了模态感知自适应后训练方案。该方法将偏好更新约束至语义通道，通过显式锚定改善声学行为，并基于rollout统计动态调节混合比例以避免不可靠梯度。在多个语音对话基准测试及代表性架构上的评估显示，模型在语义质量和语音表现力方面均获得一致提升。

arXiv 多模态论文/研究语音

05:43

Rohan Paul@rohanpaul_ai

谷歌 OpenAI 密集发新，AI 技术升级与社会抵制并存

Google 发布 Gemini 3.1 Flash TTS 语音模型及 Chrome Skills 工具，支持场景化语音合成与提示词复用。OpenAI 推出 GPT-5.4-Cyber 并升级 Agents SDK 为长期运行代理环境，支持沙盒执行与状态管理。与此同时，AI 技术遭遇强烈社会抵制，出现针对数据中心的激进行动。

智能体 Google OpenAI 模型发布

02:07

The Decoder：AI News（RSS）

Google 发布迄今最具表现力的 Gemini 3.1 文本转语音模型，支持70余种语言

Google 推出 Gemini 3.1 Flash TTS 文本转语音模型，支持超过70种语言的自然语音合成。该模型引入音频标签功能，允许用户精确控制输出语音的风格、语速和语调，显著提升了语音合成的表现力和可控性，适用于多语言内容创作场景。

Google 模型发布语音

01:46

TestingCatalog News 🗞@testingcatalog

Google 发布 macOS 版 Gemini 应用 👀 目前其功能与网页版类似，但看起来很快也会支持 Gemini Live。【引用 @mweinbach】：Gemini Mac 应用现已上线

Max Weinbach: Gemini Mac app is now live

Google 产品更新语音

01:46

TestingCatalog News 🗞@testingcatalog

Google 发布了 Gemini 3.1 Flash TTS，支持 70 种不同语言！ > 现可通过 AI Studio 中的全新音频 playground 和 Gemini API 使用！【引用 @Google】：使用 Gemini 3.1 Flash TTS 在 70 多种语言中生成细腻、引人入胜的音频体验--这是我们迄今为止最可控且最具表现力的文本转语音模型。🔊

Google: Generate nuanced, engaging audio experiences across 70+ languages with Gemini 3.1 Flash TTS - our most controllable & ex...

Google 模型发布语音

4月15日

16:51

HuggingFace Daily Papers（社区热门论文）

SpotSound：通过细粒度时间定位增强大型音频语言模型

研究团队发布SpotSound音频语言模型，针对长音频中的事件精确定位难题，提出可抑制幻觉时间戳的新型训练目标。同步推出SpotSound-Bench基准测试，目标事件占音频片段比例低于10%，模拟"大海捞针"的严苛真实场景。实验表明，该模型在时间定位基准上取得SOTA结果，同时在通用音频语言任务中保持稳健性能。相关代码、模型及数据集均已开源。

arXiv 多模态论文/研究语音

06:05

Rohan Paul@rohanpaul_ai

宾汉姆顿大学展示了一只机器导盲犬（Unitree Go2 底座），它能与用户自然对话。在测试中，它询问用户想去哪里，建议了一条路线，然后实时描述周围环境

具身智能论文/研究语音

04:05

Rohan Paul@rohanpaul_ai

你个人的、随时可用的 AI 治疗师时代已经开启。 Lovon 刚刚推出了一款以语音优先、24/7 支持为核心的 AI 治疗师。加密对话，数据不会用于 AI 训练。廉价、私密、即时的支持比昂贵的稀缺资源是更好的默认选择。 "没有 200 美元的疗程。没有等待名单。只需打开应用即可交谈。" 【引用 @ponikarovskii】：几年前，在我最需要治疗的时候，我负担不起。今天我推出了 Lovon -- 一款私密、24/7 且真正能帮助你感觉更好的 AI 治疗师。没有 200 美元的疗程。没有等待名单。只需打开应用即可交谈。（打开声音 🔊）

Anton Ponikarovskii: a few years ago I couldn't afford therapy when I needed it most. today I'm launching Lovon - an AI therapist that's priv...

产品更新语音

01:36

DogeDesigner@cb_doge

NEWS： SpaceX 正在使用由 Grok 提供支持的语音 AI 助手来处理 Starlink 客户支持电话。该声音听起来完全像人类，可以实时与用户对话。 "Grok 在 SpaceX 和 Tesla 已经表现得相当出色。我们看到 Grok 在客户服务等事务中非常有帮助，而且 AI 拥有无限的耐心，所以你可以对它大喊大叫，它仍然会非常有礼貌。"

xAI 多模态行业动态语音

4月13日

12:34

Rohan Paul@rohanpaul_ai

OpenBMB发布开源多语言TTS模型VoxCPM 2

OpenBMB发布开源TTS模型VoxCPM 2，仅2B参数支持30种语言，无需语言标签即可生成语音。Apache-2.0许可，8GB显存可运行。支持文本描述创建新声音、可控克隆与终极克隆，保留说话人细节。输出48kHz音质，RTX 4090实时推理达0.3 RTF。兼容PyTorch、LoRA微调及Nano-VLLM部署，适用于影视、游戏、有声书等专业场景。

开源/仓库端侧语音

04:33

Rohan Paul@rohanpaul_ai

初创公司推出付费AI耶稣视频通话服务

一家初创公司推出AI耶稣视频通话服务，每分钟收费$1.99，模型基于King James Bible及牧师布道训练，形象参照Jonathon Roumie在The Chosen中的荧幕造型。该服务将语言模型转化为具有特定面容、语气与风格的数字演员，核心卖点并非宗教信息获取，而是实时精神陪伴带来的被关注与指引感，代表信仰科技与情感付费结合的新商业模式。

产品更新多模态语音

4月12日