研究团队提出分层编解码器扩散Transformer模型 HiCoDiT,利用 RVQ 编解码器的分层结构解决现有视频到语音生成方法忽视语音层级特性的问题。该方法通过低级块基于唇形同步运动与面部身份建模说话人感知语义,高级块利用面部表情调节细粒度韵律动态,并引入双尺度自适应实例层归一化实现从粗到细的条件控制。实验表明,该模型在语音保真度和表现力上显著优于基线方法,代码与演示已开源。
研究团队提出分层编解码器扩散Transformer模型 HiCoDiT,利用 RVQ 编解码器的分层结构解决现有视频到语音生成方法忽视语音层级特性的问题。该方法通过低级块基于唇形同步运动与面部身份建模说话人感知语义,高级块利用面部表情调节细粒度韵律动态,并引入双尺度自适应实例层归一化实现从粗到细的条件控制。实验表明,该模型在语音保真度和表现力上显著优于基线方法,代码与演示已开源。
研究团队提出轻量级框架ArtifactNet,通过提取神经音频编解码器遗留的物理伪影识别AI音乐。该框架采用3.6M参数UNet提取残差并分解为7通道特征,经0.4M参数CNN分类,总参数量仅4.0M。配套发布含6,183首曲目的ArtifactBench基准(涵盖22个AI生成器)。在2,263首测试集上,该方法取得F1=0.9829、FPR=1.49%,远超CLAM等方法,参数量仅为其1/49。多格式增强训练使跨编解码器概率漂移降低83%。
TTS评估体系存在根本性缺陷。当前主流评测标准与真实对话场景中的用户偏好严重脱节,技术迭代速度已超越基准测试的发展。针对实时对话代理的系统应在真实交互中评估,而非依赖孤立音频片段。核心问题在于,现有方法将"自然度"简化为可平均、排名的单一指标,忽视了人类语音感知的关键细节——微妙的时间变化、克制的情感表达、不均匀的呼吸节奏以及契合语境的措辞方式。
http://x.com/i/article/2043661447478329344
美团技术团队推出的LongCat-AudioDiT模型,实现了零样本TTS音色克隆,让AI直接学习声音本身的规律,跳过中间处理环节,从而突破音色克隆的上限。
研究团队提出WavAlign方法,针对端到端语音对话模型智能与表现力不足的问题,设计了模态感知自适应后训练方案。该方法将偏好更新约束至语义通道,通过显式锚定改善声学行为,并基于rollout统计动态调节混合比例以避免不可靠梯度。在多个语音对话基准测试及代表性架构上的评估显示,模型在语义质量和语音表现力方面均获得一致提升。
Google 发布 Gemini 3.1 Flash TTS 语音模型及 Chrome Skills 工具,支持场景化语音合成与提示词复用。OpenAI 推出 GPT-5.4-Cyber 并升级 Agents SDK 为长期运行代理环境,支持沙盒执行与状态管理。与此同时,AI 技术遭遇强烈社会抵制,出现针对数据中心的激进行动。
Google 推出 Gemini 3.1 Flash TTS 文本转语音模型,支持超过70种语言的自然语音合成。该模型引入音频标签功能,允许用户精确控制输出语音的风格、语速和语调,显著提升了语音合成的表现力和可控性,适用于多语言内容创作场景。
Gemini Mac app is now live
Generate nuanced, engaging audio experiences across 70+ languages with Gemini 3.1 Flash TTS - our most controllable & ex...
研究团队发布SpotSound音频语言模型,针对长音频中的事件精确定位难题,提出可抑制幻觉时间戳的新型训练目标。同步推出SpotSound-Bench基准测试,目标事件占音频片段比例低于10%,模拟"大海捞针"的严苛真实场景。实验表明,该模型在时间定位基准上取得SOTA结果,同时在通用音频语言任务中保持稳健性能。相关代码、模型及数据集均已开源。
a few years ago I couldn't afford therapy when I needed it most. today I'm launching Lovon - an AI therapist that's priv...
OpenBMB发布开源TTS模型VoxCPM 2,仅2B参数支持30种语言,无需语言标签即可生成语音。Apache-2.0许可,8GB显存可运行。支持文本描述创建新声音、可控克隆与终极克隆,保留说话人细节。输出48kHz音质,RTX 4090实时推理达0.3 RTF。兼容PyTorch、LoRA微调及Nano-VLLM部署,适用于影视、游戏、有声书等专业场景。
一家初创公司推出AI耶稣视频通话服务,每分钟收费$1.99,模型基于King James Bible及牧师布道训练,形象参照Jonathon Roumie在The Chosen中的荧幕造型。该服务将语言模型转化为具有特定面容、语气与风格的数字演员,核心卖点并非宗教信息获取,而是实时精神陪伴带来的被关注与指引感,代表信仰科技与情感付费结合的新商业模式。
天工AI Mureka亮相央视《焦点访谈》,1分钟内即可为宋词谱曲,展现中国AI在音乐创作领域的原创能力。
微软AI超级智能团队发布了MAI-Transcribe-1语音转录模型。该模型在Artificial Analysis语音转文本排行榜的AA-WER指标上达到3.0%的词错误率,位列第四,仅次于Mistral Voxtral Small、Google Gemini 3.1 Pro High和ElevenLabs Scribe v2。其处理速度约为实时音频的69倍,属于高速高精度模型。模型支持包括英语、法语、阿拉伯语、日语和中文在内的25种语言,其API目前已在Microsoft Foundry的Azure Speech服务上提供公开预览。
ChatGPT voice mode should be available on Apple CarPlay
作者耗时两天尝试为openclaw接入Omni模型以解决语音交互延迟过高(超30秒)的问题。插件方案因channel连接冲突导致系统离线;直接改源码则遭遇底层库pi-ai不支持OpenAI语音流且PR被拒。所有技术路径均被堵死后,作者反思:在AI生产力爆发时代,必须快速拥抱不确定性,否则可能因项目架构限制或维护者审核标准而错失机会。
美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示,直接在波形潜空间操作,仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题,并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆,说话人相似度(SIM)在 Seed-ZH 达 0.818、Seed-Hard 达 0.797,超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。
关联讨论 1 条美团 LongCat:HuggingFace 新模型Say hello to Gemini 3.1 Flash Live. 🗣️ Our latest audio model delivers more natural conversations with improved functio...
Ready to turn up the volume with Lyria 3 Pro? 🎶 Join us in the Gemini Discord tomorrow (3/26) at 11:30am PDT as Product...
Google Translate 耳机实时翻译功能正式支持 iOS,可将耳机变为个人实时翻译器。该功能同时面向 iOS 和 Android 用户扩展至更多国家。
Gemini 推出 3.1 Flash Live 语音模型,通过提升精度、降低延迟,使语音交互更流畅自然且精准可靠。
Gemini 3.1 Flash Live 已上线 Google 全系产品,提供更自然、可靠的实时音频 AI 交互能力。
关联讨论 1 条Google DeepMind:Blog(RSS)You can now create longer tracks with Lyria 3 Pro. 🎶 Map out intros, verses, choruses, and bridges to build high-fideli...