华为 FreeClip 2 和 FreeBuds Pro 5 耳机已开启鸿蒙 HarmonyOS 6.1 版本推送,版本号分别为 6.1.0.276 和 6.1.0.272。FreeClip 2 主要优化翻译速度、小艺连续对话效果及来电铃声体验;FreeBuds Pro 5 新增 AI 键智能体交互功能,支持按住说、松手答的操作方式,并新增耳机独立空间音频功能。升级需确保两只耳机及耳机盒电量均大于 20%。
华为 FreeClip 2 和 FreeBuds Pro 5 耳机已开启鸿蒙 HarmonyOS 6.1 版本推送,版本号分别为 6.1.0.276 和 6.1.0.272。FreeClip 2 主要优化翻译速度、小艺连续对话效果及来电铃声体验;FreeBuds Pro 5 新增 AI 键智能体交互功能,支持按住说、松手答的操作方式,并新增耳机独立空间音频功能。升级需确保两只耳机及耳机盒电量均大于 20%。
影石 Insta360 在 NAB 2026 展会上预告新款无线麦克风 Mic Pro,其正面配备圆形彩色 E-Ink 电子墨水屏,支持自定义显示品牌 Logo、照片或艺术图案。该设备内置三麦克风阵列与专用 AI 处理器,实现专业级降噪录音。Mic Pro 支持直连 Insta360 相机传输音频,无需接收器,同时发射器具备机内录音功能,可作为独立录音设备使用。
音乐流媒体平台Deezer披露,其每日接收约7.5万首AI生成歌曲投稿,占日上传总量的44%,较2025年1月推出检测工具时的1万首激增。尽管投稿量攀升,AI歌曲播放量仅占总量的1%至3%,因平台持续将其排除在推荐算法外。作为目前唯一标注AI曲目的流媒体服务,Deezer已取消该类音乐收益分成并停止存储高分辨率版本,同时开始向第三方授权其AI检测技术,可识别Udio、Suno等工具生成的作品。
研究团队发布Tadabur大规模古兰经音频数据集,收录逾1400小时朗诵音频,涵盖600余位不同朗诵者在多样化录音条件下的演绎。该数据集在朗诵风格、声音特征方面具有显著差异性,大幅扩展了现有古兰经语音数据的规模与变异性,旨在为相关研究提供全面资源并推动标准化基准建立。
音乐流媒体平台Deezer最新数据显示,其平台每日上传的歌曲中高达44%由人工智能生成。这一比例揭示了AI音乐创作在流媒体分发领域的渗透率已接近半数,反映出生成式AI技术对传统音乐产业的冲击正加速显现。该统计数据来自Deezer官方披露,凸显了AI生成内容在音乐平台中的快速增长态势。
iOS 27将终止支持iPhone 11/Pro/Max及iPhone SE 2,iPhone 12仍可升级。新系统聚焦稳定性与AI功能,新增主屏幕撤销/重做快捷开关、液态玻璃效果精细调节滑块,以及集成于灵动岛、带发光效果的Siri新界面。Visual Intelligence将支持扫描食品营养标签和识别印刷品联系方式,钱包应用与Safari浏览器也将迎来改进。
WIKO情感陪伴AI电子宠物"智能憨憨"蜂窝版正式发布,支持Wi-Fi与蜂窝网络双模连接,预售价499元,将于4月25日开售。相比2025年11月上市的普通版(399元),蜂窝版最大升级在于新增移动网络支持。该产品内置华为小艺大模型,适配鸿蒙5及以上系统,支持自然对话及摸头、摇晃等动作交互。
华为AI眼镜正式发布,提供钛银灰、流光银、摩登黑三款配色及圆形、方形两种镜框,售价2499元起,将于4月25日开售。产品采用轻量化设计,镜架仅重35.5克,镜腿薄至6.25毫米,基于超30万亚洲头形数据构建平衡架构。内置自研AI芯片,支持语音唤醒、AI交互、第一人称视角拍摄及支付宝支付等功能,综合续航达12小时,支持连续8小时通话或9小时音乐播放。
现有语音到语音翻译系统常剥离笑声、哭声等非语言发声,严重限制实用性。研究团队提出MoVE架构,采用Mixture-of-LoRA-Experts设计和软加权路由器捕捉混合情感状态,仅需30分钟精选数据即可训练。在英汉翻译任务中,MoVE在76%的情况下成功重现目标非语言发声,显著优于现有系统最高14%的保留率,并获得最高的人类评分自然度与情感保真度。
首次系统研究表明,对音频大语言模型进行良性微调会严重破坏安全对齐,使越狱成功率(JSR)从个位数飙升至87.12%。通过分解嵌入空间接近性的语义与声学维度,发现脆弱性取决于模型架构如何处理音频输入。研究提出两种防御措施:基于嵌入距离的数据过滤和推理时文本系统提示,均无需修改架构即可将JSR降至接近零。机制分析揭示,微调选择性抑制了晚期拒绝电路,而冻结编码器保留了原始表示。
研究团队发布 MTR-DuplexBench 基准,首次系统评估全双工语音语言模型(FD-SLMs)的多轮对话能力。该基准将连续对话切分为离散回合,涵盖对话特征、对话质量、指令遵循和安全性四个维度。实验表明,当前 FD-SLMs 在多轮交互中性能波动明显,难以保持上下文一致性。相关代码和数据已开源。
研究团队提出分层编解码器扩散Transformer模型 HiCoDiT,利用 RVQ 编解码器的分层结构解决现有视频到语音生成方法忽视语音层级特性的问题。该方法通过低级块基于唇形同步运动与面部身份建模说话人感知语义,高级块利用面部表情调节细粒度韵律动态,并引入双尺度自适应实例层归一化实现从粗到细的条件控制。实验表明,该模型在语音保真度和表现力上显著优于基线方法,代码与演示已开源。
研究团队提出轻量级框架ArtifactNet,通过提取神经音频编解码器遗留的物理伪影识别AI音乐。该框架采用3.6M参数UNet提取残差并分解为7通道特征,经0.4M参数CNN分类,总参数量仅4.0M。配套发布含6,183首曲目的ArtifactBench基准(涵盖22个AI生成器)。在2,263首测试集上,该方法取得F1=0.9829、FPR=1.49%,远超CLAM等方法,参数量仅为其1/49。多格式增强训练使跨编解码器概率漂移降低83%。
美团技术团队推出的LongCat-AudioDiT模型,实现了零样本TTS音色克隆,让AI直接学习声音本身的规律,跳过中间处理环节,从而突破音色克隆的上限。
研究团队提出WavAlign方法,针对端到端语音对话模型智能与表现力不足的问题,设计了模态感知自适应后训练方案。该方法将偏好更新约束至语义通道,通过显式锚定改善声学行为,并基于rollout统计动态调节混合比例以避免不可靠梯度。在多个语音对话基准测试及代表性架构上的评估显示,模型在语义质量和语音表现力方面均获得一致提升。
Google 推出 Gemini 3.1 Flash TTS 文本转语音模型,支持超过70种语言的自然语音合成。该模型引入音频标签功能,允许用户精确控制输出语音的风格、语速和语调,显著提升了语音合成的表现力和可控性,适用于多语言内容创作场景。
研究团队发布SpotSound音频语言模型,针对长音频中的事件精确定位难题,提出可抑制幻觉时间戳的新型训练目标。同步推出SpotSound-Bench基准测试,目标事件占音频片段比例低于10%,模拟"大海捞针"的严苛真实场景。实验表明,该模型在时间定位基准上取得SOTA结果,同时在通用音频语言任务中保持稳健性能。相关代码、模型及数据集均已开源。
天工AI Mureka亮相央视《焦点访谈》,1分钟内即可为宋词谱曲,展现中国AI在音乐创作领域的原创能力。
美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示,直接在波形潜空间操作,仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题,并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆,说话人相似度(SIM)在 Seed-ZH 达 0.818、Seed-Hard 达 0.797,超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。
关联讨论 1 条美团 LongCat:HuggingFace 新模型Google Translate 耳机实时翻译功能正式支持 iOS,可将耳机变为个人实时翻译器。该功能同时面向 iOS 和 Android 用户扩展至更多国家。
Gemini 推出 3.1 Flash Live 语音模型,通过提升精度、降低延迟,使语音交互更流畅自然且精准可靠。
Gemini 3.1 Flash Live 已上线 Google 全系产品,提供更自然、可靠的实时音频 AI 交互能力。
关联讨论 1 条Google DeepMind:Blog(RSS)Suno发布v5.5模型,推出Voices、Custom Models与My Taste三大功能。Voices支持Pro及Premier订阅者录制或上传人声,经语音验证后仅限本人使用;Custom Models可基于用户原创曲库训练最多三个个性化模型;My Taste则面向所有用户,自动学习其音乐偏好。此次更新旨在同时服务专业音乐人与普通创作者,并为与音乐产业合作的下一代模型奠定基础。
ServiceNow AI团队在Hugging Face上发布了语音智能体评估框架EVA。该框架通过标准化测试集与多模态指标,系统评估语音助手在对话理解、任务完成及交互自然度等方面的性能,旨在量化衡量智能体在复杂真实场景下的表现,助力研究人员客观比较不同模型,推动技术优化。
Voxtral 发布 40 亿参数文本转语音模型 Voxtral TTS,支持英语、法语等 9 种语言的逼真语音生成。该模型仅需 3 秒参考音频即可实现零样本语音克隆,延迟低至 70 毫秒。人工评测显示,其在保持与 ElevenLabs Flash v2.5 相当首音时间的同时,自然度表现更优,与 ElevenLabs v3 质量持平。模型支持情感控制和跨语言语音迁移,适用于企业级语音代理工作流。
MiniMax 推出的 AI 产品 OpenClaw(昵称“小龙虾”)具备 24 小时不间断学习能力,目前已开始自主生成内容(“虾说虾唱”)。该产品尚未公布具体参数或版本号,但强调“全天候学习”作为核心特性。
Descript 利用 OpenAI reasoning models 实现大规模多语言视频配音,可在自动本地化大型内容库时保持时间同步与语义准确。
百灵多模态团队于两天前发布 Ming-flash-omni-2.0,并基于其语音模块推出新模型 Ming-omni-tts。通过模型规模扩展(scale up),Ming-omni-tts 实现更强的语音生成效果。
inclusionAI 发布了 Ming-omni-tts,这是一个能够统一生成语音、音乐和声音的模型。该模型的核心特点是结构简单高效,并实现了对生成内容的精确控制。它通过一个统一的框架处理多种音频模态,简化了传统上需要不同模型分别处理语音、音乐和音效的流程。这一进展为跨模态音频内容的创作与编辑提供了更便捷、可控的工具。
inclusionAI团队发布了Ming-omni-tts-tokenizer-12Hz开源项目,这是一个面向文本转语音(TTS)的通用分词器。该模型支持12Hz的高采样率,旨在提升语音合成的自然度与表现力。项目基于开源与开放科学的理念推进,致力于让人工智能技术更加普及和易得。
inclusionAI 发布了 Ming-omni-tts-0.5B,这是一个参数规模为 0.5B(5亿)的文本转语音模型。该模型旨在通过开源和开放科学的方式,推动人工智能技术的进步与普及。发布标志着在语音合成领域,一个中等规模、可公开访问的模型正式加入开源生态。
inclusionAI发布了开源文本转语音模型Ming-omni-tts-16.8B-A3B,参数量达168亿。该模型采用创新的A3B混合专家架构,在语音自然度、多语言支持和情感表现方面实现显著提升。项目遵循开源开放科学理念,旨在推动人工智能技术的民主化进程。
Mistral AI 发布 Voxtral Transcribe 2 系列两款新一代语音转文本模型。Voxtral Mini Transcribe V2 支持13种语言的批量转录,具备说话人日志、上下文偏置和词级时间戳功能,在 FLEURS 基准测试中词错率约4%,性价比领先。Voxtral Realtime 专为实时应用设计,采用流式架构,延迟可配置至200毫秒以下,支持13种语言,并以 Apache 2.0 协议开源。同时,Mistral Studio 上线了由该系列模型驱动的音频游乐场,供用户即时测试转录功能。
Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源,具备鲁棒性、流式处理与多语言能力。Qwen Studio 同步集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能。