4月21日

15:11

IT之家（RSS）

华为 FreeClip 2 / FreeBuds Pro 5 耳机开推鸿蒙 6.1：优化全场景体验、Pro 新增 AI 键功能

华为 FreeClip 2 和 FreeBuds Pro 5 耳机已开启鸿蒙 HarmonyOS 6.1 版本推送，版本号分别为 6.1.0.276 和 6.1.0.272。FreeClip 2 主要优化翻译速度、小艺连续对话效果及来电铃声体验；FreeBuds Pro 5 新增 AI 键智能体交互功能，支持按住说、松手答的操作方式，并新增耳机独立空间音频功能。升级需确保两只耳机及耳机盒电量均大于 20%。

智能体产品更新语音

13:11

IT之家（RSS）

影石 Insta360 预告无线麦克风 Mic Pro：配 E-Ink 屏、搭载 AI 降噪

影石 Insta360 在 NAB 2026 展会上预告新款无线麦克风 Mic Pro，其正面配备圆形彩色 E-Ink 电子墨水屏，支持自定义显示品牌 Logo、照片或艺术图案。该设备内置三麦克风阵列与专用 AI 处理器，实现专业级降噪录音。Mic Pro 支持直连 Insta360 相机传输音频，无需接收器，同时发射器具备机内录音功能，可作为独立录音设备使用。

产品更新语音

09:10

IT之家（RSS）

音乐流媒体平台 Deezer 日收近 7.5 万首 AI 歌曲，占投稿量 44%

音乐流媒体平台Deezer披露，其每日接收约7.5万首AI生成歌曲投稿，占日上传总量的44%，较2025年1月推出检测工具时的1万首激增。尽管投稿量攀升，AI歌曲播放量仅占总量的1%至3%，因平台持续将其排除在推荐算法外。作为目前唯一标注AI曲目的流媒体服务，Deezer已取消该类音乐收益分成并停止存储高分辨率版本，同时开始向第三方授权其AI检测技术，可识别Udio、Suno等工具生成的作品。

现象/趋势语音

08:00

HuggingFace Daily Papers（社区热门论文）

Tadabur：大规模古兰经音频数据集

研究团队发布Tadabur大规模古兰经音频数据集，收录逾1400小时朗诵音频，涵盖600余位不同朗诵者在多样化录音条件下的演绎。该数据集在朗诵风格、声音特征方面具有显著差异性，大幅扩展了现有古兰经语音数据的规模与变异性，旨在为相关研究提供全面资源并推动标准化基准建立。

数据/训练论文/研究语音

01:38

Hacker News 热门（buzzing.cc 中文翻译）

Deezer表示，其平台每天上传的歌曲中，有44%是由人工智能生成的

音乐流媒体平台Deezer最新数据显示，其平台每日上传的歌曲中高达44%由人工智能生成。这一比例揭示了AI音乐创作在流媒体分发领域的渗透率已接近半数，反映出生成式AI技术对传统音乐产业的冲击正加速显现。该统计数据来自Deezer官方披露，凸显了AI生成内容在音乐平台中的快速增长态势。

现象/趋势语音

4月20日

23:10

IT之家（RSS）

消息称苹果 iOS 27 抛弃 iPhone 11 / Pro / Max 及 SE 2 等手机

iOS 27将终止支持iPhone 11/Pro/Max及iPhone SE 2，iPhone 12仍可升级。新系统聚焦稳定性与AI功能，新增主屏幕撤销/重做快捷开关、液态玻璃效果精细调节滑块，以及集成于灵动岛、带发光效果的Siri新界面。Visual Intelligence将支持扫描食品营养标签和识别印刷品联系方式，钱包应用与Safari浏览器也将迎来改进。

产品更新端侧语音

21:59

IT之家（RSS）

WIKO 情感陪伴 AI 电子宠物"智能憨憨"蜂窝版上市：华为小艺大模型加持，预售价 499 元

WIKO情感陪伴AI电子宠物"智能憨憨"蜂窝版正式发布，支持Wi-Fi与蜂窝网络双模连接，预售价499元，将于4月25日开售。相比2025年11月上市的普通版（399元），蜂窝版最大升级在于新增移动网络支持。该产品内置华为小艺大模型，适配鸿蒙5及以上系统，支持自然对话及摸头、摇晃等动作交互。

产品更新端侧语音

17:02

IT之家（RSS）

"何刚同款"华为 AI 眼镜发布，2499/2899 元

华为AI眼镜正式发布，提供钛银灰、流光银、摩登黑三款配色及圆形、方形两种镜框，售价2499元起，将于4月25日开售。产品采用轻量化设计，镜架仅重35.5克，镜腿薄至6.25毫米，基于超30万亚洲头形数据构建平衡架构。内置自研AI芯片，支持语音唤醒、AI交互、第一人称视角拍摄及支付宝支付等功能，综合续航达12小时，支持连续8小时通话或9小时音乐播放。

产品更新端侧语音

14:01

公众号：通义实验室（千问）

敢不敢用家乡话测试这个 AI？

产品更新语音

4月19日

08:00

HuggingFace Daily Papers（社区热门论文）

MoVE：基于发声专家混合架构在语音到语音翻译中还原哭笑等非语言情感

现有语音到语音翻译系统常剥离笑声、哭声等非语言发声，严重限制实用性。研究团队提出MoVE架构，采用Mixture-of-LoRA-Experts设计和软加权路由器捕捉混合情感状态，仅需30分钟精选数据即可训练。在英汉翻译任务中，MoVE在76%的情况下成功重现目标非语言发声，显著优于现有系统最高14%的保留率，并获得最高的人类评分自然度与情感保真度。

arXiv 论文/研究语音

4月17日

08:00

HuggingFace Daily Papers（社区热门论文）

良性微调打破音频大语言模型的安全对齐

首次系统研究表明，对音频大语言模型进行良性微调会严重破坏安全对齐，使越狱成功率（JSR）从个位数飙升至87.12%。通过分解嵌入空间接近性的语义与声学维度，发现脆弱性取决于模型架构如何处理音频输入。研究提出两种防御措施：基于嵌入距离的数据过滤和推理时文本系统提示，均无需修改架构即可将JSR降至接近零。机制分析揭示，微调选择性抑制了晚期拒绝电路，而冻结编码器保留了原始表示。

arXiv 论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

MTR-DuplexBench：面向全双工语音语言模型多轮对话的综合评估基准

研究团队发布 MTR-DuplexBench 基准，首次系统评估全双工语音语言模型（FD-SLMs）的多轮对话能力。该基准将连续对话切分为离散回合，涵盖对话特征、对话质量、指令遵循和安全性四个维度。实验表明，当前 FD-SLMs 在多轮交互中性能波动明显，难以保持上下文一致性。相关代码和数据已开源。

arXiv 论文/研究评测/基准语音

08:00

HuggingFace Daily Papers（社区热门论文）

面向视频到语音生成的分层编解码器扩散模型

研究团队提出分层编解码器扩散Transformer模型 HiCoDiT，利用 RVQ 编解码器的分层结构解决现有视频到语音生成方法忽视语音层级特性的问题。该方法通过低级块基于唇形同步运动与面部身份建模说话人感知语义，高级块利用面部表情调节细粒度韵律动态，并引入双尺度自适应实例层归一化实现从粗到细的条件控制。实验表明，该模型在语音保真度和表现力上显著优于基线方法，代码与演示已开源。

多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

ArtifactNet：基于物理伪影提取的AI音乐检测方法

研究团队提出轻量级框架ArtifactNet，通过提取神经音频编解码器遗留的物理伪影识别AI音乐。该框架采用3.6M参数UNet提取残差并分解为7通道特征，经0.4M参数CNN分类，总参数量仅4.0M。配套发布含6,183首曲目的ArtifactBench基准（涵盖22个AI生成器）。在2,263首测试集上，该方法取得F1=0.9829、FPR=1.49%，远超CLAM等方法，参数量仅为其1/49。多格式增强训练使跨编解码器概率漂移降低83%。

arXiv 安全/对齐论文/研究语音

4月16日

19:58

公众号：龙猫LongCat（美团）

LongCat-AudioDiT：突破零样本TTS音色克隆上限

美团技术团队推出的LongCat-AudioDiT模型，实现了零样本TTS音色克隆，让AI直接学习声音本身的规律，跳过中间处理环节，从而突破音色克隆的上限。

开源/仓库论文/研究语音

14:04

公众号：阶跃星辰（Step）

阶跃 StepAudio 2.5 TTS 上线！人人都能是配音导演

产品更新语音

08:00

HuggingFace Daily Papers（社区热门论文）

WavAlign：通过自适应混合后训练增强语音对话模型的智能与表现力

研究团队提出WavAlign方法，针对端到端语音对话模型智能与表现力不足的问题，设计了模态感知自适应后训练方案。该方法将偏好更新约束至语义通道，通过显式锚定改善声学行为，并基于rollout统计动态调节混合比例以避免不可靠梯度。在多个语音对话基准测试及代表性架构上的评估显示，模型在语义质量和语音表现力方面均获得一致提升。

arXiv 多模态论文/研究语音

02:07

The Decoder：AI News（RSS）

Google 发布迄今最具表现力的 Gemini 3.1 文本转语音模型，支持70余种语言

Google 推出 Gemini 3.1 Flash TTS 文本转语音模型，支持超过70种语言的自然语音合成。该模型引入音频标签功能，允许用户精确控制输出语音的风格、语速和语调，显著提升了语音合成的表现力和可控性，适用于多语言内容创作场景。

Google 模型发布语音

4月15日

16:51

HuggingFace Daily Papers（社区热门论文）

SpotSound：通过细粒度时间定位增强大型音频语言模型

研究团队发布SpotSound音频语言模型，针对长音频中的事件精确定位难题，提出可抑制幻觉时间戳的新型训练目标。同步推出SpotSound-Bench基准测试，目标事件占音频片段比例低于10%，模拟"大海捞针"的严苛真实场景。实验表明，该模型在时间定位基准上取得SOTA结果，同时在通用音频语言任务中保持稳健性能。相关代码、模型及数据集均已开源。

arXiv 多模态论文/研究语音

4月9日

12:30

公众号：豆包（字节）

今天，豆包打电话能力升级了

产品更新语音

4月4日

12:57

公众号：昆仑万维（天工）

天工AI Mureka惊艳央视《焦点访谈》！1 分钟谱就宋词新声，彰显中国 AI 原创力量

天工AI Mureka亮相央视《焦点访谈》，1分钟内即可为宋词谱曲，展现中国AI在音乐创作领域的原创能力。

产品更新语音

3月30日

11:25

美团 LongCat：HuggingFace 新模型

精选

LongCat-AudioDiT-1B：高保真波形潜空间扩散式文本转语音模型

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示，直接在波形潜空间操作，仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题，并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆，说话人相似度（SIM）在 Seed-ZH 达 0.818、Seed-Hard 达 0.797，超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

开源生态模型发布语音

关联讨论 1 条

推荐理由：美团开源 1B 语音克隆模型，Seed 基准超 Seed-TTS，零样本推理可用

3月27日

00:00

Google Blog：AI（RSS）

Google Translate 耳机实时翻译功能登陆 iOS

Google Translate 耳机实时翻译功能正式支持 iOS，可将耳机变为个人实时翻译器。该功能同时面向 iOS 和 Android 用户扩展至更多国家。

Google 产品更新语音

3月26日

23:23

Google DeepMind：Blog（RSS）

Gemini 3.1 Flash Live：让语音 AI 更自然可靠

Gemini 推出 3.1 Flash Live 语音模型，通过提升精度、降低延迟，使语音交互更流畅自然且精准可靠。

DeepMind Google 产品更新语音

23:21

Google Blog：AI（RSS）

精选

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

Gemini 3.1 Flash Live 已上线 Google 全系产品，提供更自然、可靠的实时音频 AI 交互能力。

Google 模型发布语音

关联讨论 1 条

推荐理由：Google发布Gemini 3.1 Flash Live，提升音频AI自然度与可靠性

00:00

Suno：Blog（网页）

Suno v5.5：更具表现力，更懂你

Suno发布v5.5模型，推出Voices、Custom Models与My Taste三大功能。Voices支持Pro及Premier订阅者录制或上传人声，经语音验证后仅限本人使用；Custom Models可基于用户原创曲库训练最多三个个性化模型；My Taste则面向所有用户，自动学习其音乐偏好。此次更新旨在同时服务专业音乐人与普通创作者，并为与音乐产业合作的下一代模型奠定基础。

产品更新多模态语音

3月24日

10:01

Hugging Face：Blog（RSS）

精选78

全新语音智能体评估框架EVA发布

ServiceNow AI团队在Hugging Face上发布了语音智能体评估框架EVA。该框架通过标准化测试集与多模态指标，系统评估语音助手在对话理解、任务完成及交互自然度等方面的性能，旨在量化衡量智能体在复杂真实场景下的表现，助力研究人员客观比较不同模型，推动技术优化。

智能体 Hugging Face 开源/仓库语音

推荐理由：提供语音代理评估标准，帮助开发者优化模型性能和测试效率。

3月23日

00:00

Mistral AI：News（网页）

Voxtral 发布 40 亿参数文本转语音模型

Voxtral 发布 40 亿参数文本转语音模型 Voxtral TTS，支持英语、法语等 9 种语言的逼真语音生成。该模型仅需 3 秒参考音频即可实现零样本语音克隆，延迟低至 70 毫秒。人工评测显示，其在保持与 ElevenLabs Flash v2.5 相当首音时间的同时，自然度表现更优，与 ElevenLabs v3 质量持平。模型支持情感控制和跨语言语音迁移，适用于企业级语音代理工作流。

智能体模型发布语音

3月19日

00:48

公众号：小米 MiMo

Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布

多模态模型发布语音

00:45

公众号：小米 MiMo

Xiaomi MiMo-V2-TTS 发布：为 Agent 注入灵魂，从此刻开始发声

多模态模型发布语音

3月9日

11:06

公众号：MiniMax（稀宇科技）

MiniMax 发布 OpenClaw "小龙虾"：24 小时持续学习，已开始自主生成内容

MiniMax 推出的 AI 产品 OpenClaw（昵称“小龙虾”）具备 24 小时不间断学习能力，目前已开始自主生成内容（“虾说虾唱”）。该产品尚未公布具体参数或版本号，但强调“全天候学习”作为核心特性。

产品更新语音

3月6日

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Descript 如何实现大规模多语言视频配音

Descript 利用 OpenAI reasoning models 实现大规模多语言视频配音，可在自动本地化大型内容库时保持时间同步与语义准确。

OpenAI 产品更新多模态语音

3月5日

09:01

公众号：阶跃星辰（Step）

创作一首新歌只需2秒！阶跃星辰开源 ACE-Step 1.5 收获开发社区好评

开源生态模型发布语音

2月18日

09:20

公众号：蚂蚁百灵（Ling）

蚂蚁百灵发布 Ming-flash-omni-2.0 与 Ming-omni-tts 语音模型

百灵多模态团队于两天前发布 Ming-flash-omni-2.0，并基于其语音模块推出新模型 Ming-omni-tts。通过模型规模扩展（scale up），Ming-omni-tts 实现更强的语音生成效果。

模型发布语音

2月11日

20:18

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Ming-omni-tts

inclusionAI 发布了 Ming-omni-tts，这是一个能够统一生成语音、音乐和声音的模型。该模型的核心特点是结构简单高效，并实现了对生成内容的精确控制。它通过一个统一的框架处理多种音频模态，简化了传统上需要不同模型分别处理语音、音乐和音效的流程。这一进展为跨模态音频内容的创作与编辑提供了更便捷、可控的工具。

开源生态模型发布语音

11:12

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-tokenizer-12Hz

inclusionAI团队发布了Ming-omni-tts-tokenizer-12Hz开源项目，这是一个面向文本转语音（TTS）的通用分词器。该模型支持12Hz的高采样率，旨在提升语音合成的自然度与表现力。项目基于开源与开放科学的理念推进，致力于让人工智能技术更加普及和易得。

开源生态模型发布语音

11:10

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-0.5B

inclusionAI 发布了 Ming-omni-tts-0.5B，这是一个参数规模为 0.5B（5亿）的文本转语音模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。发布标志着在语音合成领域，一个中等规模、可公开访问的模型正式加入开源生态。

开源生态模型发布语音

10:49

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-16.8B-A3B

inclusionAI发布了开源文本转语音模型Ming-omni-tts-16.8B-A3B，参数量达168亿。该模型采用创新的A3B混合专家架构，在语音自然度、多语言支持和情感表现方面实现显著提升。项目遵循开源开放科学理念，旨在推动人工智能技术的民主化进程。

开源生态模型发布语音

2月4日

00:00

Mistral AI：News（网页）

Mistral AI 发布 Voxtral Transcribe 2 系列语音转文本模型及音频游乐场

Mistral AI 发布 Voxtral Transcribe 2 系列两款新一代语音转文本模型。Voxtral Mini Transcribe V2 支持13种语言的批量转录，具备说话人日志、上下文偏置和词级时间戳功能，在 FLEURS 基准测试中词错率约4%，性价比领先。Voxtral Realtime 专为实时应用设计，采用流式架构，延迟可配置至200毫秒以下，支持13种语言，并以 Apache 2.0 协议开源。同时，Mistral Studio 上线了由该系列模型驱动的音频游乐场，供用户即时测试转录功能。

模型发布端侧语音

1月29日

00:00

Qwen：Blog Retrieval（API）

Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源：鲁棒、流式、多语言！

Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源，具备鲁棒性、流式处理与多语言能力。Qwen Studio 同步集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能。

开源/仓库开源生态语音