5月16日

18:25

The Decoder：AI News（RSS）

OpenAI已完成对小型初创公司Weights.gg的收购，该公司此前以提供泰勒·斯威夫特、唐纳德·特朗普等名人AI声音克隆服务而知名。约六人规模的团队现已加入OpenAI。不过，OpenAI明确表示暂无计划将此项技术作为独立产品向公众发布，此次收购主要着眼于团队与技术整合。

OpenAI 行业动态语音

09:42

IT之家（RSS）

OpenAI 低调收购声音克隆平台 Weights.gg，整合 AI 语音技术并应对版权争议

OpenAI 于今年早些时候低调收购了AI声音克隆初创公司Weights.gg，获得了其全部知识产权和约六人团队。Weights.gg的平台允许用户创建AI语音翻唱和进行文本转语音，其社区模型库包含大量未经授权的名人声音模型。OpenAI自身已开发出仅需15秒音频即可克隆语音的Voice Engine技术，但因滥用担忧尚未广泛开放。公司正将语音技术整合进商业化产品，并调整业务以聚焦创收。此次收购也使其更深地卷入声音克隆技术引发的版权争议之中。

OpenAI 行业动态语音

5月15日

18:42

IT之家（RSS）

追觅推出 AI 录音名片 D・NOTE：支持一键录音后 AI 转写总结，899 元起

追觅发布了一款名为 D·NOTE 的 AI 录音名片，主打一键录音、转写和总结功能。产品重30克，支持145种语言的在线秒速转写，并内置超过1800个中文模板以智能匹配总结。它还具备说话人识别功能，最大工作距离5米，最多可识别35人。此外，该设备支持NFC传输电子名片，内置电池提供最长30小时续航。产品提供8GB和64GB两个存储版本，首发价分别为899元和999元。

产品更新端侧语音

11:17

公众号：腾讯混元

腾讯新闻AI电台来了！基于混元大模型打造

产品更新语音

01:46

HuggingFace Daily Papers（社区热门论文）

精选71

EVA-Bench：端到端语音智能体评估新框架

EVA-Bench是一个端到端语音智能体评估框架，解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真，并提出了衡量任务完成度、音频保真度的EVA-A指标，以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集，采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现，无系统能在两项核心指标上同时超过0.5，峰值与可靠性能差距显著，且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。

Hugging Face 论文/研究评测/基准语音

推荐理由：EVA-Bench 把语音代理评估从「能对话就行」推进到「对话质量+鲁棒性」的全维度打分，还开源了 213 个企业场景，做语音助手的团队该认真看看。

5月14日

14:46

HuggingFace Daily Papers（社区热门论文）

Vividh-ASR：面向鲁棒印度语语音识别的复杂度分层基准与优化动态研究

针对多语言ASR模型微调中出现的“录音室偏差”问题，本研究发布了Vividh-ASR基准，涵盖印地语和马拉雅拉姆语的四个语音复杂度层级。通过控制学习率时机与课程顺序的实验发现，早期大参数更新可显著降低整体词错误率，而由难到易的课程顺序能进一步提升自发语音识别效果。据此提出的反向多阶段微调方法，使2.44亿参数的Whisper模型性能达到或超过传统微调的7.69亿参数模型。表征分析表明，有效调度将适应过程集中于解码器，同时保持了编码器的预训练声学结构。基准与模型均已开源。

论文/研究语音

14:02

公众号：豆包（字节）

豆包输入法上新，可以在电脑上语音打字了

产品更新端侧语音