AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
6月2日周二
23:13OpenAI:官网动态(RSS · 排除企业/客户案例)38Travelers借助OpenAI在全国部署AI理赔助手
20:08IT之家(RSS)53xAI全球招"中文AI导师":训练Grok听中文,可远程办公
18:07IT之家(RSS)55腾讯客服:微信正与多家手机厂商合作推出语音助手通话功能
11:03Hacker News 热门(buzzing.cc 中文翻译)40GrapheneOS 语音服务 2.0 版发布
07:07IT之家(RSS)49苹果 WWDC26 下周开幕,新标语"全高光就位"暗指 Siri 将迎改版
05:47OpenAI Developers46OpenAI语音黑客松人民选择奖揭晓
01:11Artificial Analysis61AA-WER Streaming 基准测试发布
6月1日周一
22:36The Verge:AI(RSS)66人工智能正在颠覆音乐。格莱美奖该如何应对?
21:05IT之家(RSS)17微信安卓版 8.0.74 测试版发布,版本追齐 iOS
19:05公众号:京东JoyAI20JoyInside儿童节专题 | 不止一问一答,更是装在万物里的"童年玩伴"
17:05IT之家(RSS)39华为 FreeClip 2 耳夹耳机典藏版发布:珠宝盒设计、全新 AI 键智能体交互,1499 元
12:42Berryxia.AI74用两周开发一个可走进、可对话的盛唐长安3D世界
11:46MiniMax (official)78MiniMax发布M3模型,支持实时音视频交互
11:42Berryxia.AI73用Claude耗时两周、花费约800美元打造的《大唐长安》浏览器3D语音互动游戏教程
10:28IT之家(RSS)39华为 AI 眼镜"钛丝半框光学镜方形款"今日开售:钛银灰配色,2499 元
04:23Chubby♨️51GPT-Realtime 2.0语音操控电脑演示惊艳
00:35Berryxia.AI62Claude+Three.js打造盛唐语音互动游戏
5月31日周日
22:24🚨 AI News | TestingCatalog57Anthropic预告多款新AI产品,计划拓展至消费与生物科学领域
13:52Greg Brockman58GPT Realtime 2语音操控电脑演示
11:24IT之家(RSS)33299 元,黑鲨首款 AI 智能耳机"凤鸣耳夹式耳机 Pro"首销
09:45小互45GPT-Realtime 2.0语音操控电脑演示
06:53🚨 AI News | TestingCatalog62微软将发布新图像与语音模型
05:49MarkTechPost(RSS)572026年最佳文本转语音(TTS)模型:基于基准测试的对比
01:27OpenAI Developers59OpenAI语音黑客松决赛作品公布
5月30日周六
17:21IT之家(RSS)34微信鸿蒙版 App 获 8.0.18.34 尝鲜升级
12:21IT之家(RSS)40努比亚 M153 豆包手机推送 Obric UI 2 大版本更新:新增华为 Freeclip2 配对弹窗、锁屏 AI 空间,支持跨设备记忆迁移
04:19Greg Brockman76精选OpenAI推出实时翻译模型,支持70+语言输入
5月29日周五
23:34Berryxia.AI66开源:基于Three.js的盛唐长安3D世界与AI语音交互项目
22:34Berryxia.AI68开源项目:Three.js打造3D盛唐长安互动世界
17:40小互65苹果 iOS 27 曝光:Siri 将大改造
17:21IT之家(RSS)74精选小米开源可控视频音效生成模型 ControlFoley,让声音"按你想要的来"
16:46公众号:京东JoyAI43JoyInside上新:小龙AI魔法益智打印机开启预售
14:30HuggingFace Daily Papers(社区热门论文)69ChildVox: 一个用于理解和表征儿童期声音的语音、音频与大型音频-语言模型基准
10:29HuggingFace Daily Papers(社区热门论文)57用于生成的原生音视频对齐
09:09小互62ElevenLabs 推出 Dubbing V2
08:21IT之家(RSS)66苹果 iOS 27 爆料:用 Gemini 训练本地 AI,部分 Siri 请求转向谷歌云
08:00HuggingFace Daily Papers(社区热门论文)50OpenSTBench:超越语义评估的语音翻译统一评估框架
08:00HuggingFace Daily Papers(社区热门论文)55SwanVoice:面向独白与对话的富有表现力的零样本文本转语音模型
08:00HuggingFace Daily Papers(社区热门论文)59基于自回归扩散Transformer的流式同步空间音频生成
06:49🚨 AI News | TestingCatalog62ElevenLabs发布Dubbing v2 Alpha模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月2日
23:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
38
Travelers借助OpenAI在全国部署AI理赔助手

美国保险公司Travelers与OpenAI合作,构建了一款AI驱动的Claim Assistant。该工具旨在引导客户完成理赔流程,并提供全天候支持,以在业务高峰期扩展运营规模。

智能体OpenAI行业动态语音
20:08
IT之家(RSS)
53
xAI全球招"中文AI导师":训练Grok听中文,可远程办公

xAI正在全球招聘“中文AI导师”,以训练其AI模型Grok的中文语音交互能力。核心工作是整理与标注高质量音频数据,以改进Grok的多语言语音识别与理解。应聘者需母语为中文,并具备至少英语B2水平。该职位提供全职、兼职或合同工等多种形式,支持全程远程办公。美国境内候选人的时薪为35-45美元。

xAI行业动态语音
18:07
IT之家(RSS)
55
腾讯客服:微信正与多家手机厂商合作推出语音助手通话功能

微信正与华为、荣耀、小米、OPPO、vivo 等手机厂商合作推出 A2A(Agent-to-Agent)助手能力。用户可通过手机语音助理发起微信音视频通话或向指定好友发送消息。该功能由厂商 AI 助手向微信发起指令,微信负责执行并返回结果,采用双重授权机制保障数据安全。相关功能正在逐步开放中,荣耀的部分手机已率先支持。

智能体产品更新语音
11:03
Hacker News 热门(buzzing.cc 中文翻译)
40
GrapheneOS 语音服务 2.0 版发布

GrapheneOS 语音服务 2.0 版正式发布,该服务为 GrapheneOS 移动操作系统提供语音相关功能。此版本更新的具体内容和功能改进未在来源中详细说明。

产品更新端侧语音
07:07
IT之家(RSS)
49
苹果 WWDC26 下周开幕,新标语"全高光就位"暗指 Siri 将迎改版

苹果WWDC26开发者大会将于北京时间6月9日凌晨1点开幕。本届大会以“All systems glow”标语预热,这改编自“一切就绪”,被外界解读为暗示即将登陆iOS 27的Siri界面改版,可能包括推出独立App及在灵动岛新增功能,并采用深色UI与发光视觉元素。大会首场发布会将正式发布iOS 27等全系列新系统,并通过苹果官网及YouTube直播。

端侧行业动态语音
05:47
OpenAI Developers@OpenAIDevs
46
投票结果已出。 @isausmanov 的手机智能体操作系统获得语音黑客松人民选择奖。 一款语音优先的移动操作系统。用户说话,智能体响应并在手机上执行操作。 祝贺团队赢得 50,000 美元 API 额度。

OpenAI Developers: 🤳 Agentic OS for a Phone A voice-first mobile OS. Users talk, agents answer, and they can take action across the phone....

智能体OpenAI行业动态语音
01:11
Artificial Analysis@ArtificialAnlys
61
AA-WER Streaming 基准测试发布

Artificial Analysis 团队推出 AA-WER Streaming 基准,用于评估流式语音转文本模型在语音智能体场景中的表现,主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示,Cartesia Ink-2 在最终转录准确性上领先,词错率为 3.59%,延迟为 210ms;ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后;Deepgram Flux 延迟最低(约 20ms),但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。

评测/基准语音
6月1日
22:36
The Verge:AI(RSS)
66
人工智能正在颠覆音乐。格莱美奖该如何应对?

录音学院 CEO Harvey Mason Jr. 指出,人工智能在音乐制作中已“无处不在”。流媒体平台 Deezer 报告,每天有超过 5 万首 AI 生成歌曲被上传,这类内容越来越难以识别和过滤。Suno 等工具已成为各类音乐家主流创作流程的一部分。尽管如此,录音学院的规则规定,AI 音乐不具备获得格莱美奖这一行业最高荣誉的资格。

大佬观点语音
21:05
IT之家(RSS)
17
微信安卓版 8.0.74 测试版发布,版本追齐 iOS

微信安卓版发布 8.0.74 测试版,版本号追齐 iOS。本次更新以灰度功能覆盖为主,全量上线了照片“分享为贴图”、公众号留言显示绿色“首评”标识以及转账支持勾选最多两种付款方式的组合支付功能。同时,朋友圈页面样式改版、发送三张及以上媒体可选择合并展示等多个功能仍在灰度测试中。

其他语音
19:05
公众号:京东JoyAI
20
JoyInside儿童节专题 | 不止一问一答,更是装在万物里的"童年玩伴"

京东JoyInside将大模型技术嵌入多款儿童产品,包括AI毛绒公仔、小龙AI魔法益智打印机、京造AI台灯和小鸡球球点读笔,实现语音交互、伴读、双语互动等功能。六一前夕(5月最后一周),搭载JoyInside的AI终端销量环比4月同一周增长535%;小龙AI魔法益智打印机在618开门红4小时内销量环比激增17倍。

端侧行业动态语音
17:05
IT之家(RSS)
39
华为 FreeClip 2 耳夹耳机典藏版发布:珠宝盒设计、全新 AI 键智能体交互,1499 元

华为在 nova 16 系列发布会上发布了 FreeClip 2 耳夹耳机典藏版,定价 1499 元。该产品采用鎏光宝盒与珠宝盒设计,充电舱内部空间提升 20%,并与周大福合作推出专属配饰。耳机提供星海蓝、珠光银两款配色,柔软度提升 25%,并配备专属 AI 键,支持智能体交互。

产品更新其他语音
12:42
Berryxia.AI@berryxia
74
用两周开发一个可走进、可对话的盛唐长安3D世界

开发者使用Three.js,耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游,并接入Agora ConvoAI实时语音Agent,使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆,将历史文化与AI能力场景化结合。该开源项目(GitHub Pages)代码结构清晰,旨在为创作者提供一个可复用的数字文旅样板。

Berryxia.AI: http://x.com/i/article/2060375125825036288

智能体多模态开源/仓库教程/实践
11:46
MiniMax (official)@MiniMax_AI
78
出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频 去构建些令人兴奋的东西吧! 【引用 @visionagents_ai】:祝贺 @MiniMax_AI 团队发布 M3! 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态(图像与视频)

Vision Agents: Congrats to the @MiniMax_AI team on the release of M3! 👉 A frontier-class open-weight model 👉 1M context window 👉 Nat...

多模态开源/仓库模型发布视频
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
11:42
Berryxia.AI@berryxia
73
用Claude耗时两周、花费约800美元打造的《大唐长安》浏览器3D语音互动游戏教程

本教程介绍了如何构建一个名为《大唐长安》的Web 3D互动项目。项目基于Three.js搭建低多边形风格的长安城沙盘,玩家可通过WASD模式在其中漫游探索。核心玩法包括与多种NPC进行语音对话、参与飞花令等诗词小游戏。项目集成了Agora实时语音能力,通过Agora Skills(技能)和Agora CLI工具完成Agent集成与环境配置,使玩家能通过麦克风与李白等角色实时语音交流。此外,项目还设计了将现代AI品牌融入游戏的唐风AI展馆。

智能体Anthropic教程/实践语音
10:28
IT之家(RSS)
39
华为 AI 眼镜"钛丝半框光学镜方形款"今日开售:钛银灰配色,2499 元

华为AI眼镜“钛丝半框光学镜方形款”今日开售,价格2499元。该眼镜采用钛银灰配色,镜腿薄至6.25毫米,镜架重35.5克。其内置华为自研AI眼镜芯片,支持语音唤醒、AI快捷键、小艺看世界及支付宝看一下支付等功能。拍摄方面配备1/2.8''大底传感器与AI算法。综合续航达12小时。

产品更新端侧语音
04:23
Chubby♨️@kimmonismus
51
绝对精彩。这就是我想象中计算机使用的未来。我爱死它了。 GPT-Realtime 2.0 被严重低估了。 演示:

Farza 🇵🇰🇺🇸: Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...

OpenAI现象/趋势语音
00:35
Berryxia.AI@berryxia
62
一个用Claude模型和Three.js搭建的盛唐长安实时语音互动小游戏已开源。项目由个人开发者耗时2周、花费800刀完成,通过Agora Skills实现实时语音交互。玩家可在其中与NPC对话、与李白对诗、玩诗词小游戏,还能进入珍宝馆欣赏诗画,体验古文明与AI结合的沉浸感。

Berryxia.AI: 🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...

多模态开源/仓库语音
5月31日
22:24
🚨 AI News | TestingCatalog@testingcatalog
57
Anthropic计划进一步扩展至消费与生物科学领域,并预告了多款即将推出的产品,包括Conway agent、Orbit assistant、知识记忆、多语言语音模式以及面向生物科学研究的Operon。引用观点指出,Anthropic选择先聚焦编程,但随着Claude的智能提升,其应用将扩展到人类智能能发挥作用的各个领域。

Andrew Curran: Anthropic is not a coding company. It is an intelligence company that chose to focus on coding first. As Claude's intell...

智能体Anthropic行业动态语音
13:52
Greg Brockman@gdb
58
GPT Realtime 2 解锁了一些真正的魔法: GPT-Realtime 2.0 被严重低估了。 演示:

Farza 🇵🇰🇺🇸: Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...

OpenAI产品更新多模态语音
11:24
IT之家(RSS)
33
299 元,黑鲨首款 AI 智能耳机"凤鸣耳夹式耳机 Pro"首销

黑鲨首款AI智能耳机“凤鸣耳夹式耳机Pro”在京东独家首销,到手价299元。耳机单耳重5g,搭载蓝牙6.0,支持LHDC 5.0协议与13mm镀钛复合振膜,提供游戏、音乐、影院三种音效并支持ENC通话降噪。其AI功能包括同声传译与对话翻译。耳机单次续航9小时,搭配充电仓总续航达30小时,并具备IPX5防水和双设备切换能力。

产品更新语音
09:45
小互@xiaohu
45
GPT-Realtime 2.0 实时语音接入AI 操控你的电脑 这才是真正的Siri… 不过这么丝滑是接入的codex 还是什么?

Farza 🇵🇰🇺🇸: Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...

OpenAI多模态大佬观点语音
06:53
🚨 AI News | TestingCatalog@testingcatalog
62
BUILD 🔥: 微软正为 6 月 2 日的发布会准备新的图像和语音模型。 > MAI Voice 2,一个支持 15 种新闻语言和更广泛情感光谱的多语言模型(请在文章中查看语音样本) > MAI Transcribe 1.5,一个用于语音转文本用例的新模型。 > MAI Image 2.5,已于上周公布,现已在 LM Arena 上以预览版形式提供。与 MAI Image 2 相比,它支持文件上传,并可用于图像编辑。
Microsoft图像生成多模态模型发布
05:49
MarkTechPost(RSS)
57
2026年最佳文本转语音(TTS)模型:基于基准测试的对比

文章对2026年领先的商用与开源权重文本转语音(TTS)模型进行了排名对比。评估维度包括语音质量、延迟、成本、语言覆盖范围及许可协议,旨在帮助工程师根据具体应用场景选择合适的模型。

多模态评测/基准语音
01:27
OpenAI Developers@OpenAIDevs
59
🧵 我们的语音黑客之夜决赛作品已揭晓。 4个项目。6小时。真实场景中的实时语音智能体现已构建完成。 现在轮到你投票选出你最喜欢的作品了。我们将于周一公布获胜者。 https://cerebralvalley.ai/e/openai-voice-hack-night/hackathon/gallery
OpenAI行业动态语音
5月30日
17:21
IT之家(RSS)
34
微信鸿蒙版 App 获 8.0.18.34 尝鲜升级

微信鸿蒙版 App 在华为应用市场推出 8.0.18.34 版本尝鲜升级,测试期为 2026/5/30 至 2026/6/29。该应用安装量已超 5000 万次。本次更新主要包括:将“歌曲制作”变更为“音乐回声”,并引入 AI 翻唱模型;聊天界面图片/视频支持横屏自动旋转;新增 AI 搜索功能(部分场景可用);以及视频号、通讯录、设置等多处界面与功能优化。

产品更新搜索语音
12:21
IT之家(RSS)
40
努比亚 M153 豆包手机推送 Obric UI 2 大版本更新:新增华为 Freeclip2 配对弹窗、锁屏 AI 空间,支持跨设备记忆迁移
产品更新端侧语音
04:19
Greg Brockman@gdb
精选76
OpenAI 实时翻译功能--使用70多种输入语言说话,翻译成13种输出语言: gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。 大语言模型很棒,但特定用例需要专用模型。 我们正在智能眼镜上运行此功能。

cayden 凯登: OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...

OpenAI多模态模型发布语音

推荐理由:OpenAI悄悄推出一个专门做实时语音翻译的模型,不是通用LLM,而是专用模型。这标志着AI交互从文字转向语音的第一步,做翻译硬件或AR眼镜的团队要睡不着了。
5月29日
23:34
Berryxia.AI@berryxia
66
这是一个用Three.js搭建的盛唐长安3D互动世界,接入Agora技能实现核心实时语音交互功能。用户可与NPC对话、与李白对诗、玩诗词小游戏,并参观珍宝馆和AI展馆。开发者耗时两周、花费800刀完成,现已开源。

Berryxia.AI: 🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...

多模态开源/仓库语音
22:34
Berryxia.AI@berryxia
68
开源项目:Three.js打造3D盛唐长安互动世界

作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。

多模态开源/仓库语音
17:40
小互@xiaohu
65
苹果 iOS 27 曝光:Siri 将大改造

苹果iOS 27或将对Siri进行大改造,将其转变为类似ChatGPT的独立聊天App,并可能整合进灵动岛。核心变化是允许Siri接入ChatGPT、Gemini、Claude等多种外部AI模型。交互界面将变为“Search or Ask(搜索或提问)”,体验更偏向对话式。

产品更新端侧语音
17:21
IT之家(RSS)
精选74
小米开源可控视频音效生成模型 ControlFoley,让声音"按你想要的来"

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley,旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现,其代码、模型权重和在线 Demo 均已开放。

多模态开源生态模型发布语音

推荐理由:小米开源的 ControlFoley 把视频音效生成从“看画面配声音”推进到“按意图来”,开源 SOTA 且直接提供 Skill,做视频创作的可以上手试试。
16:46
公众号:京东JoyAI
43
JoyInside上新:小龙AI魔法益智打印机开启预售

京东JoyInside与ZORICAM联合推出小龙AI魔法益智打印机,集故事机、聊天机器人、打印机、学习机于一身。产品搭载京东自研JoyAI大模型,首创面向儿童的“情景式对话+打印”交互:唤醒“小龙”后通过语音指令即可生成画作并打印成专属贴纸,还能在对话中理解语境主动提出打印建议。硬件支持WiFi连接,续航超48小时。

产品更新图像生成语音
14:30
HuggingFace Daily Papers(社区热门论文)
69
ChildVox: 一个用于理解和表征儿童期声音的语音、音频与大型音频-语言模型基准

ChildVox 是一个用于评估AI模型对儿童多样化声学信号理解能力的新基准。它覆盖了从出生到学龄的完整发展轨迹,包含生理声音、非语言发声、规范音节和口语语言。该基准整合了17个儿童音频与语音数据集中的20多个子任务,实现了系统性跨语料库、跨领域比较。我们评估了自监督、面向ASR及大型音频-语言模型三类基础模型,任务涵盖生理声音分类、发声与规范音节建模、语音质量评估与识别。结果表明,ChildVox提供了一套高性能模型,能够识别广泛的儿童声学信号,支持下游应用,如表征儿童语言水平和追踪语音发展。

论文/研究评测/基准语音
10:29
HuggingFace Daily Papers(社区热门论文)
57
用于生成的原生音视频对齐

针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题,本文提出了NAVA(原生音视频对齐)框架。该框架在专用交互空间建立音视频对应关系后,利用外部上下文条件化联合去噪过程。具体实现上,NAVA采用Align-then-Fuse MMDiT架构,并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明,NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。

arXiv多模态视频论文/研究
09:09
小互@xiaohu
62
ElevenLabs 推出 Dubbing V2

ElevenLabs 推出 Dubbing V2,一个端到端的AI配音模型。它突破了传统“转写-翻译-合成”的拼接流程,直接基于原始表演建模声音,从而将说话者的音色、情绪和演绎完整迁移到目标语言中。该模型支持 90 多种语言和口音,支持音频、视频及文本输入。其核心能力包括跨语言音色克隆、情绪演绎保留、输出时长与原片口型同步,以及本地化自然表达。演示视频展示了其在多语种无缝切换、快节奏对白及故事叙述中的应用效果。

产品更新多模态语音
08:21
IT之家(RSS)
66
苹果 iOS 27 爆料:用 Gemini 训练本地 AI,部分 Siri 请求转向谷歌云
Google数据/训练端侧行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
50
OpenSTBench:超越语义评估的语音翻译统一评估框架

OpenSTBench 是一个统一的多维评估框架,将语音翻译系统(S2TT 和 S2ST,涵盖离线与流式两种模式)输出转化为共享评估格式,联合评测翻译质量、语音质量、说话人保留、情感与副语言保真度、时间一致性以及延迟。实验表明,翻译质量强的系统在语音质量和时间质量上仍存在显著差异。代码与数据集已开源至 GitHub。

arXivGitHub论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
SwanVoice:面向独白与对话的富有表现力的零样本文本转语音模型

SwanVoice 是一个支持 1-4 位说话人的零样本文本转语音(TTS)模型,旨在解决现有方法在合成富有表现力的长对话时推理成本高、声学一致性和情感连贯性差的问题。模型基于 SwanData-Speech 数据集构建,采用 25Hz VAE 与带停顿感知符号的原始文本条件处理,并结合具有说话人轮次条件的 flow-matching DiT。训练从独白数据开始,逐步过渡到真实对话数据,并使用 DiffusionNFT 进行后训练。在 SwanBench-Speech 评测中,SwanVoice 在独白和对话设置下的丰富性与层次性分数均优于所有开源基线,但内容准确性仍是主要限制。音频 demo 已上线。

arXiv论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
59
基于自回归扩散Transformer的流式同步空间音频生成

针对实时高质量空间音频生成中存在的质量与延迟权衡及多模态空间信息捕捉难题,本文提出了SwanSphere。这是一个统一的流式框架,用于从全景视频和文本提示生成高保真空间音频。其核心贡献在于:1) 提出了一种因果自回归扩散Transformer架构,实现了流式的高质量生成;2) 设计了空间视频-音频对比学习策略来对齐视频编码器与声学域,并结合多目标在线直接偏好优化,增强了空间感知与多模态合成的鲁棒性;3) 开发了一个自动标注流程,用于生成详细的空间描述,以缓解数据稀缺问题。实验证明,SwanSphere在视频到空间音频和文本到空间音频任务中均表现优异。

多模态论文/研究语音
06:49
🚨 AI News | TestingCatalog@testingcatalog
62
ElevenLabs推出了新的Dubbing v2 Alpha模型,该模型可以在所有语言之间翻译语音,同时保留原始内容的情感基调。 对创作者来说意义重大 👀

ElevenLabs: Introducing Dubbing v2, our revolutionary new dubbing model. For the first time, the emotion and performance of the orig...

产品更新语音
‹ 上一页
1…678910…19
下一页 ›