AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
4月17日周五
08:00HuggingFace Daily Papers(社区热门论文)面向视频到语音生成的分层编解码器扩散模型
08:00HuggingFace Daily Papers(社区热门论文)ArtifactNet:基于物理伪影提取的AI音乐检测方法
05:44Rohan Paul看起来 ChatGPT 网页版刚刚为听写功能添加了键盘快捷键。很有用。
01:44Rohan PaulTTS评估体系与真实体验严重脱节
4月16日周四
19:58公众号:龙猫LongCat(美团)38LongCat-AudioDiT:突破零样本TTS音色克隆上限
14:04公众号:阶跃星辰(Step)55阶跃 StepAudio 2.5 TTS 上线!人人都能是配音导演
08:00HuggingFace Daily Papers(社区热门论文)WavAlign:通过自适应混合后训练增强语音对话模型的智能与表现力
05:43Rohan Paul谷歌 OpenAI 密集发新,AI 技术升级与社会抵制并存
02:07The Decoder:AI News(RSS)Google 发布迄今最具表现力的 Gemini 3.1 文本转语音模型,支持70余种语言
01:46TestingCatalog News 🗞Google 发布 macOS 版 Gemini 应用 👀 目前其功能与网页版类似,但看起来很快也会支持 Gemini Live。 【引用 @mweinbach】:Gemini Mac 应用现已上线
01:46TestingCatalog News 🗞Google 发布了 Gemini 3.1 Flash TTS,支持 70 种不同语言! > 现可通过 AI Studio 中的全新音频 playground 和 Gemini API 使用! 【引用 @Google】:使用 Gemini 3.1 Flash TTS 在 70 多种语言中生成细腻、引人入胜的音频体验--这是我们迄今为止最可控且最具表现力的文本转语音模型。🔊
4月15日周三
16:51HuggingFace Daily Papers(社区热门论文)SpotSound:通过细粒度时间定位增强大型音频语言模型
06:05Rohan Paul宾汉姆顿大学展示了一只机器导盲犬(Unitree Go2 底座),它能与用户自然对话。在测试中,它询问用户想去哪里,建议了一条路线,然后实时描述周围环境
04:05Rohan Paul你个人的、随时可用的 AI 治疗师时代已经开启。 Lovon 刚刚推出了一款以语音优先、24/7 支持为核心的 AI 治疗师。 加密对话,数据不会用于 AI 训练。 廉价、私密、即时的支持比昂贵的稀缺资源是更好的默认选择。 "没有 200 美元的疗程。没有等待名单。只需打开应用即可交谈。" 【引用 @ponikarovskii】:几年前,在我最需要治疗的时候,我负担不起。 今天我推出了 Lovon -- 一款私密、24/7 且真正能帮助你感觉更好的 AI 治疗师。 没有 200 美元的疗程。没有等待名单。只需打开应用即可交谈。 (打开声音 🔊)
01:36DogeDesignerNEWS: SpaceX 正在使用由 Grok 提供支持的语音 AI 助手来处理 Starlink 客户支持电话。该声音听起来完全像人类,可以实时与用户对话。 "Grok 在 SpaceX 和 Tesla 已经表现得相当出色。我们看到 Grok 在客户服务等事务中非常有帮助,而且 AI 拥有无限的耐心,所以你可以对它大喊大叫,它仍然会非常有礼貌。"
4月13日周一
12:34Rohan PaulOpenBMB发布开源多语言TTS模型VoxCPM 2
04:33Rohan Paul初创公司推出付费AI耶稣视频通话服务
4月12日周日
04:51TestingCatalog News 🗞Google 正为 Mixboard 实验项目开发语音模式及全新协作工具
4月9日周四
12:30公众号:豆包(字节)19今天,豆包打电话能力升级了
4月4日周六
12:57公众号:昆仑万维(天工)33天工AI Mureka惊艳央视《焦点访谈》!1 分钟谱就宋词新声,彰显中国 AI 原创力量
4月3日周五
23:48OpenAI Developers当语音助手实时调试你的幻灯片:gpt-realtime-1.5 现场演示
08:29Artificial Analysis56微软发布MAI-Transcribe-1语音转录模型,准确率达3.0%
00:59Google Gemini想看看你在 Gemini 中用 Lyria 3 Pro 创作了哪些音乐作品 🎶
00:56OpenAI精选ChatGPT 语音模式现已支持 CarPlay
4月2日周四
22:29Satya Nadella精选MAI 模型家族全面登陆 Foundry,面向所有开发者开放
09:52François Chollet我最近见过的最好的 AI 产品之一:(鼓声) Adobe Podcast
4月1日周三
11:15karminski-牙医AI时代下, 连拥抱不确定性都要快点拥抱
3月30日周一
11:25美团 LongCat:HuggingFace 新模型精选LongCat-AudioDiT-1B:高保真波形潜空间扩散式文本转语音模型
3月28日周六
06:29OpenAI Developers精选构建做实事的语音代理
3月27日周五
02:53Demis Hassabis精选Gemini 3.1 Flash Live 是迄今最高质量的音频与语音模型,也是构建下一代语音优先智能体的重要飞跃:更低延迟、更高精度、更自然的交互……现可在 Gemini App 通过 Gemini Live 体验,或在 Google AI Studio 中开发
01:30Google Gemini活动即将开始!加入 Gemini Discord:http://discord.gg/gemini
00:00Google Blog:AI(RSS)Google Translate 耳机实时翻译功能登陆 iOS
3月26日周四
23:31Google DeepMind精选Gemini 3.1 Flash Live 发布
23:31Google Gemini精选Gemini Live 迎来迄今最大升级,由 Gemini 3.1 Flash Live 驱动
23:28Sundar Pichai精选Gemini 3.1 Flash Live 是迄今最高质量的音频和语音模型
23:23Google DeepMind:Blog(RSS)Gemini 3.1 Flash Live:让语音 AI 更自然可靠
23:21Google Blog:AI(RSS)精选Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠
09:03Google GeminiLyria 3 Pro 增强定制功能,为更长音轨提供更多实验与创作空间
04:22Demis Hassabis精选适合深夜2点专注工作的完美背景音乐--由 Lyria 3 Pro 全新打造。Google AI 订阅者…
03:31Google Gemini准备好用 Lyria 3 Pro 调高音量了吗?🎶
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月17日
08:00
HuggingFace Daily Papers(社区热门论文)
面向视频到语音生成的分层编解码器扩散模型

研究团队提出分层编解码器扩散Transformer模型 HiCoDiT,利用 RVQ 编解码器的分层结构解决现有视频到语音生成方法忽视语音层级特性的问题。该方法通过低级块基于唇形同步运动与面部身份建模说话人感知语义,高级块利用面部表情调节细粒度韵律动态,并引入双尺度自适应实例层归一化实现从粗到细的条件控制。实验表明,该模型在语音保真度和表现力上显著优于基线方法,代码与演示已开源。

多模态论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
ArtifactNet:基于物理伪影提取的AI音乐检测方法

研究团队提出轻量级框架ArtifactNet,通过提取神经音频编解码器遗留的物理伪影识别AI音乐。该框架采用3.6M参数UNet提取残差并分解为7通道特征,经0.4M参数CNN分类,总参数量仅4.0M。配套发布含6,183首曲目的ArtifactBench基准(涵盖22个AI生成器)。在2,263首测试集上,该方法取得F1=0.9829、FPR=1.49%,远超CLAM等方法,参数量仅为其1/49。多格式增强训练使跨编解码器概率漂移降低83%。

arXiv安全/对齐论文/研究语音
05:44
Rohan Paul@rohanpaul_ai
看起来 ChatGPT 网页版刚刚为听写功能添加了键盘快捷键。很有用。
OpenAI产品更新语音
01:44
Rohan Paul@rohanpaul_ai
TTS评估体系与真实体验严重脱节

TTS评估体系存在根本性缺陷。当前主流评测标准与真实对话场景中的用户偏好严重脱节,技术迭代速度已超越基准测试的发展。针对实时对话代理的系统应在真实交互中评估,而非依赖孤立音频片段。核心问题在于,现有方法将"自然度"简化为可平均、排名的单一指标,忽视了人类语音感知的关键细节——微妙的时间变化、克制的情感表达、不均匀的呼吸节奏以及契合语境的措辞方式。

Sudarshan Kamath: http://x.com/i/article/2043661447478329344

智能体大佬观点语音
4月16日
19:58
公众号:龙猫LongCat(美团)
38
LongCat-AudioDiT:突破零样本TTS音色克隆上限

美团技术团队推出的LongCat-AudioDiT模型,实现了零样本TTS音色克隆,让AI直接学习声音本身的规律,跳过中间处理环节,从而突破音色克隆的上限。

开源/仓库论文/研究语音
14:04
公众号:阶跃星辰(Step)
55
阶跃 StepAudio 2.5 TTS 上线!人人都能是配音导演
产品更新语音
08:00
HuggingFace Daily Papers(社区热门论文)
WavAlign:通过自适应混合后训练增强语音对话模型的智能与表现力

研究团队提出WavAlign方法,针对端到端语音对话模型智能与表现力不足的问题,设计了模态感知自适应后训练方案。该方法将偏好更新约束至语义通道,通过显式锚定改善声学行为,并基于rollout统计动态调节混合比例以避免不可靠梯度。在多个语音对话基准测试及代表性架构上的评估显示,模型在语义质量和语音表现力方面均获得一致提升。

arXiv多模态论文/研究语音
05:43
Rohan Paul@rohanpaul_ai
谷歌 OpenAI 密集发新,AI 技术升级与社会抵制并存

Google 发布 Gemini 3.1 Flash TTS 语音模型及 Chrome Skills 工具,支持场景化语音合成与提示词复用。OpenAI 推出 GPT-5.4-Cyber 并升级 Agents SDK 为长期运行代理环境,支持沙盒执行与状态管理。与此同时,AI 技术遭遇强烈社会抵制,出现针对数据中心的激进行动。

智能体GoogleOpenAI模型发布
02:07
The Decoder:AI News(RSS)
Google 发布迄今最具表现力的 Gemini 3.1 文本转语音模型,支持70余种语言

Google 推出 Gemini 3.1 Flash TTS 文本转语音模型,支持超过70种语言的自然语音合成。该模型引入音频标签功能,允许用户精确控制输出语音的风格、语速和语调,显著提升了语音合成的表现力和可控性,适用于多语言内容创作场景。

Google模型发布语音
01:46
TestingCatalog News 🗞@testingcatalog
Google 发布 macOS 版 Gemini 应用 👀 目前其功能与网页版类似,但看起来很快也会支持 Gemini Live。 【引用 @mweinbach】:Gemini Mac 应用现已上线

Max Weinbach: Gemini Mac app is now live

Google产品更新语音
01:46
TestingCatalog News 🗞@testingcatalog
Google 发布了 Gemini 3.1 Flash TTS,支持 70 种不同语言! > 现可通过 AI Studio 中的全新音频 playground 和 Gemini API 使用! 【引用 @Google】:使用 Gemini 3.1 Flash TTS 在 70 多种语言中生成细腻、引人入胜的音频体验--这是我们迄今为止最可控且最具表现力的文本转语音模型。🔊

Google: Generate nuanced, engaging audio experiences across 70+ languages with Gemini 3.1 Flash TTS - our most controllable & ex...

Google模型发布语音
4月15日
16:51
HuggingFace Daily Papers(社区热门论文)
SpotSound:通过细粒度时间定位增强大型音频语言模型

研究团队发布SpotSound音频语言模型,针对长音频中的事件精确定位难题,提出可抑制幻觉时间戳的新型训练目标。同步推出SpotSound-Bench基准测试,目标事件占音频片段比例低于10%,模拟"大海捞针"的严苛真实场景。实验表明,该模型在时间定位基准上取得SOTA结果,同时在通用音频语言任务中保持稳健性能。相关代码、模型及数据集均已开源。

arXiv多模态论文/研究语音
06:05
Rohan Paul@rohanpaul_ai
宾汉姆顿大学展示了一只机器导盲犬(Unitree Go2 底座),它能与用户自然对话。在测试中,它询问用户想去哪里,建议了一条路线,然后实时描述周围环境
具身智能论文/研究语音
04:05
Rohan Paul@rohanpaul_ai
你个人的、随时可用的 AI 治疗师时代已经开启。 Lovon 刚刚推出了一款以语音优先、24/7 支持为核心的 AI 治疗师。 加密对话,数据不会用于 AI 训练。 廉价、私密、即时的支持比昂贵的稀缺资源是更好的默认选择。 "没有 200 美元的疗程。没有等待名单。只需打开应用即可交谈。" 【引用 @ponikarovskii】:几年前,在我最需要治疗的时候,我负担不起。 今天我推出了 Lovon -- 一款私密、24/7 且真正能帮助你感觉更好的 AI 治疗师。 没有 200 美元的疗程。没有等待名单。只需打开应用即可交谈。 (打开声音 🔊)

Anton Ponikarovskii: a few years ago I couldn't afford therapy when I needed it most. today I'm launching Lovon - an AI therapist that's priv...

产品更新语音
01:36
DogeDesigner@cb_doge
NEWS: SpaceX 正在使用由 Grok 提供支持的语音 AI 助手来处理 Starlink 客户支持电话。该声音听起来完全像人类,可以实时与用户对话。 "Grok 在 SpaceX 和 Tesla 已经表现得相当出色。我们看到 Grok 在客户服务等事务中非常有帮助,而且 AI 拥有无限的耐心,所以你可以对它大喊大叫,它仍然会非常有礼貌。"
xAI多模态行业动态语音
4月13日
12:34
Rohan Paul@rohanpaul_ai
OpenBMB发布开源多语言TTS模型VoxCPM 2

OpenBMB发布开源TTS模型VoxCPM 2,仅2B参数支持30种语言,无需语言标签即可生成语音。Apache-2.0许可,8GB显存可运行。支持文本描述创建新声音、可控克隆与终极克隆,保留说话人细节。输出48kHz音质,RTX 4090实时推理达0.3 RTF。兼容PyTorch、LoRA微调及Nano-VLLM部署,适用于影视、游戏、有声书等专业场景。

开源/仓库端侧语音
04:33
Rohan Paul@rohanpaul_ai
初创公司推出付费AI耶稣视频通话服务

一家初创公司推出AI耶稣视频通话服务,每分钟收费$1.99,模型基于King James Bible及牧师布道训练,形象参照Jonathon Roumie在The Chosen中的荧幕造型。该服务将语言模型转化为具有特定面容、语气与风格的数字演员,核心卖点并非宗教信息获取,而是实时精神陪伴带来的被关注与指引感,代表信仰科技与情感付费结合的新商业模式。

产品更新多模态语音
4月12日
04:51
TestingCatalog News 🗞@testingcatalog
Google Mixboard 实验项目新增语音模式,支持语音命令生成、编辑和移动图片,以及语音笔记功能。类似 Stitch 的交互方式,适用于团队协作场景,如回顾会议中直接语音输入反馈。
Google产品更新图像生成语音
4月9日
12:30
公众号:豆包(字节)
19
今天,豆包打电话能力升级了
产品更新语音
4月4日
12:57
公众号:昆仑万维(天工)
33
天工AI Mureka惊艳央视《焦点访谈》!1 分钟谱就宋词新声,彰显中国 AI 原创力量

天工AI Mureka亮相央视《焦点访谈》,1分钟内即可为宋词谱曲,展现中国AI在音乐创作领域的原创能力。

产品更新语音
4月3日
23:48
OpenAI Developers@OpenAIDevs
@charlierguo 使用 gpt-realtime-1.5 进行实时演示,语音助手现场调试幻灯片内容,展示该模型在实时语音交互与视觉理解方面的应用能力。
智能体OpenAI现象/趋势语音
08:29
Artificial Analysis@ArtificialAnlys
56
微软发布MAI-Transcribe-1语音转录模型,准确率达3.0%

微软AI超级智能团队发布了MAI-Transcribe-1语音转录模型。该模型在Artificial Analysis语音转文本排行榜的AA-WER指标上达到3.0%的词错误率,位列第四,仅次于Mistral Voxtral Small、Google Gemini 3.1 Pro High和ElevenLabs Scribe v2。其处理速度约为实时音频的69倍,属于高速高精度模型。模型支持包括英语、法语、阿拉伯语、日语和中文在内的25种语言,其API目前已在Microsoft Foundry的Azure Speech服务上提供公开预览。

Microsoft模型发布语音
00:59
Google Gemini@GeminiApp
Google 官方发起创作征集,邀请用户在评论区分享使用 Gemini 内置 Lyria 3 Pro 功能生成的音乐作品,展示 AI 创作成果。
Google其他语音
00:56
OpenAI@OpenAI
精选
ChatGPT 语音模式正式接入 CarPlay,运行 iOS 26.4 及以上版本的 iPhone 用户可在车载系统中使用语音交互功能,目前正在逐步推送中。

Gui Ferreira: ChatGPT voice mode should be available on Apple CarPlay

OpenAI产品更新语音

推荐理由:ChatGPT语音模式正式支持CarPlay,开车场景下AI助手随叫随到
4月2日
22:29
Satya Nadella@satyanadella
精选
MAI 模型家族正式登陆 Foundry 平台,推出三款新模型:MAI-Transcribe-1(支持25种语言的最准确转录模型)、MAI-Voice-1(自然语音生成)和 MAI-Image-2(最强图像生成模型)。开发者现可通过该平台直接调用。
Microsoft多模态模型发布语音

推荐理由:Microsoft CEO 亲自发布 MAI 系列三大新模型,覆盖语音转录、合成与图像生成
09:52
François Chollet@fchollet
我最近见过的最好的 AI 产品之一:(鼓声) Adobe Podcast
大佬观点语音
4月1日
11:15
karminski-牙医@karminski3
AI时代下, 连拥抱不确定性都要快点拥抱

作者耗时两天尝试为openclaw接入Omni模型以解决语音交互延迟过高(超30秒)的问题。插件方案因channel连接冲突导致系统离线;直接改源码则遭遇底层库pi-ai不支持OpenAI语音流且PR被拒。所有技术路径均被堵死后,作者反思:在AI生产力爆发时代,必须快速拥抱不确定性,否则可能因项目架构限制或维护者审核标准而错失机会。

智能体教程/实践语音
3月30日
11:25
美团 LongCat:HuggingFace 新模型
精选
LongCat-AudioDiT-1B:高保真波形潜空间扩散式文本转语音模型

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示,直接在波形潜空间操作,仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题,并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆,说话人相似度(SIM)在 Seed-ZH 达 0.818、Seed-Hard 达 0.797,超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

开源生态模型发布语音
关联讨论 1 条美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 1B 语音克隆模型,Seed 基准超 Seed-TTS,零样本推理可用
3月28日
06:29
OpenAI Developers@OpenAIDevs
精选
用 gpt-realtime-1.5 为新加坡诊所打造接待员演示,支持与患者自然对话,自动收集就诊信息并完成实时预约,展示语音代理在实际场景中的工作能力。
智能体OpenAI产品更新语音

推荐理由:OpenAI 官方展示 gpt-realtime-1.5 在医疗语音预约场景的实际应用
3月27日
02:53
Demis Hassabis@demishassabis
精选
Google 发布 Gemini 3.1 Flash Live,称其迄今最高质量音频模型,具备更低延迟、更高精度和更自然的对话体验,改进了函数调用能力。现已在 Gemini App 和 Google AI Studio 上线。

Google DeepMind: Say hello to Gemini 3.1 Flash Live. 🗣️ Our latest audio model delivers more natural conversations with improved functio...

智能体Google模型发布语音

推荐理由:Google发布Gemini 3.1 Flash Live,支持低延迟语音交互与Agent构建
01:30
Google Gemini@GeminiApp
Gemini 将于明日(3月26日)上午11:30 PDT 在 Discord 举办活动,产品经理 Joel 将现场演示 Lyria 3 Pro 最新更新,现可通过 http://discord.gg/gemini 加入服务器参与。

Google Gemini: Ready to turn up the volume with Lyria 3 Pro? 🎶 Join us in the Gemini Discord tomorrow (3/26) at 11:30am PDT as Product...

Google产品更新语音
00:00
Google Blog:AI(RSS)
Google Translate 耳机实时翻译功能登陆 iOS

Google Translate 耳机实时翻译功能正式支持 iOS,可将耳机变为个人实时翻译器。该功能同时面向 iOS 和 Android 用户扩展至更多国家。

Google产品更新语音
3月26日
23:31
Google DeepMind@GoogleDeepMind
精选
Gemini 3.1 Flash Live 音频模型发布,支持更自然的实时对话,函数调用能力改进,使 AI 助手更实用、信息获取更充分。
GoogleMCP/工具模型发布语音

推荐理由:Google发布Gemini 3.1 Flash Live音频模型,支持更自然对话与函数调用
23:31
Google Gemini@GeminiApp
精选
Gemini Live 底层升级为 Gemini 3.1 Flash Live,响应更快且减少停顿,支持双倍时长对话保持连贯,可根据场景动态调整回答长度和语气。
Google产品更新语音

推荐理由:Google Gemini Live 语音对话重大升级,支持更长上下文与动态语气调整
23:28
Sundar Pichai@sundarpichai
精选
Gemini 3.1 Flash Live 发布,为 Google 迄今最高质量音频语音模型,精度和推理能力显著提升,交互更自然直观。现已在 Google AI Studio 通过 Gemini Live API 预览版上线。
Google模型发布语音

推荐理由:Google 发布 Gemini 3.1 Flash Live 语音模型,实时 API 已开放试用
23:23
Google DeepMind:Blog(RSS)
Gemini 3.1 Flash Live:让语音 AI 更自然可靠

Gemini 推出 3.1 Flash Live 语音模型,通过提升精度、降低延迟,使语音交互更流畅自然且精准可靠。

DeepMindGoogle产品更新语音
23:21
Google Blog:AI(RSS)
精选
Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠

Gemini 3.1 Flash Live 已上线 Google 全系产品,提供更自然、可靠的实时音频 AI 交互能力。

Google模型发布语音
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google发布Gemini 3.1 Flash Live,提升音频AI自然度与可靠性
09:03
Google Gemini@GeminiApp
Lyria 3 Pro 升级定制功能,提供更长音轨创作空间与更多实验自由度,用户现可在 Gemini 中添加丰富细节以实现完整音乐愿景。
Google产品更新语音
04:22
Demis Hassabis@demishassabis
精选
Google DeepMind 推出 Lyria 3 Pro,可生成最长3分钟的高保真音乐,支持自由编排前奏、主歌、副歌与桥段。Google AI 订阅者现可在 Gemini App 体验,开发者也能通过 Google AI Studio API 接入创作。

Google DeepMind: You can now create longer tracks with Lyria 3 Pro. 🎶 Map out intros, verses, choruses, and bridges to build high-fideli...

DeepMindGoogle产品更新语音

推荐理由:Google Lyria 3 Pro 支持生成 3 分钟结构化音乐,已上线 Gemini App
03:31
Google Gemini@GeminiApp
Lyria 3 Pro 更新演示将于 3 月 26 日上午 11:30 PDT 在 Gemini Discord 举行,产品经理 Joel 返场展示最新功能。
Google产品更新语音
‹ 上一页
1…1516171819
下一页 ›