AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
6月7日周日
00:24AYi58杭州初创公司PettiChat发布AI宠物翻译项圈
6月6日周六
20:29The Verge:AI(RSS)70苹果WWDC再次预告新Siri:Apple Intelligence承诺仍未完全兑现
18:59The Decoder:AI News(RSS)68Audio Interaction:开源语音模型持续监听,每0.4秒决定是否说话或保持沉默
15:58MarkTechPost(RSS)69NVIDIA 发布 Nemotron 3.5 ASR:600M 参数缓存感知流式模型,实时转录 40 种语言-地区
15:17IT之家(RSS)32fpt. 渲染苹果 iOS 27:升级 Siri、调整通知手势、增强 AI 修图
09:16IT之家(RSS)31iOS 27 版 Siri 上线初期采用候补名单机制
09:01Artificial Analysis52Gemma 4 12B 语音转录表现不佳,落后于专有转录模型
00:41Google Gemini81精选Gemini Live 支持实时创建编辑图像
6月5日周五
23:26Suno:Blog(网页)64精选Suno Voices 使用指南:6 个技巧打造高质量人声录制
23:15IT之家(RSS)73同事件精选苹果新版 Siri 不会被宣传为完成品,内部将其标记为"Beta"版同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
12:47HuggingFace Daily Papers(社区热门论文)61迈向真正多语言 ASR:代码切换语音识别向未见语言对的泛化研究
08:00HuggingFace Daily Papers(社区热门论文)56Whisper幻觉检测与缓解:基于隐表示引导和稀疏自编码器
08:00HuggingFace Daily Papers(社区热门论文)63熵作为结构先验:DiT信念空间上的对数障碍驱动音乐多样性与发展
03:25Chubby♨️48Tavus Solutions推出企业级AI人类,赋能真实工作流
00:53LMSYS:Blog(Chatbot Arena 团队)77精选Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务
00:48TechCrunch:AI(RSS)39WWDC 2026 前瞻:Siri 重大改版与 Apple Intelligence 更新
6月4日周四
21:42Hugging Face:Blog(RSS)75精选Nemotron 3.5 ASR:为你的语言、领域或口音进行微调
19:29MiniMax (official)57MiniMax语音AI黑客松:M3+Speech 2.8 Turbo亚250ms
18:59MiniMax (official)46MiniMax Speech 2.8 Turbo:<250ms 延迟,40+语言
16:21MarkTechPost(RSS)61Miso Labs 发布 MisoTTS:8B 参数情感文本转语音模型,开放权重
10:58xAI:News(网页)72精选Grok 成为 Vapi 的默认语音引擎
10:42HuggingFace Daily Papers(社区热门论文)60Audio-Interaction:统一流式音频交互模型
10:37Elon Musk61Grok Voice Think Fast 1.0 登顶 AI 语音客服基准
09:06Elon Musk72同事件精选Grok Imagine视频生成上线Vercel同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
08:51Berryxia.AI67MOSS-Audio:开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一
08:10IT之家(RSS)72同事件精选深陷版权诉讼仍受资本热捧,AI 音乐生成公司 Suno 再融资 4 亿美元同一事件,精选展示《Suno完成4亿美元D轮融资》
02:48MarkTechPost(RSS)68Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,支持原生音频,可在16GB笔记本上运行
01:48elvis76Miso One 8B开源情感TTS模型发布
01:08xAI70xAI Grok语音模型上线Vapi平台
00:50Chubby♨️75精选Miso One 开源语音模型:8B 参数、110ms 延迟、一次语音克隆
6月3日周三
23:15TechCrunch:AI(RSS)44两位前高盛和Meta创始人打造语音AI,瞄准非洲和中东被忽视的市场
23:09Suno68精选Suno完成4亿美元D轮融资
09:48Berryxia.AI74微软在Build大会发布七款MAI新模型
08:00HuggingFace Daily Papers(社区热门论文)57SpeechEditBench:双语多属性指令引导语音编辑基准
03:59OpenRouter68精选OpenRouter上线微软三款新模型
03:09IT之家(RSS)56谷歌宣布 Android 行业首创虚假来电检测功能,防范 AI 克隆语音冒充熟人诈骗
02:47Artificial Analysis64Microsoft发布MAI-Transcribe-1.5语音转录模型
02:15The Verge:AI(RSS)62Google Phone 应用推出诈骗检测功能:识别冒充联系人电话
01:08IT之家(RSS)62继 Phi-4-mini 后:微软宣布为 Edge 浏览器引入更高效的 Aion-1.0-Instruct 模型与翻译 API,支持 145 种以上语言
6月2日周二
23:13OpenAI:官网动态(RSS · 排除企业/客户案例)38Travelers借助OpenAI在全国部署AI理赔助手
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月7日
00:24
AYi@AYi_AInotes
58
杭州初创公司PettiChat发布AI宠物翻译项圈

中国杭州初创公司推出AI宠物翻译产品PettiChat,售价$119,采用阿里Qwen大模型,翻译准确率达94.6%。产品为AI宠物项圈形态,能实时翻译猫狗叫声,基于500+真实宠物声音样本训练,实现1秒内将动物叫声转化为人类语言。

产品更新语音
6月6日
20:29
The Verge:AI(RSS)
70
苹果WWDC再次预告新Siri:Apple Intelligence承诺仍未完全兑现

苹果在2024年WWDC首次展示新Siri,搭载发光边框、多种语音选项及向ChatGPT提问的能力,但关键的Apple Intelligence功能迟迟未上线,误导性宣传导致公司面临集体诉讼和解。本周WWDC上,苹果准备再次介绍新Siri,试图在AI领域扭转被动局面。

现象/趋势语音
18:59
The Decoder:AI News(RSS)
68
Audio Interaction:开源语音模型持续监听,每0.4秒决定是否说话或保持沉默

Audio Interaction是一个开源语音模型,持续监听环境,每0.4秒判断是否应该说话或保持沉默。与GPT-4o或Qwen3.5-Omni不同,它无需等待录音结束,可在单个流中同时进行翻译、转录、对话并识别咳嗽等日常噪音。代码和模型权重已在GitHub上以Apache 2.0开源许可发布,训练数据稍后公布。

开源/仓库模型发布语音
15:58
MarkTechPost(RSS)
69
NVIDIA 发布 Nemotron 3.5 ASR:600M 参数缓存感知流式模型,实时转录 40 种语言-地区

NVIDIA 发布 Nemotron 3.5 ASR,一个 600M 参数的缓存感知流式模型,支持从单个检查点实时转录 40 种语言-地区。

模型发布语音
15:17
IT之家(RSS)
32
fpt. 渲染苹果 iOS 27:升级 Siri、调整通知手势、增强 AI 修图

6月5日,YouTube 频道 fpt. 发布概念渲染视频,展示 iOS 27 可能的新设计。通知手势将调整:从屏幕左上方下滑进入通知中心,中部下滑呼出搜索或 Siri 提问界面。Siri 升级为对话伙伴,拥有独立对话区域,支持语音和文字输入,能结合屏幕内容和当前应用理解意图。照片 Clean Up 功能增强,支持用短语或语音编辑图片(如裁剪、增强颜色)。兼容性方面,iOS 27 预计支持 iPhone 12 及后续机型,但复杂 AI 功能可能需较新硬件。

产品更新语音
09:16
IT之家(RSS)
31
iOS 27 版 Siri 上线初期采用候补名单机制

据 IT 之家引述 9to5Mac 报道,iOS 27 版 Siri 上线初期将引入候补名单机制,苹果按批次开放体验资格,内部将其定义为“测试版”与“预览版”。官方可能在 2026 年 WWDC 宣布新功能,但并非所有用户能第一时间参与。苹果将边上线边打磨,收集用户反馈改进 Siri 表现。此前 Apple Intelligence 在 iOS 18.1 早期版本也曾采用类似机制。新版 Siri 采用全新架构并首次接入谷歌 Gemini 模型,系统稳定性、响应质量、兼容性与隐私体验需更谨慎观察。

产品更新端侧语音
09:01
Artificial Analysis@ArtificialAnlys
52
Gemma 4 12B 语音转录表现不佳,落后于专有转录模型

Google DeepMind 发布开源权重模型 Gemma 4 12B,支持语音转录,在 AA-WER 基准上得分为 8.8%(排名第 58),远低于专注转录的开源模型 Voxtral Mini Transcribe 2(4B 参数,WER 3.6%)和 Voxtral Small(12B 参数,WER 2.8%)。该模型是 Gemma 4 系列中支持转录的最大型号(另有 E4B、E2B),而 31B 和 26B A4B 仅支持文本、图片和视频输入。Google 同步推出本地听写应用 Eloquent(MacOS/iOS)。模型已在 Hugging Face、Ollama 和 LMStudio 上架。

Google开源/仓库评测/基准语音
00:41
Google Gemini@GeminiApp
精选81
你现可直接在 Gemini Live 中创建和编辑图像。 无论是测试房间装饰、解决数学问题,还是制作可分享的梗图,所有操作都实时完成。 只需打开 Gemini 应用,点击 Live 按钮,共享摄像头,告诉 Gemini 你想看到的。
Google产品更新图像生成多模态

推荐理由:Gemini Live 终于能用嘴改图了,实时对话+图像生成让装修试色、数学解题变成「聊着天就把活干了」,产品人和普通用户都该试试这个新交互。
6月5日
23:26
Suno:Blog(网页)
精选64
Suno Voices 使用指南:6 个技巧打造高质量人声录制

Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧:在安静环境录音以减少背景噪音;先练习歌词再正式录制;不必追求完美,保留真实情感;录音时长尽量超过 1 分钟以提供更多学习素材;将人声匹配到合适的音乐流派(如民谣、流行、死亡金属、波萨诺瓦等);敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。

教程/实践语音

推荐理由:Suno 官方出的 Voices 录制避坑指南,不是大新闻,但照着做能让你克隆的声音干净不少,尤其是安静环境和别怕走音那两条,做音乐的朋友可以直接收藏。
23:15
IT之家(RSS)
同事件精选73
苹果新版 Siri 不会被宣传为完成品,内部将其标记为"Beta"版

苹果新版Siri被内部标记为“Beta”版,不会作为完成品宣传;可能设置等待清单供用户尝试。iOS 27细节:通知到达重新设计,通知中心手势移至左上角;“查找”应用视觉重设计;照片“清理”功能改进;大量底层安全改进。部分Siri查询将通过Google Cloud调用授权版Gemini,并使用谷歌的NVIDIA Blackwell B200集群处理。

Google行业动态语音部署/工程
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:古尔曼这料把苹果的策略摊开了,Siri不再死守自研,用谷歌Gemini加英伟达芯片,对追求隐私的苹果是转折点,但标Beta也说明离成熟还远。
12:47
HuggingFace Daily Papers(社区热门论文)
61
迈向真正多语言 ASR:代码切换语音识别向未见语言对的泛化研究

代码切换ASR(CS-ASR)因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调,但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法,探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明,合并的双语CS-ASR模型仅能适度泛化到未见语言对,提示双语CS能力在跨语言对间的迁移有限。

多模态论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
56
Whisper幻觉检测与缓解:基于隐表示引导和稀疏自编码器

针对Whisper ASR模型在非语音音频上生成连贯转录(幻觉)的问题,研究提取音频编码器激活,评估原始Whisper激活和Sparse AutoEncoder(SAE)隐变量两个表示空间。两者均编码线性可分的幻觉相关信息,判别力集中在稀疏特征子集并向深层编码器递增。提出的SAE隐变量空间引导策略,在完整非语音测试集上将Whisper small幻觉率从72.63%降至14.11%,Whisper large-v3从86.88%降至27.33%,语音数据上WER退化很小,性能接近基于微调的方法。

论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
63
熵作为结构先验:DiT信念空间上的对数障碍驱动音乐多样性与发展

在监督式扩散训练中,Eisbach log-barrier利用DiT输出空间能量分布的熵导出无参数权重:高熵抑制梯度,低熵保留梯度。应用于Stable Audio 3 Medium在MusicCaps上的LoRA微调,意外产生更强的主题发展、更清晰的声学区分和更高的纹理多样性,而非模式坍缩。原因在于监督扩散中梯度方向锁定于真实值,置信度仅缩放步长,且时间熵压低平坦样本而保留高对比样本。该方法形成在线自参照数据课程,伴随噪声层级动力学分析与可检验预测。

数据/训练论文/研究语音
03:25
Chubby♨️@kimmonismus
48
Tavus Solutions正式发布,提供面向企业工作流的完整、生产就绪的AI人类解决方案,而非传统聊天机器人。该方案由Tavus团队负责构建和运维,抽象了角色设定、对话设计、集成、调优与部署等复杂环节,企业只需提供工作流程即可部署人类质量的AI交互界面,标志着从"构建AI基础设施"向"部署人类级AI界面"的转变。

Tavus: Introducing Tavus Solutions. Complete, production-ready AI humans for the enterprise workflows where human-quality conve...

产品更新视频语音
00:53
LMSYS:Blog(Chatbot Arena 团队)
精选77
Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由:Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型,SGLang-Omni 为它搭好了多阶段推理的底座,做语音 Agent 的可以直接抄作业,这比多数论文落地快半拍。
00:48
TechCrunch:AI(RSS)
39
WWDC 2026 前瞻:Siri 重大改版与 Apple Intelligence 更新

Apple WWDC 2026 即将举行,备受期待的 Siri 改版与 Apple Intelligence 更新将成为焦点。

图像生成行业动态语音
6月4日
21:42
Hugging Face:Blog(RSS)
精选75
Nemotron 3.5 ASR:为你的语言、领域或口音进行微调

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,单个检查点覆盖 40 种语言-地区(含英、西、德、法、意、日、韩、中、阿拉伯等)。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器,缓存内部状态避免重复计算,实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本,无需后处理。支持指定语言(target_lang=es-ES)或自动语言检测(target_lang=auto)。通过注意力上下文大小(att_context_size)可在推理时直接调节延迟-准确率权衡,范围从 80ms 到 1.12s,无需重新训练。模型以 NeMo 检查点形式发布,可用于微调以适配特定语言、领域或口音。

教程/实践语音

推荐理由:一个模型搞定40种语言的实时语音转文字,NVIDIA还给了完整微调代码和实测数据,做语音Agent和字幕的可以照着抄作业。
19:29
MiniMax (official)@MiniMax_AI
57
MiniMax宣布联合YC于6月6-7日在旧金山举办24小时Conversational AI Hackathon。其方案结合@usemoss检索获取上下文、M3模型进行推理,以及MiniMax Speech 2.8 Turbo实现语音响应--延迟低于250毫秒,支持40+语言。第一名将获得YC合伙人面试机会。

Pete Koomen: Come build agents that can finally hold a fluid conversation at the 24-Hour Conversational AI Hackathon, hosted by @usem...

智能体行业动态语音
18:59
MiniMax (official)@MiniMax_AI
46
MiniMax 在 YC 办公室的 24 小时对话 AI 黑客马拉松(6 月 6-7 日)上推广其语音智能体方案。方案结合 @usemoss 的时序检索、M3 模型推理,以及 MiniMax Speech 2.8 Turbo--该语音模型实现低于 250ms 的响应延迟,支持 40 多种语言。黑客马拉松第一名将获得 YC 合伙人面试机会。

Pete Koomen: Come build agents that can finally hold a fluid conversation at the 24-Hour Conversational AI Hackathon, hosted by @usem...

智能体行业动态语音
16:21
MarkTechPost(RSS)
61
Miso Labs 发布 MisoTTS:8B 参数情感文本转语音模型,开放权重

Miso Labs 推出 MisoTTS,一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化(RVQ)在不增加参数量的情况下扩展声音范围,并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。

开源生态模型发布语音
10:58
xAI:News(网页)
精选72
Grok 成为 Vapi 的默认语音引擎

xAI 宣布与 Vapi 合作,Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎,覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中,Grok Voice 位列第一;X 平台上的人机语音盲猜中,超 4500 名用户有一半无法区分 Grok 与真人。现在,Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard,团队还可通过 Grok Voice API 获取高级定制选项(含语音克隆),用于旁白、播客、广告等场景。

xAI行业动态语音
关联讨论 1 条X:xAI (@xai)
推荐理由:xAI 把 Grok 的语音能力直接接入了 Vapi,250 万+语音代理一夜升级,语音交互的“自然度”竞赛从实验室卷到了生产环境。
10:42
HuggingFace Daily Papers(社区热门论文)
60
Audio-Interaction:统一流式音频交互模型

Audio-Interaction是一种统一流式音频模型,通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署,包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本,覆盖7项基本能力、28个子任务;Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中,Audio-Interaction保持主流音频任务竞争力,同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。

智能体多模态论文/研究语音
10:37
Elon Musk@elonmusk
61
xAI 推出 Grok Voice,其中 Grok Voice Think Fast 1.0 在 Artificial Analysis τ-Voice 基准(真实世界智能客服解决能力评测)中排名第一,大幅超越 GPT-Realtime-2 (High) 和 Gemini 3.1 Flash。该模型已实际部署,通过自然语音为 Starlink及多家企业提供实时客户服务,完全以语音交互驱动。

X Freeze: Grok Voice Think Fast 1.0 now ranks #1 on the Artificial Analysis τ-Voice benchmark for real-world agentic customer serv...

xAI产品更新语音
09:06
Elon Musk@elonmusk
同事件精选72
Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频,一次性完成。示例代码: `await generateVideo({ model: 'xai/grok-imagine-video-1.5-preview', prompt: 'a rabbit sprinting through nyc' });`

Vercel Developers: Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...

xAI图像生成模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Grok Imagine Video 1.5 把同步音频塞进了图生视频,一条 prompt 直接出带声短片,做短视频和创意的可以换上这条流水线了。
08:51
Berryxia.AI@berryxia
67
MOSS-Audio:开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一

OpenMOSS团队发布MOSS-Audio,一个融合语音(Speech)、环境音(Sound)、音乐(Music)的开源音频-语言模型,已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域,可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用,代码和权重已在Hugging Face及GitHub公布,开发者可本地运行。

MOSI: MOSS-Audio just hit #1 on @huggingface Trending. Speech. Sound. Music. One open audio-language model. Try it: Hugging Fa...

多模态模型发布语音
08:10
IT之家(RSS)
同事件精选72
深陷版权诉讼仍受资本热捧,AI 音乐生成公司 Suno 再融资 4 亿美元

AI 音乐生成企业 Suno 完成 4 亿美元 D 轮融资,投后估值 54 亿美元,较七个月前 C 轮估值翻番。公司承认使用受版权保护歌曲训练 AI 模型,但辩称符合合理使用原则。索尼与环球音乐 2024 年首次起诉后,涉案曲目从 560 首增至超 6.1 万首;华纳音乐于 2024 年 11 月与 Suno 和解并签订授权协议。本轮由 Bond Capital 领投,用户日均生成 AI 歌曲超 700 万首。

数据/训练行业动态语音
同一事件,精选展示《Suno完成4亿美元D轮融资》
推荐理由:一边被三大唱片巨头起诉,一边估值翻倍到54亿美元,资本对AI版权风险的容忍度比我们想的要大得多。创作者和平台都得重新想「合理使用」的边界在哪了。
02:48
MarkTechPost(RSS)
68
Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,支持原生音频,可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型,直接将视觉和音频输入大语言模型骨干,支持原生音频,可在 16 GB 笔记本电脑上本地运行,采用 Apache 2.0 开源许可。

Google多模态开源/仓库模型发布
01:48
elvis@omarsar0
76
Miso One 8B开源情感TTS模型发布

Miso Labs 开源 8B 参数文本转语音模型 Miso One,专注于生成富有情感的表达,如温暖、犹豫或兴奋,告别机械音。模型专为短视频、播客和教育内容等旁白场景设计,推理延迟仅 110 毫秒,快于人类反应时间。模型权重完全开源,支持自托管、微调和数据私有化,API 即将开放。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音
01:08
xAI@xai
70
试试 @Vapi_AI 上最自然的TTS和性价比最高的STT API。 来自 @xai 的Grok STT和Grok TTS现已在企业语音AI平台Vapi上线。基于Vapi构建自定义语音智能体,可让它们用客户的语言交流、在受监管的工作流中捕捉重要细节,并在每次通话中明显更具人性化。

Vapi: Grok STT and Grok TTS from @xai are now live on Vapi, the platform for enterprise voice AI. Build on Vapi to create cust...

xAI产品更新语音
关联讨论 1 条X:xAI (@xai)
00:50
Chubby♨️@kimmonismus
精选75
Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆(只需短样本),推理延迟仅 110ms。模型权重已开源至 GitHub,无需 API 即可自托管,音频数据不离开本地。API 访问即将推出。演示已上线,可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

推荐理由:Miso One这种8B参数、110ms延迟的情感TTS模型,直接把声音克隆和自托管做成了开箱即用,做语音产品的可以马上 clone 一个玩玩,比等 API 爽多了。
6月3日
23:15
TechCrunch:AI(RSS)
44
两位前高盛和Meta创始人打造语音AI,瞄准非洲和中东被忽视的市场

这家由前高盛和Meta创始人创办的语音AI初创公司,专注于非洲和中东市场,其自有技术栈目前已处理日均超过17000通电话。

行业动态语音
23:09
Suno@suno
精选68
我们激动地宣布Suno的新篇章:4亿美元D轮融资,估值54亿美元!🚀 我们的使命一直很简单:让更多人能体验制作音乐的乐趣。非常感谢我们不可思议的社区和投资者与我们共同建设。 点击此处阅读Mikey的博客:https://suno.com/blog/series-d-announcement
行业动态语音

推荐理由:AI音乐生成头部又融了一轮大的,估值涨3倍,但产品本身没啥变化,这轮更多是行业信号而不是用户福利。
09:48
Berryxia.AI@berryxia
74
微软在Build大会发布七款MAI新模型

微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

Microsoft AI: Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...

Microsoft图像生成模型发布编码
08:00
HuggingFace Daily Papers(社区热门论文)
57
SpeechEditBench:双语多属性指令引导语音编辑基准

SpeechEditBench 是一个双语多属性基准测试,系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务,并提出基于锚点的评估协议,分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现:(1)无单一模型在所有维度表现优异;(2)闭源语音LLM整体优于开源模型;(3)组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架,数据代码已公开。

arXiv论文/研究语音
03:59
OpenRouter@OpenRouter
精选68
三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线! 同步推出:MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵
Microsoft产品更新图像生成多模态

推荐理由:微软三个多模态模型一口气上架 OpenRouter,图像、转录、语音全齐了,开发者直接调 API 就能用,做产品的可以试试效果。
03:09
IT之家(RSS)
56
谷歌宣布 Android 行业首创虚假来电检测功能,防范 AI 克隆语音冒充熟人诈骗

谷歌为 Android 推出“虚假来电检测”功能,当通讯录联系人双方均使用 Phone by Google 时,系统可基于端到端加密的 RCS 信号实时验证来电设备,防范利用 AI 语音克隆冒充熟人的诈骗。该功能默认开启,本月向全球推送,首批支持 Android 12 及以上系统设备,率先登陆 Google Pixel 系列。

Google产品更新安全/对齐语音
02:47
Artificial Analysis@ArtificialAnlys
64
Microsoft发布MAI-Transcribe-1.5语音转录模型

微软AI发布了MAI-Transcribe-1.5语音转录模型。该模型在AA-WER排行榜上位列第三,词错误率(WER)为2.4%,仅次于阿里巴巴的Fun-Realtime-ASR-preview(1.7%)和ElevenLabs Scribe v2(2.2%)。其主要特点是速度极快,处理速度约为276倍实时,是准确率前十模型中第二快模型速度的两倍以上,因此在准确率-速度帕累托前沿上处于领先地位。模型还支持关键词偏差识别,并涵盖包括英语、法语、阿拉伯语、日语和中文在内的43种语言。

Microsoft模型发布语音
02:15
The Verge:AI(RSS)
62
Google Phone 应用推出诈骗检测功能:识别冒充联系人电话

Google Phone 应用新增诈骗检测功能,当来电号码伪装成联系人但实为诈骗者使用 AI 变声时,会标记为可疑通话。2025 年 FBI 报告显示,美国人因 AI 诈骗损失超过 8.93 亿美元,该功能旨在帮助用户避免此类风险。

Google产品更新语音
01:08
IT之家(RSS)
62
继 Phi-4-mini 后:微软宣布为 Edge 浏览器引入更高效的 Aion-1.0-Instruct 模型与翻译 API,支持 145 种以上语言

微软在 Build 2026 开发者大会上宣布扩展 Edge 浏览器的端侧 AI 能力。其核心是发布了 Aion-1.0-Instruct 小语言模型的开发者预览版,该模型比 Phi-4-mini 更高效,可在包括无 GPU 设备在内的更多设备上运行,并计划于 7 月在 Hugging Face 开源。同时,Edge 148 预览版推出了由端侧专用模型驱动的语言检测与翻译 API,支持超过 145 种语言。此外,Edge Canary 和 Dev 通道还提供了基于端侧模型的 Web Speech API 语音识别实验功能,实现了本地化处理。

产品更新端侧语音
6月2日
23:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
38
Travelers借助OpenAI在全国部署AI理赔助手

美国保险公司Travelers与OpenAI合作,构建了一款AI驱动的Claim Assistant。该工具旨在引导客户完成理赔流程,并提供全天候支持,以在业务高峰期扩展运营规模。

智能体OpenAI行业动态语音
‹ 上一页
1…56789…19
下一页 ›