语音与音频最新动态与精选 · AI HOT

Topic · 主题全部主题 →

语音与音频

AI 语音与音频的进展：语音合成、实时对话、音乐生成与音频理解的模型与产品。

772条收录

92条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

1xAI 发布 Voice Agent Builder 测试版772 家源

7月2日

00:20

xAI：News（网页）

精选77

xAI 发布 Voice Agent Builder 测试版

xAI 推出 Voice Agent Builder 测试版，这是一个基于 Grok Voice 的无代码平台，可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性，支持连接现有 SIP 号码、API 和 WebSocket，采用语音到语音路径。在 τ-voice Bench 上，Grok Voice Think Fast 1.0 得分 67.3%，领先 Gemini 3.1 Flash Live（43.8%）和 GPT Realtime 1.5（35.3%）。定价为每分钟音频 0.05 美元、电话费 0.01 美元，提供 80+ 种语音及声音克隆，每个账户附赠一个免费电话号码。

智能体 MCP/工具 xAI 产品更新

关联讨论 1 条

推荐理由：xAI 用 Grok Voice 原生的语音到语音路径，把生产级语音代理的搭建门槛降到了无代码、两分钟，计费也简单，做语音业务的人值得试试。

7月1日

01:29

Apple：Newsroom（RSS）

精选66

Apple Creator Studio 更新：更智能、更快速、更互联

Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions（自动转录音频生成字幕）和 Edit Detection（自动检测剪辑点）。Mac 版加入 Auto Mask（自动识别皮肤、天空等主体）、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑，并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年，新用户免费试用一个月，教育用户 $2.99/月。

产品更新图像生成语音

推荐理由：Final Cut Pro 的自动字幕和遮罩是实打实的工作流提升，Pixelmator Pro 的深度整合也让设计更顺畅，虽然没有颠覆性突破，但创意工作者今天就能用上。

6月27日

11:59

IT之家（RSS）

精选73

阿里千问输入法上线 macOS 版：最快 300 字/分，AI 自动润色

阿里千问输入法 macOS 版今日上线官网，支持最快 300 字/分的 AI 语音输入，可自动润色、将口语转为工整文字，并支持 9 种方言，纯净无广告。官方预告 iOS、Android、Windows 版将于近日发布。此前千问团队已于今年 5 月推出千问语音输入法（千问 App 内的组件），具备去语气词、纠错、格式化整理及基于上下文的智能回复等能力，而本次上线的输入法则定位为独立 App，填补千问在移动端 AI 输入法赛道的空白。

产品更新语音

推荐理由：阿里千问把AI语音能力做成了独立输入法，300字/分+9种方言让语音转文字实用性大增，对不习惯打字的普通用户可能比单纯聊天工具更有粘性。

00:16

AYi@AYi_AInotes

精选76

Leaf 开源项目：将网红峰哥做成实时通话 AI 分身

开发者 Leaf 开源项目，将网红峰哥做成能实时通话的 AI 分身，集成实时对话、音色克隆和人格注入，工程延迟压到 1 秒内。技术拆解：语音识别用 Cartesia ink-whisper 降噪防误触发；大模型选 MiniMax 高速版，首字响应 361ms；语音合成用 VoxCPM 开源克隆，15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通：克隆项目后，用 Claude Code 或 Cursor 配置，填两个 API Key 即可使用。

Leaf Yeah!: http://x.com/i/article/2070103285181349888

GitHub 开源/仓库语音

推荐理由：Leaf 开源的这个实时语音分身项目，把工程延迟拆解到毫秒级，选型和人格蒸馏细节全公开，想做个性化语音机器人的可以直接复用，实践导向很强。

6月25日

00:15

Hugging Face：Blog（RSS）

精选61

FFASR 排行榜发布：真实远场条件下 ASR 评测

Treble Technologies 与 Hugging Face 联合推出 FFASR（Far-Field ASR）排行榜，这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据，涵盖 14 种房间（20–470 m³）和三个信噪比级别（远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB），加上近场干燥条件，共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率（WER）和实时因子（RTFx，在 NVIDIA L4 GPU 上评估）。未来将支持多说话人场景、麦克风阵列和回声消除。

Hugging Face 评测/基准语音

推荐理由：远场语音的‘实验室-生产’性能差终于有了量化指标，这个排行榜把 ASR 的真实世界鲁棒性公开化，做语音产品的团队该看看。

6月24日

12:42

IT之家（RSS）

精选74

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

6月23日，部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1，位于设置模型选择器中，与标准语音和高级语音并列。该模型支持边说话边监听，用户可在对话中途打断并发出新指令，例如要求从1数到10时中途喊停倒数，模型会立即切换执行。OpenAI 尚未官宣，预计本周启动更大范围测试。

OpenAI 多模态模型发布语音

推荐理由：Bidi 1 让 ChatGPT 语音从回合制变成双向并行，打断后能立即响应，这是语音交互真正的升维，普通人很快就能感受到对话自然感的质变。

6月23日

19:10

IT之家（RSS）

精选72

网易有道发布 Confucius4-TTS：14 语种跨语种无口音语音克隆开源模型

网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS，声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆，克隆音色与原声相似度超 85%，任务准确度达 97%。模型支持中文、英语等 14 种语言，首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源（Apache 协议），提供 54GB 资源包供本地部署。

GitHub 模型发布语音

推荐理由：网易有道把语音克隆的门槛压到了 3 秒，跨 14 种语言还能保持无口音，而且全量开源、商用无限制，对多语种配音和短剧出海是直接可用的工具。

13:50

公众号：火山引擎

精选71

豆包音频生成模型1.0发布，重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成中保持多角色音色一致性，无需后期多轨混音。模型支持0样本多模态输入，无需额外训练即可生成；实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作，多次延长保持音色统一。已开启火山方舟API邀测，个人用户享30分钟创作额度，即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由：豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt，长时一致性解决了一直以来‘串戏’的痛点，音频创作者的生产流程可能会被改写。

6月18日

18:40

公众号：火山引擎

精选72

火山引擎上线豆包实时语音模型3.0 API 服务，开启邀测

火山引擎上线豆包实时语音模型3.0（Seeduplex）API 服务并开启邀测。该模型为原生全双工端到端语音大模型，具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命，指定话题出现时主动加入；支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升，误回复率与误打断率大幅降低；判停延迟缩短约250ms，复杂场景抢话比例下降40%，用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。

模型发布语音

推荐理由：豆包实时语音模型3.0带来的全双工实时工具调用，把语音助手从对讲机变成了真人助理，判停延迟和抢话率的改善数据扎实，做车载和智能硬件的团队该认真看看。

13:56

LMSYS：Blog（Chatbot Arena 团队）

精选67

MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上：原生流式 48 kHz 语音服务

MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型，支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器，通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%，CV3-Eval 上 WER 7.48%、SIM 61.59%，MiniMax Multilingual 上 WER 6.37%、SIM 75.31%，X Voice 上 WER 20.48%、SIM 63.00%。

产品更新语音部署/工程

推荐理由：SGLang-Omni 把 MOSS-TTS 的端到端服务拆成三阶段并做了大量底层优化，对想落地实时语音合成的团队是现成的技术方案，技术细节扎实，可以直接照着搭。

00:32

TechCrunch：AI（RSS）

精选76

Google发布99美元Gemini智能音箱

Google推出首款专为Gemini打造的智能音箱Google Home Speaker，售价99.99美元。支持自然语言请求和多步指令，可在说话中途纠正，并具备连续对话功能。内置10种新声音。高级AI功能需订阅Google Home Premium（月费10美元或年费100美元），包括Gemini Live自由对话、Nest摄像头活动摘要等。即日起预售，本月发货。

Google 产品更新语音

推荐理由：Google 终于把 Gemini 塞进了音箱，多步指令和自然纠错是亮点，但高级功能要订阅 Home Premium。普通用户会觉得方便，智能家居玩家可以观望，AI 从业者不会有多大惊喜。

6月16日

15:05

🚨 AI News | TestingCatalog@testingcatalog

精选75

Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型，作为单一实时语音栈，分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首，首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。

Karan Goel: We released Sonic-3.5 and Ink-2, the #1 streaming models for text to speech and speech to text you can use in your voice...

智能体模型发布语音

推荐理由：Cartesia 同时发布实时语音合成和识别两个模型的迭代版，双双登顶第三方基准，80ms 首音频延迟让语音代理的交互感接近真人，做实时语音应用的开发者可以重点看一下。

6月11日

16:22

The Verge：AI（RSS）

精选73

Deezer 推出面向其他流媒体服务的 AI 音乐检测器

Deezer 将扫描用户在其它流媒体平台的播放列表，检测其中的 AI 生成音乐。Deezer 是最早标记 AI 生成音乐的大型流媒体服务之一，曾向其他平台提供该技术但少有采纳。Deezer CEO Alexis Lanternier 表示，由于没有其他公司跟进，他们决定让用户无论使用哪个平台，都能检查自己的播放列表中是否包含合成音乐。

产品更新语音

推荐理由：Deezer这手挺狠，自家技术没人买账就做成免费跨平台工具，现在用Spotify和Apple Music的人也能扫歌单了，对在意音乐‘血统’的人来说是个刚需小功能。

10:50

公众号：小米 MiMo

精选74

小米发布并开源终端AI编程助手MiMo Code V0.1.0，采用MIT协议

小米发布并开源终端AI编程助手MiMo Code V0.1.0，采用MIT协议。内置限时免费MiMo-V2.5多模态模型，性能比肩Claude Sonnet 4.6；支持接入DeepSeek、Kimi、GLM等模型。核心能力包括持久记忆系统（项目记忆、会话检查点、任务进度）和无限上下文——通过独立subagent自动保存状态解决长会话遗忘。独创Compose模式实现模型与Agent协同优化，SWE-Bench Pro达62%（Claude Code 57%），Terminal Bench 2达73%（68%）。内置语音输入和/dream命令，每7天自动合并记忆。终端输入mimo即可使用，所有设置中文汉化。

智能体产品更新开源生态编码

关联讨论 3 条

推荐理由：小米悄悄发了MiMo Code，开源且免费，用记忆系统和Compose模式解决了AI编程两大顽疾：健忘和跑偏，实测比同模型Claude Code更强，开发者现在就能装上试。

6月10日

03:55

Hugging Face：Blog（RSS）

精选67

Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言，基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统，包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现：代码切换的转录成本因语言对和模型而异；ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face 评测/基准语音

推荐理由：如果你在给多语言客户做语音Agent，这篇博客直接把主流ASR的code-switching能力测了一遍，ElevenLabs Scribe V2目前最强，还开源了数据集，拿来就能测自己的模型。

6月9日

03:14

Apple：Newsroom（RSS）

精选69

受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线

由于欧盟《数字市场法案》（DMA），Apple 无法在 iOS 27 和 iPadOS 27 发布时于欧盟地区推出 Siri AI。该功能在欧盟的上线时间将晚于其他地区，具体时间未公布。

多模态政策/监管语音

关联讨论 8 条

推荐理由：苹果首次将 DMA 作为 AI 功能地区延迟的直接理由，并详细披露了与欧盟监管者的分歧，这个案例可能定义了 AI 助手在监管下的权限边界。

6月8日

22:46

OpenBMB@OpenBMB

精选75

VoxCPM2 技术报告发布

面壁智能 OpenBMB 发布 VoxCPM2 技术报告。该模型为最新语音生成模型，拥有 2B 参数，基于超 200 万小时多语言语音数据训练，支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力。技术报告涵盖架构设计、统一序列公式、AudioVAE 高保真语音重建、大规模训练评估，以及零样本和指令跟随 TTS 基准结果。采用 16kHz 语义编码 + 48kHz 波形重建，在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。

多模态开源/仓库模型发布语音

推荐理由：面壁把语音生成压进2B参数，支持30种语言加方言克隆，还附完整技术报告和Apache 2.0开源，做语音产品的可以直接拉代码跑起来了。

21:36

小互@xiaohu

精选79

小互开源视频翻译工具：一句话自动下载、转写、翻译、烧字幕

小互（@xiaohu）开源视频翻译工具（xiaohu-video-translate），只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行，不花API费。支持YouTube、Bilibili、抖音等链接及本地文件，英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳，按语义断句，每行不超过12字，双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成，可单独或串联使用，适配Claude Code、Codex、OpenClaw等AI编程工具。已开源，附安装指南。

GitHub 开源/仓库视频语音

推荐理由：小互把自己用了半年的视频翻译工具开源了，本地Whisper转写加AI润色，下载、翻译、烧字幕一句话搞定，做海外视频搬运或想省时间的，装一下就能省掉大半天手工。

14:14

Tencent Hy@TencentHunyuan

精选69

腾讯混元联合多家机构发布首个音频编辑基准MMAE

腾讯混元联合上海交大、南洋理工等机构推出MMAE（Massive Multitask Audio Editing Benchmark），这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改，而非简单生成。当前模型在该基准上的精确匹配率（EMR）低于5%，暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项，覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度（基础修改到多跳推理及多轮编辑）、8种操作类型（局部到全局）。论文、代码、数据集和演示已公开。

多模态论文/研究语音

推荐理由：过去一年语音和音乐生成很热，但音频编辑还没人正经测过，腾讯这个基准把现状血淋淋地摆出来了，不到5%的准确率意味着整个方向都还在起步期。

6月6日

00:41

Google Gemini@GeminiApp

精选81

你现可直接在 Gemini Live 中创建和编辑图像。无论是测试房间装饰、解决数学问题，还是制作可分享的梗图，所有操作都实时完成。只需打开 Gemini 应用，点击 Live 按钮，共享摄像头，告诉 Gemini 你想看到的。

Google 产品更新图像生成多模态

推荐理由：Gemini Live 终于能用嘴改图了，实时对话+图像生成让装修试色、数学解题变成「聊着天就把活干了」，产品人和普通用户都该试试这个新交互。

6月5日

23:26

Suno：Blog（网页）

精选64

Suno Voices 使用指南：6 个技巧打造高质量人声录制

Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧：在安静环境录音以减少背景噪音；先练习歌词再正式录制；不必追求完美，保留真实情感；录音时长尽量超过 1 分钟以提供更多学习素材；将人声匹配到合适的音乐流派（如民谣、流行、死亡金属、波萨诺瓦等）；敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。

教程/实践语音

推荐理由：Suno 官方出的 Voices 录制避坑指南，不是大新闻，但照着做能让你克隆的声音干净不少，尤其是安静环境和别怕走音那两条，做音乐的朋友可以直接收藏。

00:53

LMSYS：Blog（Chatbot Arena 团队）

精选77

Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数，基于 Qwen3-4B 骨干，支持 100 种语言（内部评测覆盖 111 种），在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感（20+种）、风格、韵律（语速/音高/停顿）及音效。模型支持流式合成，文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计，统一调度 AR 解码与轻量计算，实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由：Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型，SGLang-Omni 为它搭好了多阶段推理的底座，做语音 Agent 的可以直接抄作业，这比多数论文落地快半拍。

6月4日

21:42

Hugging Face：Blog（RSS）

精选75

Nemotron 3.5 ASR：为你的语言、领域或口音进行微调

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型，单个检查点覆盖 40 种语言-地区（含英、西、德、法、意、日、韩、中、阿拉伯等）。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器，缓存内部状态避免重复计算，实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本，无需后处理。支持指定语言（target_lang=es-ES）或自动语言检测（target_lang=auto）。通过注意力上下文大小（att_context_size）可在推理时直接调节延迟-准确率权衡，范围从 80ms 到 1.12s，无需重新训练。模型以 NeMo 检查点形式发布，可用于微调以适配特定语言、领域或口音。

教程/实践语音

推荐理由：一个模型搞定40种语言的实时语音转文字，NVIDIA还给了完整微调代码和实测数据，做语音Agent和字幕的可以照着抄作业。

10:58

xAI：News（网页）

精选72

Grok 成为 Vapi 的默认语音引擎

xAI 宣布与 Vapi 合作，Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎，覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中，Grok Voice 位列第一；X 平台上的人机语音盲猜中，超 4500 名用户有一半无法区分 Grok 与真人。现在，Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard，团队还可通过 Grok Voice API 获取高级定制选项（含语音克隆），用于旁白、播客、广告等场景。

xAI 行业动态语音

关联讨论 1 条

推荐理由：xAI 把 Grok 的语音能力直接接入了 Vapi，250 万+语音代理一夜升级，语音交互的“自然度”竞赛从实验室卷到了生产环境。

00:50

Chubby♨️@kimmonismus

精选75

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆（只需短样本），推理延迟仅 110ms。模型权重已开源至 GitHub，无需 API 即可自托管，音频数据不离开本地。API 访问即将推出。演示已上线，可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

关联讨论 1 条

推荐理由：Miso One这种8B参数、110ms延迟的情感TTS模型，直接把声音克隆和自托管做成了开箱即用，做语音产品的可以马上 clone 一个玩玩，比等 API 爽多了。

6月3日

23:09

Suno@suno

精选68

我们激动地宣布Suno的新篇章：4亿美元D轮融资，估值54亿美元！🚀 我们的使命一直很简单：让更多人能体验制作音乐的乐趣。非常感谢我们不可思议的社区和投资者与我们共同建设。点击此处阅读Mikey的博客：https://suno.com/blog/series-d-announcement

行业动态语音

关联讨论 1 条

推荐理由：AI音乐生成头部又融了一轮大的，估值涨3倍，但产品本身没啥变化，这轮更多是行业信号而不是用户福利。

03:59

OpenRouter@OpenRouter

精选68

三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线！同步推出：MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵

Microsoft 产品更新图像生成多模态

推荐理由：微软三个多模态模型一口气上架 OpenRouter，图像、转录、语音全齐了，开发者直接调 API 就能用，做产品的可以试试效果。

5月30日

04:19

Greg Brockman@gdb

精选76

OpenAI 实时翻译功能--使用70多种输入语言说话，翻译成13种输出语言： gpt-realtime-translate 接收任意语言的语音输入，并输出目标语言的语音。大语言模型很棒，但特定用例需要专用模型。我们正在智能眼镜上运行此功能。

cayden 凯登: OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...

OpenAI 多模态模型发布语音

推荐理由：OpenAI悄悄推出一个专门做实时语音翻译的模型，不是通用LLM，而是专用模型。这标志着AI交互从文字转向语音的第一步，做翻译硬件或AR眼镜的团队要睡不着了。

5月29日

17:21

IT之家（RSS）

精选74

小米开源可控视频音效生成模型 ControlFoley，让声音"按你想要的来"

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley，旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现，其代码、模型权重和在线 Demo 均已开放。

多模态开源生态模型发布语音

推荐理由：小米开源的 ControlFoley 把视频音效生成从“看画面配声音”推进到“按意图来”，开源 SOTA 且直接提供 Skill，做视频创作的可以上手试试。

5月28日

23:43

TechCrunch：AI（RSS）

精选72

Sesame，这家由Oculus创始人创办的对话式AI初创公司，发布其iOS应用

由Oculus创始人创办的AI初创公司Sesame发布了其iOS应用，该应用将对话式AI智能体带给公众。应用提供更自然的来回交互体验，设计上区别于传统聊天机器人，旨在让用户感觉更像在和真人对话。

产品更新语音

推荐理由：Oculus创始人做的对话AI，交互设计大概率能看到一些VR时代的人机直觉。虽不是大模型层创新，但产品体验可能重新定义什么样的对话才叫自然。

02:57

Midjourney：Updates（RSS）

精选59

Web 更新

对话模式在文本和语音输入方面进行了改进。语音会话开始时，可访问用户的图像提示、风格参考、侧边栏设置和最近任务。图像提示功能现可从托盘和侧边栏直接使用。在语音提交过程中，托盘中的图像将保持不变，直至用户手动移除。

产品更新语音

推荐理由：Midjourney给语音模式补了一课——现在它能记住你正在用的图片参考和风格设置，语音创作不用反复翻找，用完即走的轻量用户可能无感。

00:20

Hugging Face：Blog（RSS）

精选72

Reachy Mini 实现完全本地化语音交互

Reachy Mini 机器人现可通过 speech-to-speech 库实现完全本地化的语音交互，无需依赖云端。该方案采用级联流水线架构，对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问（Qwen3-TTS）作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理，保障了隐私且无 API 费用。

智能体 Hugging Face 教程/实践语音

推荐理由：小众硬件的本地语音实战，但HF这套开源管线证明端到端对话已完全可用，所有组件都可自由替换，想做本地化语音助手的人可以照抄。

5月24日

06:49

StepFun@StepFun_ai

精选76

StepAudio实时语音发布，能听懂你的语气与言外之意

StepAudio 2.5 Realtime 是一款实时语音交互模型。其核心优势在于能感知用户的副语言特征，如语气、节奏、停顿甚至轻叹，从而理解话语背后的真实意图。该模型支持通过 API 高度定制角色人格与说话风格，内置超过10,000种可组合的预置角色，并提供5种开箱即用的预设角色供体验。同时，模型经过RLHF优化，能在复杂的角色扮演压力测试中稳定保持设定的人设。支持中英文双语交互。

模型发布语音

推荐理由：StepFun 这个语音模型把副语言感知做进了实时 API，产品人想搞点情感化语音交互的可以试试，预设角色能省不少调 prompt 的功夫。

5月23日

03:38

ChatGPT@ChatGPTapp

精选69

用对话处理文书工作更轻松。借助ChatGPT的图像功能和语音模式，您可以上传表单，说出要填写的内容，即可获得填写完成的版本。

OpenAI 产品更新多模态语音

推荐理由：填表终于不用打字了，上传表格对着说就行，ChatGPT 这个更新把语音和图像真正串起来，以后各种纸质表单直接扔进去就完事。

5月22日

18:09

IT之家（RSS）

精选70

网易有道"子曰4"多模态模型、语音合成模型全量开源

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中，多模态模型（27B参数）专注于教育场景，在处理高难度视觉数理问题上达到行业顶尖水平，纯文本中文数理难题准确率为81.4%。该模型通过思维链优化，将输出长度压缩43.2%，有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆，3秒内即可完成零样本复制，准确度超97%，并支持包括中、英、日、韩在内的14种语言。

多模态开源生态推理模型发布

推荐理由：有道把垂直教育的多模态模型全量开源，27B参数在视觉数理上做到SOTA，还把思维链压缩了43%，推理成本实打实下降，做教育应用的可以拿来做二次开发；TTS的跨语种情感克隆也实用，3秒克隆14种语言。

5月21日

05:18

OpenClaw🦞@openclaw

精选66

OpenClaw 2026.5.19 🦞 📱 Android Talk Mode 实现实时化 🍎 Mac 设置界面更清爽 🔐 xAI 登录支持无头模式 🧵 Telegram 话题功能更稳定大版本更新，简短公告。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.19

产品更新开源生态语音

推荐理由：一堆小修小补但都很实用，尤其 Android 实时对话模式，开源 AI 客户端里难得把体验做到这个程度，值得更新。

5月20日

02:18

Google Blog：AI（RSS）

精选75

Google Workspace 推出全新创建方式与高效工作功能

Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能，并推出了一款名为 Google Pics 的全新设计工具。同时，其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验，通过集成更智能的工具和交互方式，帮助用户更便捷地完成多项任务。

Google 产品更新多模态语音

推荐理由：Google Workspace 直接植入了语音操作和设计工具 Pics，这波更新对办公效率很实在，做产品和运营的可以关注一下实际落地效果。

5月19日

23:18

Qwen：Blog Retrieval（API）

精选77

Qwen3.5-LiveTranslate：从声音到视觉，从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型，基于 Qwen3.5-Omni 架构，支持实时多模态翻译（音频、视频及视觉上下文）。语言覆盖大幅扩展：输入音频与输出文本从18种增至60种，输出音频从10种增至29种。采用 Readable Unit 技术，平均端到端每 token 延迟降至2.8秒，相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由：这个版本让同声传译从“能用”变成了“好用”，语言覆盖从 18 跃升 60，延迟压到 2.8 秒，加上视觉消除歧义，做国际业务和直播的人值得跟进。

03:12

OpenRouter@OpenRouter

精选65

@xai 的 Grok 创意套件中 3 款新模型现已在 OpenRouter 上线： • Grok Imagine Image Quality：照片级真实图像生成与编辑 • Grok Imagine Video：从文本、图像或参考生成短片 • Grok Voice TTS 1.0：支持 20 多种语言的 5 种语音更多详情见下方 🧵

xAI 产品更新多模态语音

推荐理由：如果你觉得官方 Grok API 麻烦，OpenRouter 现在一口气上线了 Imagine 图像、视频和 Voice TTS，做创意产品的开发者可以直接从这里调用了，省去多签一轮 API key 的功夫。

5月15日

09:51

Berryxia.AI@berryxia

精选75

牛津大学博士后开源视频翻译工具Violin，支持多语言翻译与视频对话

牛津大学博士后Kevin Lin开源视频翻译工具Violin，旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线，支持多语言互译与个性化翻译风格调整，例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式，所有功能基于MIT协议开源，由Together Compute提供技术支持，适用于内容创作、教育及多模态智能体开发等领域。

Kevin Lin: 🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...

GitHub 多模态开源/仓库语音

推荐理由：视频翻译过去得拼几个 API，Violin 一个开源 Skill 把 ASR、翻译、TTS 全通了，还加上视频对话和风格定制，做多语言内容传播的必须收藏。