4月28日

22:39

Hacker News 热门（buzzing.cc 中文翻译）

精选70

微软开源了前沿语音人工智能项目VibeVoice，该项目已在GitHub上发布。VibeVoice能够生成高度自然、富有表现力的语音，支持多种语言和情感语调，显著提升了合成语音的真实感与感染力。其开源策略旨在推动语音AI领域的协作与创新，降低开发门槛。该项目在技术社区获得关注，在Hacker News上获得了103个投票点数。

Microsoft 开源/仓库语音

推荐理由：微软把前沿语音模型直接开源放 GitHub，对做语音产品的团队来说是真金白银的基建降本，不用再从零训一个了。

22:08

TestingCatalog News 🗞@testingcatalog

ElevenLabs近日推出Agent Templates，旨在加速AI智能体在客户支持、教育和行政等用例的启动过程。这些模板是预配置的ElevenAgents，为用户提供了构建对话式智能体的快速起点。用户无需从零开始繁琐配置，只需选择与自身业务场景匹配的模板，自定义相关细节，即可快速部署。据官方介绍，这些模板可在企业的支持、销售和运营等多个环节广泛部署，每增加一个用例，其价值便得到叠加和增强。目前平台提供超过50个模板，内含预定义的提示词、工作流程和集成方案，极大地简化了实施流程。

ElevenLabs: Introducing Agent Templates - pre-configured ElevenAgents you can deploy across your business. The best teams run agents...

智能体产品更新语音

16:33

IT之家（RSS）

企业微信灰度上线"记录面聊"功能：声纹识别技术分辨发言人并快速记录，AI 自动总结要点

企业微信灰度上线“记录面聊”功能，该功能利用声纹识别技术自动分辨不同发言人并快速记录讨论内容，AI会在讨论后自动总结要点、列出待办事项并@对应负责人，记录对所有参与同事公开共享。此次更新随企业微信5.0.8版本一同发布，该版本还新增了智能表格、智能文档和“贴表情”快速回复等功能。智能表格可打通微信生态数据自动汇总，并加入AI字段“技能卡片”；智能文档支持轻量化排版并一键发布为“轻网页”。

智能体产品更新语音

10:38

阿绎 AYi@AYi_AInotes

OpenAI开源语音控制组件，开启自然语音交互新范式

OpenAI开源了gpt-realtime-1.5的官方语音控制组件，允许用户直接用自然语音控制应用UI状态，而非仅进行语音转文本。该组件是一个完整的React参考实现，开发者可快速集成。其核心在于工具由应用预定义，模型只能调用这些受限动作，确保了安全可控。这标志着语音正从输入层升级为顶层控制层，为设计、驾驶等双手操作场景提供了新的交互可能，是交互范式的重要转折。

OpenAI Developers: You can build interactive applications with gpt-realtime-1.5, so users can control app state more naturally with voice. ...

MCP/工具 OpenAI 开源/仓库语音

08:00

HuggingFace Daily Papers（社区热门论文）

PSP：一个面向印度语种TTS的、按音系维度划分的可解释口音基准

研究团队提出PSP（音素替换剖面），一种用于量化评估印度语种TTS系统口音的可解释基准方法。PSP将口音分解为六个互补维度：卷舌音坍缩率、送气音保真度、元音长度保真度、泰米尔语卷舌近音保真度、Frèchet音频距离以及韵律特征散度。通过在印地语、泰卢固语和泰米尔语上测试五个TTS系统，研究发现：卷舌音错误率随音系难度递增；PSP评估结果与传统可懂度指标排序存在差异；没有单一系统在所有维度上均表现最优。团队同时开源了包括母语参考中心向量、评分代码在内的一系列资源。

论文/研究评测/基准语音

08:00

HuggingFace Daily Papers（社区热门论文）

Praxy Voice：零商业数据成本，通过语音提示恢复与BUPS实现商业级印度语TTS

Praxy Voice提出一种无需商业训练数据、不重新训练声学解码器，即可将非印度语系基础TTS模型提升至商业级印度语输出质量的方法。其结合三项技术：BUPS统一音素空间将七种印度文字罗马化；仅在文本标记预测器上训练LoRA适配器；以及通过同语言参考音频与特定采样配置实现语音提示恢复。在泰卢固语、泰米尔语和印地语的评估中，该系统在音韵指标上达到或略微超越商业基线。针对语码混合场景，额外引入IndicF5分支，显著降低了混合语句的错误率。项目已开源相关资源。

开源生态论文/研究语音

07:46

Simon Willison 博客

微软开源语音转文本模型VibeVoice简介与实测

微软于2026年1月发布开源语音转文本模型VibeVoice，采用MIT许可证并内置说话人日志功能。社区提供的4位量化MLX版本约5.71GB。实测在128GB内存的M5 Max MacBook Pro上，使用mlx-audio工具处理一段60分钟音频耗时约8分45秒，峰值内存占用达30.44GB。模型默认支持最长25分钟音频，通过调整参数可处理至多1小时音频，输出为带时间戳和说话人ID的JSON格式，便于用Datasette Lite浏览分析。

Microsoft 开源/仓库教程/实践语音

05:05

OpenAI Developers@OpenAIDevs

你可以用gpt-realtime-1.5构建交互式应用，让用户通过语音更自然地控制应用状态。嗨，Chappy 👋

OpenAI 产品更新语音

4月27日

22:22

IT之家（RSS）

安克"AI 录音豆"智能录音硬件新增 64GB 存储空间版本，999 元

安克与飞书合作推出的“AI录音豆”智能录音硬件新增64GB存储版本，定价999元。该产品仅重10克，搭配充电舱总重约48克，采用豆状设计，内置双MEMS麦克风阵列，支持蓝牙与Wi-Fi传输。其主打无感佩戴和随时录音，可通过衣领夹或磁吸配件随身固定，单次续航8小时，配合充电盒可达32小时，适用于会议、拜访等移动场景。

产品更新端侧语音

19:22

公众号：阶跃星辰（Step）

阶跃与腾讯云达成战略合作，共同打造智能座舱 Agent 助手

近日，阶跃与腾讯云达成战略合作，双方将围绕智能座舱 Agent 展开深度共创，打造全新的智能座舱 Agent 助手。该助手以语音为入口，实现免唤醒、连续对话、情绪识别的超自然交互，并能基于用户情绪、驾驶状态、环境和历史信息秒懂意图，精准推荐腾讯系音乐、视频、地图等内容与应用生态。同时，产品打通腾讯在支付、地图、出行服务等领域的生态接口，从需求直达交易闭环，为用户提供一站式服务。

智能体行业动态语音

4月26日

06:21

Berryxia.AI@berryxia

ChatGPT 桌面版现在也支持语音输入，还没有测试中文支持的效果如何。

产品更新语音

05:51

TestingCatalog News 🗞@testingcatalog

我赶紧测试了这个功能 👀 Gemini for iOS 新增了带有波形动画和恰当控制的语音听写功能。在 Gemini 上，如果你使用了听写来输入提示，它会自动触发朗读功能。这并非全新功能，但现在它确实很实用。效果非常棒 🔥

Paul J Lipsky: Transcription on the Gemini iOS app is finally usable! Thank you @joshwoodward

产品更新语音

4月25日

20:27

凡人小北@frxiaobei

OpenAI为ChatGPT订阅用户推出系统级全局语音输入功能，用户设置热键后即可在桌面任意应用的文本框中进行语音输入并实时转为文字，无需切换应用或额外付费。该功能直接替代了Wispr Flow、Superwhisper等第三方工具的核心服务，使其市场受到冲击。评论指出，此举是OpenAI将Codex转化为"AI操作系统"的战略步骤，旨在将AI深度嵌入用户日常操作流程，未来竞争重点将从语音模型优劣转向AI与工作流的整合程度。

阿绎 AYi: 卧槽,OpenAI Codex团队刚放了个大招, 直接把所有第三方语音输入工具干懵了, 所有ChatGPT订阅用户,现在可以在桌面任何地方直接语音输入, 不用切App,不用额外花钱,设置一个热键,按住说话,松开文字直接进任何文本框,记事本,...

OpenAI 产品更新语音

16:05

阿绎 AYi@AYi_AInotes

OpenAI推出桌面语音输入功能，冲击第三方工具市场

OpenAI为ChatGPT订阅用户推出系统级语音输入功能，用户设置热键即可在桌面任何应用（如记事本、VS Code）中直接语音输入并转为文字。此举直接冲击Wispr Flow等付费第三方工具，用户无需额外付费，体现OpenAI将AI嵌入操作系统的战略，推动AI与工作流集成。

阿绎 AYi: 这周要发的GPT-5.5可能是人类离 AGI 最近的一次尝试🚀 Greg Brockman 是 OpenAI 的联合创始人兼现任 President(总裁),也是 OpenAI 内部公认的builder-in-chief, 看完他的这段采...

OpenAI 产品更新语音

4月24日

11:38

公众号：阶跃星辰（Step）

阶跃 StepAudio 2.5 ASR 上线！500TPS 极速推理，30分钟语音"秒级转写"

产品更新语音