5月15日

01:46

HuggingFace Daily Papers（社区热门论文）

精选71

EVA-Bench是一个端到端语音智能体评估框架，解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真，并提出了衡量任务完成度、音频保真度的EVA-A指标，以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集，采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现，无系统能在两项核心指标上同时超过0.5，峰值与可靠性能差距显著，且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。

Hugging Face 论文/研究评测/基准语音

推荐理由：EVA-Bench 把语音代理评估从「能对话就行」推进到「对话质量+鲁棒性」的全维度打分，还开源了 213 个企业场景，做语音助手的团队该认真看看。

5月14日

18:32

Alibaba Cloud@alibaba_cloud

如何让基于智能体的语音交互变得更稳定、更快速？🚀 当并发量上升时，消息链路可能成为隐藏瓶颈。了解 RocketMQ LiteTopic 如何实现大规模稳定低延迟交互： https://int.alibabacloud.com/m/1000412958/

智能体教程/实践语音

14:46

HuggingFace Daily Papers（社区热门论文）

Vividh-ASR：面向鲁棒印度语语音识别的复杂度分层基准与优化动态研究

针对多语言ASR模型微调中出现的“录音室偏差”问题，本研究发布了Vividh-ASR基准，涵盖印地语和马拉雅拉姆语的四个语音复杂度层级。通过控制学习率时机与课程顺序的实验发现，早期大参数更新可显著降低整体词错误率，而由难到易的课程顺序能进一步提升自发语音识别效果。据此提出的反向多阶段微调方法，使2.44亿参数的Whisper模型性能达到或超过传统微调的7.69亿参数模型。表征分析表明，有效调度将适应过程集中于解码器，同时保持了编码器的预训练声学结构。基准与模型均已开源。

论文/研究语音

14:02

公众号：豆包（字节）

豆包输入法上新，可以在电脑上语音打字了

产品更新端侧语音

11:26

向阳乔木@vista8

用户认为某模型表现不错，但指出当前多数第三方AI Chat客户端（如CherryStuido、Chatwise）尚不支持音视频上传解析功能。同时，豆包大模型的Doubao-Seed-2.0-lite 0428版本已完成重要升级，新增音频理解能力，成为其家族首款支持图片、视频、音频、文本四种输入的全模态理解模型，且Agent、Coding和GUI能力据称也有显著提升。

向阳乔木: 前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。除了全模态理解,据说 Agent、Coding、GU...

多模态视频评测/基准语音

08:00

HuggingFace Daily Papers（社区热门论文）

AuralSAM2：通过金字塔音视频特征提示赋能SAM2倾听

针对SAM2在音频模态整合上的不足，本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征，生成稀疏和密集提示，并基于SAM2的特征金字塔在视觉层间传播音频线索，以强化跨模态影响。同时，引入音频引导对比损失函数，进一步对齐音频与视觉特征。实验表明，该方法在公开基准上显著提升了准确率，同时将对SAM2可提示分割交互效率的影响降至最低。

arXiv GitHub 多模态论文/研究

02:28

Suno@suno

@MikeyShulman 在Training Data播客节目中畅谈Suno为何从不遵循规则…🎵

Mikey: Had tons of fun chatting with @sonyatweetybird about music and the future of entertainment

大佬观点语音

5月13日

23:39

IT之家（RSS）

谷歌 Gboard 输入法新增 Gemini 驱动听写功能，可识别一句话中的多种语言

谷歌在Android活动中为Gboard输入法推出由Gemini驱动的AI语音听写功能Rambler。它能自动删除“呃”“啊”等填充词，并理解即时修正。其核心亮点是支持“代码切换”，可在同一句话中无缝识别多种语言且保持上下文连贯。谷歌强调，该功能不存储语音录音，结合设备端与云端处理以保障隐私。Rambler初期将于夏季在三星Galaxy和谷歌Pixel手机上推出，未来将扩展至更多Android设备。

Google 产品更新多模态语音

22:57

Suno@suno

Suno 现在可在 Apple CarPlay 和 Android Auto 上使用🚗 在车里流媒体播放您最喜欢的创作。在早晨通勤时用这个播放列表试试看！ https://suno.com/playlist/a255cf6d-bb99-4c1f-aedd-8d584579bddb

产品更新语音

22:39

IT之家（RSS）

vivo 公布 OriginOS 6 五月体验升级亮点：小 V 语音一句话修图、原子岛充电动画等

vivo OriginOS 6 五月体验升级带来多项新功能。核心亮点是“小V修图”，用户可通过语音指令一句话完成照片编辑。相册功能大幅增强，新增多款色彩风格、可编辑水印、自定义集浏览页面布局以及文件夹日期分组视图。原子岛充电动画升级，可实时显示充电速度与电量。此外，小V写作新增剪切板快捷入口，竖屏锁定优化了旋转切换逻辑，智能车载支持切换手机版地图。其他升级还包括小V帮读入口、蓝心小V的问答样式与图文质量优化、新增多款原子组件模糊材质，以及网络与无障碍体验的改进。

产品更新端侧语音

22:36

🚨 AI News | TestingCatalog@testingcatalog

thehype radio是一个专为创业者和建设者设计的24/7全天候AI电台。它并非简单的新闻播报循环，而是由五位具备独立编辑判断力、记忆和鲜明个性的AI主播实时运作。电台内容涵盖分钟级的突发新闻、每半小时的新闻综述与AI工具趋势更新，并追踪初创公司融资动态。同时，它整合来自X和Hacker News的社区观点，并在节目间隙播放环境音乐。其核心在于AI主播能主动收集信息模式、发现矛盾、形成并论证观点，旨在从海量信息中提炼出具有洞察力的内容，帮助听众高效获取关键信息。

thehype.: Meet the 1st radio on X fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Live right ...

产品更新语音

22:34

Rohan Paul@rohanpaul_ai

X平台首开全AI运营电台，24小时播报AI动态

X平台推出了首个完全由AI运营的电台，全天候为AI构建者和创始人播报新闻。该电台实时追踪GitHub、HuggingFace等多个平台的动态，将分散信息整合成连续音频流。其核心挑战在于信息排序而非语音生成，系统需判断哪些代码更新、模型发布或社区讨论值得关注。电台拥有五位具备编辑判断力、记忆和个性的AI主播，他们不仅能播报信息，还会识别模式、发现矛盾并论证观点。内容涵盖突发新闻、工具趋势、融资动态及社区观点，旨在帮助用户高效把握AI领域重要动向。

thehype.: Meet the 1st radio on X fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Live right ...

产品更新搜索语音

22:29

Chubby♨️@kimmonismus

全球首个全AI运营的在线广播电台上线，24小时不间断播报AI动态

全球首个完全由AI运营的在线广播电台在X平台正式开播，专为创业者、开发者和建设者提供全天候AI领域资讯。该电台由五名具备独立编辑判断、记忆和个性的AI主播主持，不仅能实时播报几分钟内的突发新闻，还提供每30分钟一次的新闻综述、初创公司融资追踪、GitHub等平台的工具趋势分析，并整合社区讨论与行业真实观点。AI主播会主动收集信息模式、发现矛盾并形成论点进行实时辩论，而非单纯播报数据。节目辅以非干扰性环境音乐，旨在让听众在背景收听中高效获取深度行业洞察。

thehype.: Meet the 1st radio on X fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Live right ...

智能体产品更新语音

20:39

IT之家（RSS）

大版本来袭：第一代小米 SU7 汽车 OTA 1.16 开推，新增语音控车、疲劳分心下应急停车辅助功能等

小米汽车开始向第一代SU7推送OTA 1.16大版本更新，旨在对齐新款车型的功能体验。本次更新重点升级了辅助驾驶与智能座舱：辅助驾驶新增语音控车、收费站通行辅助、侧向避让辅助及针对异形障碍物的前向防碰撞辅助等功能；特别增加了疲劳分心下的应急停车辅助，触发后将自动减速停车并禁用辅助驾驶30分钟。智能座舱方面，超级小爱新增“小爱陪伴”和“AI智控”功能。此外，还引入了车主管理模式。多数新功能仅支持SU7 Pro和Max车型。

智能体产品更新多模态语音

15:39

IT之家（RSS）

谷歌安卓桌面版重构鼠标光标交互，让 AI 听懂"这个 / 那个"比划

谷歌DeepMind发布了名为Magic Pointer的AI光标交互功能，旨在重构桌面端安卓系统的鼠标使用体验。其核心理念是让AI无缝融入用户当前工作流，通过识别光标位置和语音指令理解上下文，无需复制内容或输入完整提示词。该功能遵循四项原则：保持工作连续性、支持“边指边说”交互、理解“这个/那个”等自然指代、将屏幕像素转化为可操作实体。目前，谷歌已在AI Studio上线演示，并正将相关能力逐步集成至Chrome浏览器的Gemini中。

Google 产品更新多模态语音

12:16

公众号：数字生命卡兹克

豆包输入法Mac版正式上线，所有人都该试试AI语音输入了。

产品更新端侧语音

08:49

Berryxia.AI@berryxia

Meta推出实时语音视觉AI，即将登陆Ray-Ban眼镜

Meta发布了由Muse Spark驱动的Meta AI Voice Conversations，实现实时语音与视觉交互。该功能支持打断对话、切换话题，在聊天过程中生成图像和拉取内容，并能通过相机对准现实世界进行实时视觉问答。这一技术即将集成到Ray-Ban Meta智能眼镜中，提升穿戴设备的AI体验。

Meta 产品更新多模态语音

08:41

meng shao@shao__meng

Gemini Intelligence 登陆 Android，系统升级为主动型AI平台

Google将Android重新定位为主动型AI系统，推出Gemini Intelligence。其核心在于深度软硬件结合，首发于三星Galaxy和Google Pixel手机，后续将扩展至手表、汽车等设备。五大核心能力包括：跨应用多步骤任务自动化、Chrome浏览器内的智能研究与代办、基于上下文理解的智能填表、将口语实时整理成书面稿的“Rambler”功能，以及用自然语言生成自定义主屏幕Widget。这些功能均在用户指令下执行，并注重隐私与控制权。

Sundar Pichai: Today at the @Android Show (I/O edition) we announced Gemini Intelligence - bringing the best of Gemini to our most adva...

智能体 Google 产品更新多模态

07:57

Chubby♨️@kimmonismus

Thinking Machines创造了OpenAI一年半前承诺我们的先进语音模式。就这样，我说出来了。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音

07:49

Berryxia.AI@berryxia

Gemini Intelligence官宣：赋能高端Android设备主动助手

Google推出Gemini Intelligence，将Gemini AI能力深度整合到高端Android设备，使其从聊天工具转变为主动助手。它整合高端硬件和创新软件，帮助用户提前一步、主动完成任务，例如跨App自动操作、表单填写、语音转流畅文字和创建自定义小部件。功能将从今年夏天开始分批上线，首批在三星Galaxy和Google Pixel设备落地，后续逐步覆盖更多Android设备。

Google: Today, we introduced Gemini Intelligence, which brings the best of Gemini to our most advanced devices. Gemini Intellige...

智能体 Google 产品更新语音

07:39

IT之家（RSS）

苹果 iOS 27 前瞻：相机 App 支持全面自定义且 Siri 迎来重大重构，Safari 和天气设计焕新

据报道，苹果 iOS 27 将对相机 App 进行重大升级，支持用户完全自定义界面控件布局。Siri 将重构为全天候智能体，集成于灵动岛，并新增可切换第三方 AI 服务的系统搜索功能。Safari 浏览器将更新起始页设计，天气应用新增集成信息面板。此外，多个系统应用的底部标签栏将调整，主屏幕编辑新增撤销/重做功能。该系统预计于2026年6月9日WWDC正式发布。

产品更新搜索语音

06:38

Demis Hassabis@demishassabis

精选81

团队正在用AI重新构想鼠标指针，成果非常酷！在@GoogleAIStudio尝试原型版本，体验相当神奇。【引用 @GoogleDeepMind】：我们正用AI重新构想这个存在50年的界面--鼠标指针。🖱️ 这些实验演示展示了人们如何通过动作、语音和自然简写，在屏幕上直观操控Gemini完成任务🧵

Google DeepMind: We're reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️ These experimental demos show how people ca...

Google 产品更新多模态语音

推荐理由：用了50年的鼠标指针第一次被AI改造，这个原型让你在屏幕上随手画圈、说话、打缩写就能控制Gemini，产品经理和设计师都该去玩一下。

05:05

🚨 AI News | TestingCatalog@testingcatalog

Meta推出Muse Spark驱动的AI语音对话与实时视觉交互功能

Meta宣布推出由Muse Spark驱动的AI语音对话功能，支持自然语言交流、实时生成图像及从Reels、地图等多源获取信息。该功能将整合至Meta AI应用的新语音模式和实时摄像头视图中，用户可通过摄像头对现实世界进行实时问答。购物模式新增了搜索Facebook Marketplace等能力。Muse Spark将逐步在Ray-Ban Meta等智能眼镜上于美加推出，并于今夏登陆Meta Ray-Ban Display，其智能能力也将扩展至WhatsApp、Instagram等全平台的多类场景中。

Meta Newsroom: Today we're introducing Meta AI Voice Conversations powered by Muse Spark that let you talk naturally to Meta AI (interr...

Meta 产品更新图像生成多模态