5月24日

07:11

IT之家（RSS）

WWDC 2026 在即，苹果悄悄注册全新子域名 genai.apple.com

苹果宣布WWDC 2026将于北京时间6月9日凌晨1点开幕，并已注册全新子域名genai.apple.com，预示其在生成式AI领域的新动作。新版iOS 27等系统将集成大量Apple Intelligence功能，包括支持连续对话的Siri独立应用、视频实时字幕生成、自然语言语音控制以及扫描提取信息等智能工具。

行业动态语音

5月23日

07:05

TechCrunch：AI（RSS）

AI 正被用于复活死飞行员的声音

人们运用人工智能技术分析驾驶舱录音的频谱图图像，成功重建了已故飞行员的声音。这一行为迫使美国国家运输安全委员会（NTSB）临时封锁其文档系统的访问权限，以应对潜在的安全风险。该事件展示了AI在音频修复领域的实际应用，同时突显了数据管理、隐私保护及系统完整性方面的挑战。

政策/监管语音

04:05

Ars Technica：AI（RSS）

美国紧急应对网友重现遇难飞行员声音

网友利用语音合成技术，成功模拟并重现了已故飞行员的声音。此举挑战了美国国家运输安全委员会（NTSB）禁止公开驾驶舱录音的法律规定。变通手段规避了该禁令，引发监管机构对音频数据滥用与伦理问题的关注。

政策/监管语音

5月22日

23:09

IT之家（RSS）

OPPO Enco Air5s 耳机规格公布：3.9g 重量、三麦 AI 通话降噪，5 月 25 日发布

OPPO Enco Air5s 耳机将于5月25日18:00正式发布。该新品重量仅3.9克，提供暗夜黑、星光紫、月光白三种配色，并支持旗舰级人声降噪算法与三麦AI通话降噪。耳机搭载12mm高解析巨形动圈单元，具备自适应听感优化与全设备空间音效，并号称“安卓苹果都好用”。功能上支持遥控拍照、AI翻译、滑动调节音量及跨设备双连等。

行业动态语音

18:09

IT之家（RSS）

精选70

网易有道"子曰4"多模态模型、语音合成模型全量开源

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中，多模态模型（27B参数）专注于教育场景，在处理高难度视觉数理问题上达到行业顶尖水平，纯文本中文数理难题准确率为81.4%。该模型通过思维链优化，将输出长度压缩43.2%，有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆，3秒内即可完成零样本复制，准确度超97%，并支持包括中、英、日、韩在内的14种语言。

多模态开源生态推理模型发布

推荐理由：有道把垂直教育的多模态模型全量开源，27B参数在视觉数理上做到SOTA，还把思维链压缩了43%，推理成本实打实下降，做教育应用的可以拿来做二次开发；TTS的跨语种情感克隆也实用，3秒克隆14种语言。

16:09

IT之家（RSS）

安克发布搭载自研"Thus"AI芯片的Liberty 5系列降噪耳机，1399元起

安克推出了Liberty 5 Pro及Pro Max降噪耳机，全系搭载其自研的“Thus”AI芯片。该芯片提供20种语音指令并支持AI会议助手等智能功能。耳机采用自适应主动降噪4.0系统，配合多麦克风及传感器，号称实现“全球通话最清晰”。产品定价1399元起，享受国补后到手价1070.23元起。此外，耳机单次续航6.5小时（开启降噪），总续航达28小时，并支持蓝牙6.1和IP55防水。

产品更新语音

15:09

IT之家（RSS）

科大讯飞智能体耳机 Air 发售：一键录音转文字、支持 AI 翻译，1051 元

产品更新端侧语音

12:09

IT之家（RSS）

努比亚总裁倪飞回应"用豆包订餐厅反被拒"：App 可能尚不支持实际预约功能，但豆包手机就可以

江苏镇江网友使用豆包App预约餐厅后到店被拒，引发对AI“幻觉”现象的讨论。豆包官方回应称其App暂不支持实际餐厅预约。努比亚总裁倪飞发布视频回应，指出豆包App可能尚不支持真实预约功能，但搭载豆包手机助手的努比亚M153（豆包手机）可执行此类操作。在演示中，该手机通过系统级集成，根据用户语音指令自动完成餐厅筛选与预订，体现了AI指令直达服务终点的能力。努比亚M153是与字节跳动合作的工程样机，此前曾限量发售。

端侧行业动态语音

08:00

HuggingFace Daily Papers（社区热门论文）

StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型，能在自动语音识别（ASR）、语音合成（TTS）和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间，通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习（RLHF）为核心机制，并配合专门的解码策略，将共享主干塑造成三种操作模式：ASR分支提升转录效率；TTS分支实现可控、富有表现力的合成；实时分支则达成低延迟、角色一致的对话。在标准基准测试中，StepAudio 2.5 在三项任务上均取得最优结果，证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音

00:00

The Verge：AI（RSS）

Spotify Studio的AI智能体为你打造每日定制播客

Spotify Labs推出一款名为Studio的独立AI应用，该应用可根据聊天指令为用户生成每日简报、播客与播放列表。其AI内容生成不仅基于用户的Spotify收听历史，还能整合所连接应用的信息，如邮箱、日历与备忘录。AI还能代为执行任务，包括研究话题、浏览网页、整理信息及协助完成事项。生成的内容可保存至Spotify资料库。该应用将以研究预览形式在未来几周内向年满18岁的用户推出。

智能体产品更新语音

5月21日

23:30

TechCrunch：AI（RSS）

Spotify 为播客添加 AI 驱动的问答与简报生成功能

Spotify 推出新的人工智能功能，支持播客听众根据个人提示生成每日或每周的内容简报。该功能通过 AI 分析用户输入的指令，自动整理并提炼相关播客节目的核心信息，形成结构化摘要，旨在提升用户获取信息的效率与个性化体验。

产品更新语音

23:30

TechCrunch：AI（RSS）

Spotify推出由ElevenLabs驱动的有声读物创作工具

Spotify将于今年晚些时候发布新的有声读物计划，该计划整合了ElevenLabs的语音合成技术，旨在为创作者提供更便捷的有声内容制作工具。这标志着Spotify正进一步深入有声读物市场，并利用AI技术降低内容生产门槛。

产品更新语音

15:59

IT之家（RSS）

腾讯会议"AI 同传"功能上线：可模仿用户音色、时延低于 3 秒

腾讯会议正式上线“AI 同传”功能。该功能无需插件或外接设备，每位参会者均可独立开启，支持模仿发言人音色，实现发言与翻译几乎同步，时延低于3秒。用户可调节同传与原声音量，并已与原有的文字转写、会中字幕功能打通，支持可听、可译、可见、可记的多维度跨语言会议体验。

产品更新多模态语音

13:43

公众号：京东JoyAI

京东数字人核心能力升级

京东数字人近日完成核心能力升级，从“会播、会答”的数字主播进化为面向直播经营全链路的智能增长中枢，帮助商家以更低成本打造接近真人头部达播效果的直播间。已累计服务超7万商家，2026年一季度开播量同比激增10倍。该产品为京东自研AI，曾获2024年吴文俊奖，实现长时长、自由态、高频互动，推出采销东哥、总裁、明星及IP数字人。

产品更新视频语音

07:56

IT之家（RSS）

微信鸿蒙版 App 8.0.17.39 正式版更新发布

微信鸿蒙版App发布了8.0.17.39正式版更新，当前安装量已超5565万次。本次更新主要增强了视频号功能，包括资料修改、新注册支持、播放旋转及直播选项增加等。同时优化了“听一听”模块，新增AI写歌与灰度测试的会员卡、跨平台文件传输等功能，并改进了聊天界面交互与朋友圈评论体验。

智能体产品更新多模态语音

07:56

IT之家（RSS）

小米汽车 OTA 1.16 开启全量推送，新增自定义萌宠上车、小爱陪伴等功能

小米汽车官方于5月21日宣布，其车机系统OTA 1.16版本已开启全量推送。本次更新重点新增了“自定义萌宠上车”、“小爱陪伴”、“模糊语义理解”以及“商圈地库车位级领航”等功能，旨在提升智能座舱的交互体验与辅助驾驶能力。车主可留意手机端或车机上的更新通知进行升级。

产品更新语音

5月20日

16:09

MarkTechPost（RSS）

阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash：实时多模态翻译模型支持60种语言

阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入，支持60种语言的输入和29种语言的语音输出，端到端延迟低至2.8秒。相比前代，新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解，以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中，性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务，采用 WebSocket 协议通信。

多模态模型发布语音

15:56

IT之家（RSS）

小米耳夹式耳机官宣兼容苹果生态，支持双设备智能连接、苹果物品查找

5月20日，小米手机官方宣布即将发布的小米耳夹式耳机将兼容苹果生态。新耳机支持语音唤醒超级小爱、智能翻译、双设备智能连接及苹果物品查找。产品单耳重量为5.5克，采用11mm大尺寸驱动单元，支持LHDC 5.0传输和Hi-Res金标认证，并具备3麦克风阵列与逆向声波防漏音技术。此前已有玄武岩黑、珍珠白、缎光金三款配色亮相。

产品更新语音

15:56

IT之家（RSS）

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种，输出音频语种从10种增加至29种。通过采用新的流式翻译技术，端到端字均延迟降低至2.8秒，同时支持实时音色克隆以保留说话人原声特征，并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。

多模态模型发布语音

13:53

公众号：通义实验室（千问）

Qwen3.5-LiveTranslate 发布：开口即同传

通义实验室（千问）发布 Qwen3.5-LiveTranslate，实现“开口即同传”——用户说话的同时即可获得翻译结果，支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音

08:55

IT之家（RSS）

华为 AI 眼镜钛丝半框光学镜方形款今日预售，2499 元

华为于5月20日宣布，AI眼镜钛丝半框光学镜方形款于当日10:08开启预售，售价2499元。该产品采用轻量化设计，镜架重35.5克，镜腿薄至6.25毫米，搭载华为自研AI芯片，支持小艺AI、支付宝看一下支付等功能。配备1/2.8英寸大底传感器与AI构图技术，可进行第一人称视角视频直播。综合续航达12小时，支持连续8小时语音通话。

产品更新端侧语音

06:55

IT之家（RSS）

苹果 iOS 27 新特性：系统级生成，自动给视频加字幕

产品更新端侧语音

06:55

IT之家（RSS）

苹果预告 iOS 27 辅助功能升级，集成 Apple Intelligence 支持自然语言操作

苹果宣布在 iOS 27、iPadOS 27 和 macOS 27 系统中，深度集成 Apple Intelligence 到无障碍功能。语音控制通过整合 AI，新增自然语言输入，用户可描述屏幕内容如“点开最佳餐厅指南”来操作设备，无需记忆按钮。VoiceOver 升级加入图像探索器，细致描述视觉内容；放大器支持口头指令；无障碍阅读器扩展适配复杂材料，并提供摘要与翻译功能。此外，Agentic 智能体能力将应用于新版 Siri，使其能理解屏幕内容并执行操作。

智能体产品更新语音

05:25

TechCrunch：AI（RSS）

Gmail 新增对话式语音搜索功能，亮相 Google IO 2026

在 Google IO 2026 大会上，Google 宣布扩展 Gmail 的 AI 收件箱功能。用户现在可以通过对话式语音搜索，直接与收件箱交互，使用 Gemini 快速查找和提取被埋没的电子邮件细节。该功能旨在简化邮件检索流程，提升操作效率。

Google 产品更新语音

04:04

HuggingFace Daily Papers（社区热门论文）

WavFlow：波形空间中的音频生成

WavFlow挑战了音频生成依赖潜空间压缩的范式，提出了一种直接在原始波形空间生成高保真音频的框架。为解决高维信号建模难题，方法将音频重塑为二维令牌网格并引入幅度提升，结合流匹配的直接预测实现稳定优化。通过自动化管线构建500万高质量三元组数据集，模型从零学习细粒度声学特征。实验显示，WavFlow在视频到音频（VGGSound）和文本到音频（AudioCaps）基准上达到与主流潜空间方法相当甚至更优的性能，证明了中间压缩并非必要，为多模态音频生成提供了更简洁可扩展的路径。

arXiv 多模态论文/研究语音

02:55

IT之家（RSS）

谷歌升级 Workspace：语音对话协作 AI 检索邮件、起草文档、整理笔记

谷歌在2026年I/O开发者大会上宣布升级Google Workspace，将Gmail、Docs、Keep等工具整合为支持自然语音交互的协作助手。核心新功能包括：可通过语音直接检索邮件内容的Gmail Live、支持口述起草与格式整理的Docs Live，以及能自动将零散想法整理成清单的Keep更新，旨在将办公流程从点击输入转向更自然的语音交互。此外，谷歌还推出了基于Nano Banana模型的独立图像编辑应用Google Pics，支持对图像进行精确的局部对象分割与修改。

Google 产品更新多模态语音

02:18

Google Blog：AI（RSS）

精选75

Google Workspace 推出全新创建方式与高效工作功能

Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能，并推出了一款名为 Google Pics 的全新设计工具。同时，其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验，通过集成更智能的工具和交互方式，帮助用户更便捷地完成多项任务。

Google 产品更新多模态语音

推荐理由：Google Workspace 直接植入了语音操作和设计工具 Pics，这波更新对办公效率很实在，做产品和运营的可以关注一下实际落地效果。

5月19日

23:18

Qwen：Blog Retrieval（API）

精选77

Qwen3.5-LiveTranslate：从声音到视觉，从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型，基于 Qwen3.5-Omni 架构，支持实时多模态翻译（音频、视频及视觉上下文）。语言覆盖大幅扩展：输入音频与输出文本从18种增至60种，输出音频从10种增至29种。采用 Readable Unit 技术，平均端到端每 token 延迟降至2.8秒，相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由：这个版本让同声传译从“能用”变成了“好用”，语言覆盖从 18 跃升 60，延迟压到 2.8 秒，加上视觉消除歧义，做国际业务和直播的人值得跟进。

21:53

IT之家（RSS）

影石推出旗舰无线麦克风 Mic Pro：搭载彩色墨水屏与三麦阵列，限时价 528 元起

影石今日发布旗舰级无线麦克风Mic Pro，首次搭载支持六色显示与自定义图案的彩色墨水屏，并首创三麦克风阵列，可实现四种指向拾音模式。该产品内置NPU模块以支持AI降噪，支持32-bit浮点内录。其单发标准零售价698元，即日起至6月21日享限时福利价528元起。Mic Pro具备最长10小时单次续航、400米无线传输距离及32GB内置存储，可直连影石多款相机，同时兼容手机与微单等设备。

产品更新语音

18:51

IT之家（RSS）

语音驱动人形机器人自主实时生成任意动作，宇树科技公布一镜到底视频

宇树科技于5月19日发布一镜到底演示视频，展示了其G1人形机器人通过语音指令自主实时生成任意动作的能力。该技术突破在于无需预设动作，由AI系统根据语音直接驱动机器人实时生成动作，实现了真正的语音控制与动作生成闭环。演示过程中存在少量延迟，动作流畅度有待优化。G1机器人于2024年发布，具备23至43个关节电机，体重约35kg，身高约127cm，并配备力控灵巧手。

产品更新具身智能语音

08:00

HuggingFace Daily Papers（社区热门论文）

Mega-ASR：通过扩展真实世界声学模拟实现野外语音识别

Mega-ASR是一个应对真实环境噪声与失真的统一语音识别框架，旨在突破现有模型面临的声学鲁棒性瓶颈。该研究发布了新的大规模复合数据集Voices-in-the-Wild-2M，涵盖7种经典声学现象与54种符合物理规律的复合干扰场景。通过声学-语义渐进式监督微调与双粒度词错误率门控策略优化进行训练，Mega-ASR在多个基准测试中显著超越先前系统：在VOiCES测试集上词错误率从54.01%降至45.69%，在NOIZEUS上从29.34%降至21.49%。在复杂组合声学场景下，其词错误率相对强基线进一步降低超过30%，为构建稳健的实景语音识别系统确立了可扩展的技术范式。

arXiv 论文/研究语音

07:04

Hacker News 热门（buzzing.cc 中文翻译）

语音人工智能系统易受隐蔽音频攻击

研究人员发现主流语音人工智能系统存在安全漏洞，容易受到隐藏式音频攻击。攻击者可在正常音频中嵌入人耳无法察觉的恶意指令，从而绕过安全检测，操控系统执行未授权操作。这项研究揭示了当前语音交互技术面临的新威胁。

安全/对齐语音

07:04

Hacker News 热门（buzzing.cc 中文翻译）

我们让人工智能来运营广播电台

美国人工智能研究机构Andon Labs开展了一项实验，让多个生成式人工智能系统共同运营三座全自动化广播电台。这些AI负责从节目策划、内容创作到音乐播放的全流程工作。实验数据显示，AI生成的内容获得了听众的积极反馈，项目在科技社区Hacker News上获得超过100点热度。这标志着AI在创意媒体自动化运营领域的实际应用探索。

产品更新语音

5月18日

20:45

IT之家（RSS）

理想 AI 眼镜 Livis OTA 推送 1.8.50 固件升级，全新 L9 首发指挥泊车

理想汽车为AI眼镜Livis推送1.8.50固件升级，理想同学App同步升级至2.5.0。本次OTA更新新增5项功能，优化11项功能。全新理想L9首发支持通过AI眼镜语音指挥泊车，新增哨兵模式高风险提醒、英文唤醒词、语音唤醒开关及三种唤醒反馈选择。同时优化了蓝牙电话拨打体验、运动中视觉问答清晰度和视频颜色饱和度。

产品更新多模态端侧语音

19:45

IT之家（RSS）

摩尔线程介绍 MTT AICUBE 智能硬件家庭场景：语音点播影片、智能体交互、畅玩手游…

摩尔线程发布了MTT AICUBE智能硬件，聚焦家庭应用场景。该产品内置小麦智能体，支持用户通过语音指令点播影片、规划旅行行程，并可连接手柄畅玩《王者荣耀》《原神》等手游。其依托全功能GPU提供低延迟操控与即插即用体验，旨在填补国产GPU在端侧安卓生态的应用空白，并为开发者提供高性价比测试平台，以推动国产GPU生态的规模化落地。

产品更新端侧语音

18:45

IT之家（RSS）

豆包 App 上线博物馆讲解功能

5月18日，豆包 App 在国际博物馆日上线“博物馆讲解”功能，用户点击对话框内按钮即可通过视频通话获得展品自动识别与个性化讲解。该功能支持轻声提问和“边走边听”模式，无需逐次交互。目前，豆包已合作覆盖中国国家博物馆、浦东美术馆等20余家博物馆和美术馆，并与其中5家机构达成深度合作，成为其重磅展览的官方AI讲解员。

产品更新多模态语音

18:00

Artificial Intelligence News（RSS）

亚马逊推出Alexa for Shopping，Rufus转为后台助手

亚马逊将其Rufus购物聊天机器人与Alexa+整合，正式推出全新购物助手Alexa for Shopping。该功能已部署至亚马逊应用、网站及Echo Show设备，可回答商品咨询、比价、追踪价格并设置购物提醒。助手还支持计划性购物操作及符合条件的自动购买服务。此次更新标志着Rufus从独立界面转为底层支持，进一步强化亚马逊在智能购物领域的生态整合。

产品更新语音

5月17日

23:44

IT之家（RSS）

古尔曼：全新苹果 Siri 支持自动删除聊天记录功能

据彭博社报道，苹果将在下月WWDC上发布全新的独立Siri应用测试版，并随iOS 27正式推出。新版Siri核心升级包括：采用谷歌Gemini大模型增强能力，但数据处理在苹果私有云端进行，以保护隐私；支持聊天记录自动删除功能，用户可设置30天、1年或永久保留；提供全新对话界面和短信样式的列表界面；新增全局快捷手势一键唤起。即使秋季正式推送，该版本仍将保留测试版标识，用户可选择退出测试体验。

产品更新语音

20:44

IT之家（RSS）

微信鸿蒙版 App 获 8.0.17.38 尝鲜升级，灰度支持与元宝聊天等功能

微信鸿蒙版 App 于5月17日在华为应用市场发布8.0.17.38尝鲜版本，测试期至6月16日。本次更新虽官方说明为修复问题，但实际新增多项功能，主要包括：视频号支持修改资料、新注册、双击点赞及直播选项扩展；听一听板块新增“歌曲制作”和“音乐空间”，支持AI写歌与翻唱；卡包灰度开放会员卡功能；并灰度支持与“元宝”聊天。此外，新版本还优化了二维码界面，并支持跨平台扫描传输文件。微信鸿蒙版安装量已突破5500万次。

产品更新语音

5月16日

18:42

IT之家（RSS）

小米卢伟冰：miclaw 不会取代小爱同学，未来会合体赋能

小米卢伟冰澄清，新AI交互测试产品miclaw不会取代小爱同学。未来miclaw将与超级小爱合体，将其能力融入小爱中，从而赋能并增强小爱的功能。用户界面仍为超级小爱，但后台将获得miclaw的支持，使其变得更聪明、更能干。Xiaomi miclaw基于小米MiMo大模型构建，是国内首款手机端AI智能体应用，已于3月6日上线并开启小范围封测。

端侧行业动态语音