苹果宣布WWDC 2026将于北京时间6月9日凌晨1点开幕,并已注册全新子域名genai.apple.com,预示其在生成式AI领域的新动作。新版iOS 27等系统将集成大量Apple Intelligence功能,包括支持连续对话的Siri独立应用、视频实时字幕生成、自然语言语音控制以及扫描提取信息等智能工具。
苹果宣布WWDC 2026将于北京时间6月9日凌晨1点开幕,并已注册全新子域名genai.apple.com,预示其在生成式AI领域的新动作。新版iOS 27等系统将集成大量Apple Intelligence功能,包括支持连续对话的Siri独立应用、视频实时字幕生成、自然语言语音控制以及扫描提取信息等智能工具。
人们运用人工智能技术分析驾驶舱录音的频谱图图像,成功重建了已故飞行员的声音。这一行为迫使美国国家运输安全委员会(NTSB)临时封锁其文档系统的访问权限,以应对潜在的安全风险。该事件展示了AI在音频修复领域的实际应用,同时突显了数据管理、隐私保护及系统完整性方面的挑战。
网友利用语音合成技术,成功模拟并重现了已故飞行员的声音。此举挑战了美国国家运输安全委员会(NTSB)禁止公开驾驶舱录音的法律规定。变通手段规避了该禁令,引发监管机构对音频数据滥用与伦理问题的关注。
OPPO Enco Air5s 耳机将于5月25日18:00正式发布。该新品重量仅3.9克,提供暗夜黑、星光紫、月光白三种配色,并支持旗舰级人声降噪算法与三麦AI通话降噪。耳机搭载12mm高解析巨形动圈单元,具备自适应听感优化与全设备空间音效,并号称“安卓苹果都好用”。功能上支持遥控拍照、AI翻译、滑动调节音量及跨设备双连等。
网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中,多模态模型(27B参数)专注于教育场景,在处理高难度视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率为81.4%。该模型通过思维链优化,将输出长度压缩43.2%,有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆,3秒内即可完成零样本复制,准确度超97%,并支持包括中、英、日、韩在内的14种语言。
安克推出了Liberty 5 Pro及Pro Max降噪耳机,全系搭载其自研的“Thus”AI芯片。该芯片提供20种语音指令并支持AI会议助手等智能功能。耳机采用自适应主动降噪4.0系统,配合多麦克风及传感器,号称实现“全球通话最清晰”。产品定价1399元起,享受国补后到手价1070.23元起。此外,耳机单次续航6.5小时(开启降噪),总续航达28小时,并支持蓝牙6.1和IP55防水。
江苏镇江网友使用豆包App预约餐厅后到店被拒,引发对AI“幻觉”现象的讨论。豆包官方回应称其App暂不支持实际餐厅预约。努比亚总裁倪飞发布视频回应,指出豆包App可能尚不支持真实预约功能,但搭载豆包手机助手的努比亚M153(豆包手机)可执行此类操作。在演示中,该手机通过系统级集成,根据用户语音指令自动完成餐厅筛选与预订,体现了AI指令直达服务终点的能力。努比亚M153是与字节跳动合作的工程样机,此前曾限量发售。
StepAudio 2.5 是一个统一的音频-语言基础模型,能在自动语音识别(ASR)、语音合成(TTS)和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间,通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习(RLHF)为核心机制,并配合专门的解码策略,将共享主干塑造成三种操作模式:ASR分支提升转录效率;TTS分支实现可控、富有表现力的合成;实时分支则达成低延迟、角色一致的对话。在标准基准测试中,StepAudio 2.5 在三项任务上均取得最优结果,证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。
Spotify Labs推出一款名为Studio的独立AI应用,该应用可根据聊天指令为用户生成每日简报、播客与播放列表。其AI内容生成不仅基于用户的Spotify收听历史,还能整合所连接应用的信息,如邮箱、日历与备忘录。AI还能代为执行任务,包括研究话题、浏览网页、整理信息及协助完成事项。生成的内容可保存至Spotify资料库。该应用将以研究预览形式在未来几周内向年满18岁的用户推出。
Spotify 推出新的人工智能功能,支持播客听众根据个人提示生成每日或每周的内容简报。该功能通过 AI 分析用户输入的指令,自动整理并提炼相关播客节目的核心信息,形成结构化摘要,旨在提升用户获取信息的效率与个性化体验。
Spotify将于今年晚些时候发布新的有声读物计划,该计划整合了ElevenLabs的语音合成技术,旨在为创作者提供更便捷的有声内容制作工具。这标志着Spotify正进一步深入有声读物市场,并利用AI技术降低内容生产门槛。
腾讯会议正式上线“AI 同传”功能。该功能无需插件或外接设备,每位参会者均可独立开启,支持模仿发言人音色,实现发言与翻译几乎同步,时延低于3秒。用户可调节同传与原声音量,并已与原有的文字转写、会中字幕功能打通,支持可听、可译、可见、可记的多维度跨语言会议体验。
京东数字人近日完成核心能力升级,从“会播、会答”的数字主播进化为面向直播经营全链路的智能增长中枢,帮助商家以更低成本打造接近真人头部达播效果的直播间。已累计服务超7万商家,2026年一季度开播量同比激增10倍。该产品为京东自研AI,曾获2024年吴文俊奖,实现长时长、自由态、高频互动,推出采销东哥、总裁、明星及IP数字人。
微信鸿蒙版App发布了8.0.17.39正式版更新,当前安装量已超5565万次。本次更新主要增强了视频号功能,包括资料修改、新注册支持、播放旋转及直播选项增加等。同时优化了“听一听”模块,新增AI写歌与灰度测试的会员卡、跨平台文件传输等功能,并改进了聊天界面交互与朋友圈评论体验。
小米汽车官方于5月21日宣布,其车机系统OTA 1.16版本已开启全量推送。本次更新重点新增了“自定义萌宠上车”、“小爱陪伴”、“模糊语义理解”以及“商圈地库车位级领航”等功能,旨在提升智能座舱的交互体验与辅助驾驶能力。车主可留意手机端或车机上的更新通知进行升级。
阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入,支持60种语言的输入和29种语言的语音输出,端到端延迟低至2.8秒。相比前代,新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解,以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中,性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务,采用 WebSocket 协议通信。
5月20日,小米手机官方宣布即将发布的小米耳夹式耳机将兼容苹果生态。新耳机支持语音唤醒超级小爱、智能翻译、双设备智能连接及苹果物品查找。产品单耳重量为5.5克,采用11mm大尺寸驱动单元,支持LHDC 5.0传输和Hi-Res金标认证,并具备3麦克风阵列与逆向声波防漏音技术。此前已有玄武岩黑、珍珠白、缎光金三款配色亮相。
阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种,输出音频语种从10种增加至29种。通过采用新的流式翻译技术,端到端字均延迟降低至2.8秒,同时支持实时音色克隆以保留说话人原声特征,并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。
通义实验室(千问)发布 Qwen3.5-LiveTranslate,实现“开口即同传”——用户说话的同时即可获得翻译结果,支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。
华为于5月20日宣布,AI眼镜钛丝半框光学镜方形款于当日10:08开启预售,售价2499元。该产品采用轻量化设计,镜架重35.5克,镜腿薄至6.25毫米,搭载华为自研AI芯片,支持小艺AI、支付宝看一下支付等功能。配备1/2.8英寸大底传感器与AI构图技术,可进行第一人称视角视频直播。综合续航达12小时,支持连续8小时语音通话。
苹果宣布在 iOS 27、iPadOS 27 和 macOS 27 系统中,深度集成 Apple Intelligence 到无障碍功能。语音控制通过整合 AI,新增自然语言输入,用户可描述屏幕内容如“点开最佳餐厅指南”来操作设备,无需记忆按钮。VoiceOver 升级加入图像探索器,细致描述视觉内容;放大器支持口头指令;无障碍阅读器扩展适配复杂材料,并提供摘要与翻译功能。此外,Agentic 智能体能力将应用于新版 Siri,使其能理解屏幕内容并执行操作。
在 Google IO 2026 大会上,Google 宣布扩展 Gmail 的 AI 收件箱功能。用户现在可以通过对话式语音搜索,直接与收件箱交互,使用 Gemini 快速查找和提取被埋没的电子邮件细节。该功能旨在简化邮件检索流程,提升操作效率。
WavFlow挑战了音频生成依赖潜空间压缩的范式,提出了一种直接在原始波形空间生成高保真音频的框架。为解决高维信号建模难题,方法将音频重塑为二维令牌网格并引入幅度提升,结合流匹配的直接预测实现稳定优化。通过自动化管线构建500万高质量三元组数据集,模型从零学习细粒度声学特征。实验显示,WavFlow在视频到音频(VGGSound)和文本到音频(AudioCaps)基准上达到与主流潜空间方法相当甚至更优的性能,证明了中间压缩并非必要,为多模态音频生成提供了更简洁可扩展的路径。
谷歌在2026年I/O开发者大会上宣布升级Google Workspace,将Gmail、Docs、Keep等工具整合为支持自然语音交互的协作助手。核心新功能包括:可通过语音直接检索邮件内容的Gmail Live、支持口述起草与格式整理的Docs Live,以及能自动将零散想法整理成清单的Keep更新,旨在将办公流程从点击输入转向更自然的语音交互。此外,谷歌还推出了基于Nano Banana模型的独立图像编辑应用Google Pics,支持对图像进行精确的局部对象分割与修改。
Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能,并推出了一款名为 Google Pics 的全新设计工具。同时,其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验,通过集成更智能的工具和交互方式,帮助用户更便捷地完成多项任务。
Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型,基于 Qwen3.5-Omni 架构,支持实时多模态翻译(音频、视频及视觉上下文)。语言覆盖大幅扩展:输入音频与输出文本从18种增至60种,输出音频从10种增至29种。采用 Readable Unit 技术,平均端到端每 token 延迟降至2.8秒,相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。
影石今日发布旗舰级无线麦克风Mic Pro,首次搭载支持六色显示与自定义图案的彩色墨水屏,并首创三麦克风阵列,可实现四种指向拾音模式。该产品内置NPU模块以支持AI降噪,支持32-bit浮点内录。其单发标准零售价698元,即日起至6月21日享限时福利价528元起。Mic Pro具备最长10小时单次续航、400米无线传输距离及32GB内置存储,可直连影石多款相机,同时兼容手机与微单等设备。
宇树科技于5月19日发布一镜到底演示视频,展示了其G1人形机器人通过语音指令自主实时生成任意动作的能力。该技术突破在于无需预设动作,由AI系统根据语音直接驱动机器人实时生成动作,实现了真正的语音控制与动作生成闭环。演示过程中存在少量延迟,动作流畅度有待优化。G1机器人于2024年发布,具备23至43个关节电机,体重约35kg,身高约127cm,并配备力控灵巧手。
Mega-ASR是一个应对真实环境噪声与失真的统一语音识别框架,旨在突破现有模型面临的声学鲁棒性瓶颈。该研究发布了新的大规模复合数据集Voices-in-the-Wild-2M,涵盖7种经典声学现象与54种符合物理规律的复合干扰场景。通过声学-语义渐进式监督微调与双粒度词错误率门控策略优化进行训练,Mega-ASR在多个基准测试中显著超越先前系统:在VOiCES测试集上词错误率从54.01%降至45.69%,在NOIZEUS上从29.34%降至21.49%。在复杂组合声学场景下,其词错误率相对强基线进一步降低超过30%,为构建稳健的实景语音识别系统确立了可扩展的技术范式。
研究人员发现主流语音人工智能系统存在安全漏洞,容易受到隐藏式音频攻击。攻击者可在正常音频中嵌入人耳无法察觉的恶意指令,从而绕过安全检测,操控系统执行未授权操作。这项研究揭示了当前语音交互技术面临的新威胁。
美国人工智能研究机构Andon Labs开展了一项实验,让多个生成式人工智能系统共同运营三座全自动化广播电台。这些AI负责从节目策划、内容创作到音乐播放的全流程工作。实验数据显示,AI生成的内容获得了听众的积极反馈,项目在科技社区Hacker News上获得超过100点热度。这标志着AI在创意媒体自动化运营领域的实际应用探索。
理想汽车为AI眼镜Livis推送1.8.50固件升级,理想同学App同步升级至2.5.0。本次OTA更新新增5项功能,优化11项功能。全新理想L9首发支持通过AI眼镜语音指挥泊车,新增哨兵模式高风险提醒、英文唤醒词、语音唤醒开关及三种唤醒反馈选择。同时优化了蓝牙电话拨打体验、运动中视觉问答清晰度和视频颜色饱和度。
摩尔线程发布了MTT AICUBE智能硬件,聚焦家庭应用场景。该产品内置小麦智能体,支持用户通过语音指令点播影片、规划旅行行程,并可连接手柄畅玩《王者荣耀》《原神》等手游。其依托全功能GPU提供低延迟操控与即插即用体验,旨在填补国产GPU在端侧安卓生态的应用空白,并为开发者提供高性价比测试平台,以推动国产GPU生态的规模化落地。
5月18日,豆包 App 在国际博物馆日上线“博物馆讲解”功能,用户点击对话框内按钮即可通过视频通话获得展品自动识别与个性化讲解。该功能支持轻声提问和“边走边听”模式,无需逐次交互。目前,豆包已合作覆盖中国国家博物馆、浦东美术馆等20余家博物馆和美术馆,并与其中5家机构达成深度合作,成为其重磅展览的官方AI讲解员。
亚马逊将其Rufus购物聊天机器人与Alexa+整合,正式推出全新购物助手Alexa for Shopping。该功能已部署至亚马逊应用、网站及Echo Show设备,可回答商品咨询、比价、追踪价格并设置购物提醒。助手还支持计划性购物操作及符合条件的自动购买服务。此次更新标志着Rufus从独立界面转为底层支持,进一步强化亚马逊在智能购物领域的生态整合。
据彭博社报道,苹果将在下月WWDC上发布全新的独立Siri应用测试版,并随iOS 27正式推出。新版Siri核心升级包括:采用谷歌Gemini大模型增强能力,但数据处理在苹果私有云端进行,以保护隐私;支持聊天记录自动删除功能,用户可设置30天、1年或永久保留;提供全新对话界面和短信样式的列表界面;新增全局快捷手势一键唤起。即使秋季正式推送,该版本仍将保留测试版标识,用户可选择退出测试体验。
微信鸿蒙版 App 于5月17日在华为应用市场发布8.0.17.38尝鲜版本,测试期至6月16日。本次更新虽官方说明为修复问题,但实际新增多项功能,主要包括:视频号支持修改资料、新注册、双击点赞及直播选项扩展;听一听板块新增“歌曲制作”和“音乐空间”,支持AI写歌与翻唱;卡包灰度开放会员卡功能;并灰度支持与“元宝”聊天。此外,新版本还优化了二维码界面,并支持跨平台扫描传输文件。微信鸿蒙版安装量已突破5500万次。
小米卢伟冰澄清,新AI交互测试产品miclaw不会取代小爱同学。未来miclaw将与超级小爱合体,将其能力融入小爱中,从而赋能并增强小爱的功能。用户界面仍为超级小爱,但后台将获得miclaw的支持,使其变得更聪明、更能干。Xiaomi miclaw基于小米MiMo大模型构建,是国内首款手机端AI智能体应用,已于3月6日上线并开启小范围封测。