OpenAI已完成对小型初创公司Weights.gg的收购,该公司此前以提供泰勒·斯威夫特、唐纳德·特朗普等名人AI声音克隆服务而知名。约六人规模的团队现已加入OpenAI。不过,OpenAI明确表示暂无计划将此项技术作为独立产品向公众发布,此次收购主要着眼于团队与技术整合。
OpenAI已完成对小型初创公司Weights.gg的收购,该公司此前以提供泰勒·斯威夫特、唐纳德·特朗普等名人AI声音克隆服务而知名。约六人规模的团队现已加入OpenAI。不过,OpenAI明确表示暂无计划将此项技术作为独立产品向公众发布,此次收购主要着眼于团队与技术整合。
OpenAI 于今年早些时候低调收购了AI声音克隆初创公司Weights.gg,获得了其全部知识产权和约六人团队。Weights.gg的平台允许用户创建AI语音翻唱和进行文本转语音,其社区模型库包含大量未经授权的名人声音模型。OpenAI自身已开发出仅需15秒音频即可克隆语音的Voice Engine技术,但因滥用担忧尚未广泛开放。公司正将语音技术整合进商业化产品,并调整业务以聚焦创收。此次收购也使其更深地卷入声音克隆技术引发的版权争议之中。
追觅发布了一款名为 D·NOTE 的 AI 录音名片,主打一键录音、转写和总结功能。产品重30克,支持145种语言的在线秒速转写,并内置超过1800个中文模板以智能匹配总结。它还具备说话人识别功能,最大工作距离5米,最多可识别35人。此外,该设备支持NFC传输电子名片,内置电池提供最长30小时续航。产品提供8GB和64GB两个存储版本,首发价分别为899元和999元。
EVA-Bench是一个端到端语音智能体评估框架,解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真,并提出了衡量任务完成度、音频保真度的EVA-A指标,以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集,采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现,无系统能在两项核心指标上同时超过0.5,峰值与可靠性能差距显著,且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。
针对多语言ASR模型微调中出现的“录音室偏差”问题,本研究发布了Vividh-ASR基准,涵盖印地语和马拉雅拉姆语的四个语音复杂度层级。通过控制学习率时机与课程顺序的实验发现,早期大参数更新可显著降低整体词错误率,而由难到易的课程顺序能进一步提升自发语音识别效果。据此提出的反向多阶段微调方法,使2.44亿参数的Whisper模型性能达到或超过传统微调的7.69亿参数模型。表征分析表明,有效调度将适应过程集中于解码器,同时保持了编码器的预训练声学结构。基准与模型均已开源。
针对SAM2在音频模态整合上的不足,本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征,生成稀疏和密集提示,并基于SAM2的特征金字塔在视觉层间传播音频线索,以强化跨模态影响。同时,引入音频引导对比损失函数,进一步对齐音频与视觉特征。实验表明,该方法在公开基准上显著提升了准确率,同时将对SAM2可提示分割交互效率的影响降至最低。
谷歌在Android活动中为Gboard输入法推出由Gemini驱动的AI语音听写功能Rambler。它能自动删除“呃”“啊”等填充词,并理解即时修正。其核心亮点是支持“代码切换”,可在同一句话中无缝识别多种语言且保持上下文连贯。谷歌强调,该功能不存储语音录音,结合设备端与云端处理以保障隐私。Rambler初期将于夏季在三星Galaxy和谷歌Pixel手机上推出,未来将扩展至更多Android设备。
vivo OriginOS 6 五月体验升级带来多项新功能。核心亮点是“小V修图”,用户可通过语音指令一句话完成照片编辑。相册功能大幅增强,新增多款色彩风格、可编辑水印、自定义集浏览页面布局以及文件夹日期分组视图。原子岛充电动画升级,可实时显示充电速度与电量。此外,小V写作新增剪切板快捷入口,竖屏锁定优化了旋转切换逻辑,智能车载支持切换手机版地图。其他升级还包括小V帮读入口、蓝心小V的问答样式与图文质量优化、新增多款原子组件模糊材质,以及网络与无障碍体验的改进。
小米汽车开始向第一代SU7推送OTA 1.16大版本更新,旨在对齐新款车型的功能体验。本次更新重点升级了辅助驾驶与智能座舱:辅助驾驶新增语音控车、收费站通行辅助、侧向避让辅助及针对异形障碍物的前向防碰撞辅助等功能;特别增加了疲劳分心下的应急停车辅助,触发后将自动减速停车并禁用辅助驾驶30分钟。智能座舱方面,超级小爱新增“小爱陪伴”和“AI智控”功能。此外,还引入了车主管理模式。多数新功能仅支持SU7 Pro和Max车型。
谷歌DeepMind发布了名为Magic Pointer的AI光标交互功能,旨在重构桌面端安卓系统的鼠标使用体验。其核心理念是让AI无缝融入用户当前工作流,通过识别光标位置和语音指令理解上下文,无需复制内容或输入完整提示词。该功能遵循四项原则:保持工作连续性、支持“边指边说”交互、理解“这个/那个”等自然指代、将屏幕像素转化为可操作实体。目前,谷歌已在AI Studio上线演示,并正将相关能力逐步集成至Chrome浏览器的Gemini中。
据报道,苹果 iOS 27 将对相机 App 进行重大升级,支持用户完全自定义界面控件布局。Siri 将重构为全天候智能体,集成于灵动岛,并新增可切换第三方 AI 服务的系统搜索功能。Safari 浏览器将更新起始页设计,天气应用新增集成信息面板。此外,多个系统应用的底部标签栏将调整,主屏幕编辑新增撤销/重做功能。该系统预计于2026年6月9日WWDC正式发布。
由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型,旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块,并行处理音频、视频和文本信息,专注于提升实时交互的流畅性与自然度。公司宣称,这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live,致力于推动语音助手向更自然、非问答式的对话体验演进,从而重新定义人机交互方式。
华为“鸿蒙智行”与“AITO”车控App于5月9日和12日更新至3.0.1.300版本,核心新增对HarmonyOS 6小艺语音控车的支持。此次更新扩展了语音控车功能,用户可通过小艺助手执行车辆解锁/上锁、打开/关闭后备箱以及针对纯电车型开启前备箱等指令,实现了更丰富的无接触控车方式。该功能此前已在HUAWEI WATCH 4系列手表上提供。
哈曼中国发布AI赋能车载K歌平台Sing Drive。该平台原生集成于整车信息娱乐与音响系统,采用低时延AI技术,可对任意来源的音乐进行实时人声消除与分离,打破了对预授权卡拉OK曲库的依赖。其结合车规级麦克风架构与专属数字信号处理,旨在提供稳定、低延迟的高品质车内K歌体验。平台支持灵活配置,可覆盖从基础伴唱到具备同步歌词和AI技术的全功能卡拉OK系统。
吉利银河life商城上架吉利Eva车载机器人,定价1099元并已开启预售。该产品采用圆角矩形设计,可安装于车机中控屏后方,通过小屏幕展示不同表情。它支持蓝牙BLE与WiFi双模双频连接,能与车机深度协同,一键触发上车欢迎、语音聆听等场景,并在充电、导航、座椅通风、开启智能驾驶时显示对应动画表情,还包含节日彩蛋。目前适配吉利银河星耀7的220km四驱星耀版和230km两驱探索+版两款车型。
Mureka正被企业用以替换Suno,一场AI音乐领域的迁移正在发生。背后涉及功能、成本或合规等方面的理由。
Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。
据彭博社记者马克・古尔曼透露,苹果计划在下一版macOS中进行小幅重新设计,以进一步完善液态玻璃设计语言,并优化Tahoe系统界面的细节。此次更新将微调系统全局透明度和阴影效果,旨在解决用户反馈的应用对比度不足问题。古尔曼指出,macOS 27版本将完整实现设计团队最初的液态玻璃构想。除界面优化外,新系统还将提升稳定性与运行效率,并进行代码精简,以提高设备性能与续航。新版Siri将是重点功能,依托AI平台升级,系统还将获得多项其他优化。
光帆科技宣布将于5月15日发售“光帆全感AI耳机”,该产品被称作行业首款带摄像头的AI耳机。耳机主打“全感知、主动式、个性化”,能通过环境感知主动提供提醒与服务,用户还可为AI选择不同人设,使其成为具有陪伴感的随身助理。硬件方面,单耳重11克,采用开放式耳挂设计,双侧配备200万像素双目摄像头用于实时识别物体与场景。耳机盒集成4G网络,支持脱离手机独立使用。续航上,耳机通话可达9小时,音乐播放15小时,配合充电盒总续航最高为90小时。
微信发布了Windows和Mac平台4.1.9版本,核心更新包括电脑端新增语音消息发送功能,用户可通过点击麦克风图标或按住Alt键录制并发送最长60秒的语音。截图工具加入滚动长截图功能,用户可截取完整纵向长页面。此外,输入默认表情后按右方向键可快速复制表情以连续发送,合并转发的文本消息支持右键一键全文翻译,网页打印功能也新增了预览支持。
华为Sound X5智能音箱正式开售,定价2199至2499元。新品主打全新“悦彰音质”,采用八单元三分频设计,支持36Hz低音。其核心升级在于搭载鸿蒙AI大模型,具备模糊语义理解和拟人连续对话能力。音箱支持鸿蒙智联全场景互联,提供智慧助眠、一碰传音、挥手控全屋等功能,并升级了可随声变化的幻彩灯效。共有鎏金、玄黑、云白三款配色。
阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime,现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪,动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等,其能力基于超万个原生人设生成的百万级特征矩阵训练,并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升,可应对从闲聊到专业面试等多种场景。据2026年4月评测,其主观对话体验与语音问答基准得分均领先于同期竞品。
OpenAI的实时通信服务因依赖WebRTC协议而面临延迟问题。分析显示,其服务往返时间中位数达88毫秒,远超QUIC等现代协议的个位数毫秒水平。这一技术选择导致交互响应显著延迟,成为性能瓶颈。文章指出,优化或替换现有WebRTC架构可大幅提升实时体验,对AI语音交互等场景至关重要。
WebRTC 的设计会在网络状况不佳时主动降级甚至丢弃语音提示数据包,以保持低延迟。这导致在语音会议中常出现失真的音频,因为其核心设计优先考虑实时对话的流畅性,不允许等待或重传数据包。然而,对于需要高准确性的AI语音交互场景,用户宁愿多等待200毫秒以确保提示完整无误,因为不完整的提示会导致低质量的AI回复。Discord的实践表明,在浏览器中甚至无法实现WebRTC音频包的重传,其实现被硬编码为必须满足实时性要求。
苹果 CarPlay 在 iOS 26.4 系统更新中接入了马斯克旗下的 Grok AI 模型,用户通过 iPhone 连接车辆即可在车机中控屏进行语音对话。继 ChatGPT 和 Perplexity 之后,Grok 成为 CarPlay 生态的新成员,交互以语音为核心,支持查看最近对话、新建会话,并新增临时静音和切换语音功能,提升驾驶中的使用便利性。
海信Vidda G11智能音频眼镜正式发布,首发价1299元起。产品主打轻量化设计,提供行业最轻的26.5克钛镜框和最细5.3毫米镜腿。音频方面首发搭载6麦克风空间拾音系统,配合自研AI算法,支持5米/秒抗风噪。续航表现突出,标称待机时间长达12天,实用续航47.2小时,并支持10分钟充电50%的快充功能。
OpenAI 发布三款集成于Realtime API的实时语音模型,旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中,GPT-Realtime-2具备GPT-5级推理能力,可在对话中进行推理、调用工具并处理打断,音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言,每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录,每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。
据报道,iOS 27系统将对Siri进行彻底重构,其底层将基于谷歌Gemini构建,交互模式将从指令式转变为类似ChatGPT的对话模式。新版Siri将与备忘录应用深度整合,用户可通过“把这个加到新备忘录”等语音指令,直接将AI生成的内容自动、完整地保存至备忘录,解决手动复制粘贴导致的流程繁琐和格式错乱问题。此外,Siri还能利用大语言模型能力,高效梳理信息并创建特定主题的备忘录。
据彭博社记者马克·古尔曼爆料,苹果正在开发两款智能穿戴设备。一款是尺寸类似AirTag的吊坠配件,可夹在衣物或作为项链佩戴,配备常开摄像头和麦克风,依赖连接iPhone及iOS 27版Siri进行语音交互与数据处理,无屏幕和投影仪,项目仍处早期,可能于2027年发布。另一款是计划在2026年底或2027年初推出的智能眼镜,内置摄像头、扬声器和麦克风,支持拍照、通话及Siri通知,并与Apple Intelligence整合优化导航等功能,采用自主设计的塑料镜框,但第一代不配备AR显示功能。
OpenAI发布了三款新型语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中,GPT-Realtime-2具备与GPT-5相匹配的实时推理能力,旨在实现更流畅、智能的实时对话交互。GPT-Realtime-Translate支持超过70种语言的实时翻译,而GPT-Realtime-Whisper则专注于实时语音转写功能。这一系列模型标志着OpenAI在实时音频处理和交互领域的重要进展,有望显著提升跨语言沟通和语音应用的体验。
OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。
绿联 X8 耳夹式蓝牙耳机现已发售,首发价399元。耳机采用专利C桥设计,内嵌钛镁合金记忆丝确保稳固佩戴。其搭载11mm双磁钛膜单元,支持Hi-Res/LDAC双金标认证与格莱美大师调音。核心亮点是首发VPU骨声纹降噪技术,结合4麦克风与2个VPU实现6麦通话降噪。此外,内置AI助手支持实时翻译与录音转写,配备蓝牙6.0与IP56防尘防水。电池续航方面,单次使用可达10小时,配合充电仓综合续航为46小时。
Parloa 推出基于 OpenAI 模型的语音驱动 AI 客服代理,具备可扩展性,支持企业设计、模拟并部署可靠的实时交互。该平台通过大语言模型技术,使客服系统能够处理自然语音对话,提升服务响应速度与准确性,帮助企业实现高效、个性化的客户沟通解决方案。
阿里千问在PC端上线AI语音输入功能,用户通过快捷键即可在各类桌面应用中直接使用。该功能不仅支持去除语气词、纠错和格式化整理口语内容,更能基于上下文智能回复,并可直接下达创作、问答、翻译等指令。其设计逻辑超越传统语音打字工具,旨在成为跨应用的AI任务调度中枢:用户通过按住快捷键启动语音输入模式,或双击切换至AI指令模式,可直接派发信息检索、文档生成等任务。该功能覆盖文档编辑、网页浏览、即时通讯等主流办公场景,无需切换客户端或打开额外窗口,目前所有用户可免费使用。
漫步者 Lolli5 ANC 智能触控大圆屏耳机已上市,售价539元,提供沙滩白、礁石黑、落日橙三种配色。其最大亮点是充电盒配备智能触控屏,可显示时间并控制音乐、拍照。耳机支持50dB深度、5kHz宽度的ANC自适应降噪和3+3麦智能通话降噪,拥有双Hi-Res金标认证。采用13mm双复合LCP液晶振膜单元,支持蓝牙6.0、双设备连接和IP55级防尘防水。此外,还集成了豆包与DeepSeek双脑问答、会议录音及App实时互译等智能功能。