Uber 宣布在其全球实时交通服务平台中集成 OpenAI 技术,用于驱动 AI 助手与语音功能。新功能旨在帮助司机更智能地规划接单以提升收入,同时让乘客能够更快完成叫车流程。该技术将应用于优化实时供需匹配与用户体验。
Uber 宣布在其全球实时交通服务平台中集成 OpenAI 技术,用于驱动 AI 助手与语音功能。新功能旨在帮助司机更智能地规划接单以提升收入,同时让乘客能够更快完成叫车流程。该技术将应用于优化实时供需匹配与用户体验。
加拿大电信公司Telus正在使用人工智能技术实时调整客服代表的语音口音。该系统旨在改善通话清晰度与客户体验,通过AI处理使客服代表的语音更易于被客户理解。这一举措引发了关于技术伦理、文化认同及员工自主权的讨论,部分人士担忧其可能隐含的偏见或对多元性的压制。目前该技术已在部分客服通话中进行测试与应用。
OpenAI通过优化推理堆栈,将其语音AI模型Whisper的实时转录延迟从2.8秒大幅降低至232毫秒。核心改进包括引入流式编码器、改进的解码策略与缓存机制,并采用分块处理技术。这些优化使系统能在用户说话结束后的极短时间内完成转录,为大规模部署低延迟语音交互应用提供了关键技术支撑。
OpenAI 重建了其 WebRTC 技术栈,以支持实时语音 AI 服务。新系统实现了低延迟、全球规模扩展和无缝的对话轮转。此次重构旨在为 ChatGPT 的语音模式等产品提供更流畅、更自然的实时语音交互体验,解决了大规模部署时面临的延迟与稳定性挑战。
现有语音大模型仅支持口语回复,限制代码生成等文本能力。研究人员提出Listen-Write-Speak (LWS)范式,单个自回归LLM在共享因果注意力上下文中持续聆听用户音频,以可见自由文本作为主要输出,并并行生成实时语音。该行为通过Token Schema实现,无需修改架构,由两阶段数据流水线学习。LWS在Full-Duplex-Bench展现强全双工交互,VoiceBench AlpacaEval得4.72,写作-语音一致性92.6%,在URO-Bench上持续优于消融模型。代码与数据集已开源。
针对数字、地址、品牌名等细分领域的印度语言自动语音识别,现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统,以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后,在泰卢固语测试集上的实体命中率提升至0.473,较最佳开源模型提升17倍,较商业系统提升3倍,同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效,并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。
xAI 为开发者推出“Custom Voices”功能,允许克隆用户声音用于AI应用。该功能基于近期发布的 Grok 语音转文本和文本转语音 API 构建,仅需一分钟的语音样本即可生成可用的声音克隆。此举扩展了 Grok 语音模型的应用场景,为开发者提供了定制化语音合成的新工具。
据报道,苹果将在WWDC 26发布macOS 27系统,首个开发者测试版于演讲后立即提供。主要新功能包括:Siri将升级为独立应用,支持查看会话历史,操作逻辑类似ChatGPT,个性化功能也将扩展至Mac;系统将为预计2027年初发布的触屏版MacBook Pro开发专属触控界面,优化手指交互体验;此外,该系统将专注于稳定性与性能改进。macOS 27将仅支持M1或更高芯片的Mac,彻底抛弃Intel平台,同时不再兼容使用AFP协议的旧存储设备如AirPort Time Capsule。
OpenRouter 新增两个 API 端点,分别提供语音合成(text-to-speech)和音频转录(transcription)功能,用户可通过单一接口跨多个提供商调用。
OpenRouter 现已上线文本转语音和音频转录功能。两个新端点提供跨多家提供商的语音合成与音频转录能力,统一API接入。
OpenRouter 正式上线文本转语音和音频转录功能。平台通过两个新的 API 端点,集成了多家供应商的语音合成与音频转录服务。用户现在可以统一调用单一 API,便捷访问多提供商的高质量语音生成与语音转文本能力,无需再为不同服务商单独集成。这简化了开发流程,为应用添加语音交互与内容转录功能提供了更高效的一站式解决方案。
安克将于5月22日发布其首款神经网络存算一体AI音频芯片“ANKER Thus”。该芯片采用CPU与存储合一的架构,旨在提升算力,以实现端侧实时音频AI功能。同期,安克将推出搭载此芯片的旗舰耳机产品。根据海报信息,该耳机为入耳式设计,充电盒外观圆润,且正面可能配备一块屏幕,具体规格尚未公布。
xAI于2026年4月30日推出自定义语音和语音库功能。用户可通过约1分钟录音快速克隆声音,并在Grok文本转语音及语音代理API中即时使用,整个过程仅需2分钟。语音库提供集中管理平台,内置语音已超80种,支持28种语言。为确保安全,系统采用两阶段验证,包括实时转录匹配和说话人嵌入确认,以防止未经授权的克隆。这些功能适用于品牌代理、内容创作、无障碍辅助、多语言团队及游戏娱乐等多种场景,且使用自定义语音无需额外费用。
研究提出LASE(语言对抗性说话人编码器),以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头,结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练,使编码消除语言信息的同时保留说话人特征。实验表明,在1118个跨文字语音对上,LASE将身份漂移降至接近零,并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中,LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。
DataCenter.FM是一款以“AI泡沫”之声为特色的背景噪音应用。该应用将数据中心服务器风扇的持续嗡鸣、硬盘读写声以及网络设备指示灯闪烁的轻微滴答声混合,生成了模拟AI热潮下数据中心繁忙运转的环境音。这款应用在Hacker News上获得了103个投票,反映了科技社区对当前AI投资与基础设施扩张热潮的一种趣味性听觉呈现。
钉钉正式发售DingTalk A1 Pro“充电宝版录音卡”,定价1299元。该产品采用卡片式设计,厚度仅6.4mm,内置行业首发的MEMS指向麦克风,拾音距离可达10米。其配备2980mAh电池,支持连续录音180小时、待机180天,并可作为磁吸移动电源为手机充电。购买用户可获6个月专属权益,每月享有1500分钟语音转文字服务。
三星智能眼镜 Galaxy Glasses 产品信息近日曝光。该眼镜外观类似太阳镜,重量约50克,搭载高通骁龙AR1处理器和1200万像素索尼IMX681传感器,支持Wi-Fi与蓝牙5.3,内置155mAh电池。设备一侧设有摄像头,另一侧有LED指示灯,并集成麦克风、扬声器及触控区,支持快速配对与电量查询。据悉,它未配备内置显示屏,主打音频与AI体验,预计运行Android XR系统并集成Gemini AI助手,可通过语音唤醒。
当前多模态大语言模型在交互范式上存在瓶颈,感知与响应分离且缺乏主动性。MiniCPM-o 4.5 通过 Omni-Flow 统一流式框架,将多模态输入输出对齐到共享时间轴,实现实时全双工全模态交互,支持同时感知与响应,并能基于对动态场景的连续理解主动发出提醒或评论。该模型参数量为 90 亿,在视觉语言能力上接近 Gemini 2.5 Flash,在全模态理解上超越 Qwen3-Omni-30B-A3B,且语音生成更优、计算效率显著更高。得益于高效的架构设计和推理优化,模型可在内存小于 12GB 的边缘设备上实现实时全双工全模态交互。
苹果公司将于5月4日至8日在西班牙巴塞罗那举行的ICASSP 2026上展示其最新研究成果,并再次赞助该会议。本届会议汇聚了专注于信号处理及其应用的科学与工业研究界人士。苹果的参与凸显了其在相关前沿技术领域的持续投入。
据报道,苹果公司已内部搁置新款Vision Pro头显的研发,原团队重心转向Siri和AI智能眼镜项目。Vision Pro自发布以来市场反应冷淡,总销量约60万台且退货比例异常偏高。尽管在2025年10月其升级至M5芯片并改进了头带,但3499美元的高价和超过1.3磅的机身重量仍影响佩戴体验,未能扭转需求。苹果已停止新款硬件开发工作,但会继续维护和更新visionOS系统。
当前大型音频语言模型普遍依赖基于验证奖励的强化学习范式来驱动听觉推理,但这陷入了“可验证奖励陷阱”——模型为追求孤立文本标签的正确性,牺牲了声学细微差别和对话自然度,导致交互机械、沉浸感差。Step-Audio-R1.5 通过转向基于人类反馈的强化学习实现了范式突破。评估表明,它在保持强大分析推理能力的同时,显著提升了交互体验,特别是在长轮对话中改善了韵律自然性与情感连续性,重新定义了深度沉浸式语音对话的边界。
谷歌翻译迎来20周年,目前支持近250种语言和逾6万个语言对,覆盖全球约95%人口。官方推出发音练习功能,在安卓版应用中利用AI分析用户语音并提供即时反馈,帮助改善发音,该功能已在美国和印度上线,支持英语、西班牙语和印地语。数据显示,谷歌翻译最常用短语为“谢谢”,其他热门查询包括“你好吗?”、“我爱你”、“你好”和“请”。
据报道,苹果将在 iOS 27 系统中全面重构 Siri,旨在通过深度集成将其打造为用户的全天候智能伴侣,显著增强 AirPods 的交互体验。新版 Siri 将采用类似 ChatGPT 的对话式交互,利用大语言模型理解上下文与用户意图,并能深度控制系统及应用,自动执行多步骤任务,同时支持接入第三方 AI 平台。此次升级致力于提供无缝、连续的对话体验,解决当前 Siri 与第三方 AI 交互生硬、割裂的问题,让用户通过 AirPods 即可便捷唤醒和使用更智能的语音助手。
微软开源了前沿语音人工智能项目VibeVoice,该项目已在GitHub上发布。VibeVoice能够生成高度自然、富有表现力的语音,支持多种语言和情感语调,显著提升了合成语音的真实感与感染力。其开源策略旨在推动语音AI领域的协作与创新,降低开发门槛。该项目在技术社区获得关注,在Hacker News上获得了103个投票点数。
企业微信灰度上线“记录面聊”功能,该功能利用声纹识别技术自动分辨不同发言人并快速记录讨论内容,AI会在讨论后自动总结要点、列出待办事项并@对应负责人,记录对所有参与同事公开共享。此次更新随企业微信5.0.8版本一同发布,该版本还新增了智能表格、智能文档和“贴表情”快速回复等功能。智能表格可打通微信生态数据自动汇总,并加入AI字段“技能卡片”;智能文档支持轻量化排版并一键发布为“轻网页”。
研究团队提出PSP(音素替换剖面),一种用于量化评估印度语种TTS系统口音的可解释基准方法。PSP将口音分解为六个互补维度:卷舌音坍缩率、送气音保真度、元音长度保真度、泰米尔语卷舌近音保真度、Frèchet音频距离以及韵律特征散度。通过在印地语、泰卢固语和泰米尔语上测试五个TTS系统,研究发现:卷舌音错误率随音系难度递增;PSP评估结果与传统可懂度指标排序存在差异;没有单一系统在所有维度上均表现最优。团队同时开源了包括母语参考中心向量、评分代码在内的一系列资源。
Praxy Voice提出一种无需商业训练数据、不重新训练声学解码器,即可将非印度语系基础TTS模型提升至商业级印度语输出质量的方法。其结合三项技术:BUPS统一音素空间将七种印度文字罗马化;仅在文本标记预测器上训练LoRA适配器;以及通过同语言参考音频与特定采样配置实现语音提示恢复。在泰卢固语、泰米尔语和印地语的评估中,该系统在音韵指标上达到或略微超越商业基线。针对语码混合场景,额外引入IndicF5分支,显著降低了混合语句的错误率。项目已开源相关资源。
微软于2026年1月发布开源语音转文本模型VibeVoice,采用MIT许可证并内置说话人日志功能。社区提供的4位量化MLX版本约5.71GB。实测在128GB内存的M5 Max MacBook Pro上,使用mlx-audio工具处理一段60分钟音频耗时约8分45秒,峰值内存占用达30.44GB。模型默认支持最长25分钟音频,通过调整参数可处理至多1小时音频,输出为带时间戳和说话人ID的JSON格式,便于用Datasette Lite浏览分析。
安克与飞书合作推出的“AI录音豆”智能录音硬件新增64GB存储版本,定价999元。该产品仅重10克,搭配充电舱总重约48克,采用豆状设计,内置双MEMS麦克风阵列,支持蓝牙与Wi-Fi传输。其主打无感佩戴和随时录音,可通过衣领夹或磁吸配件随身固定,单次续航8小时,配合充电盒可达32小时,适用于会议、拜访等移动场景。
近日,阶跃与腾讯云达成战略合作,双方将围绕智能座舱 Agent 展开深度共创,打造全新的智能座舱 Agent 助手。该助手以语音为入口,实现免唤醒、连续对话、情绪识别的超自然交互,并能基于用户情绪、驾驶状态、环境和历史信息秒懂意图,精准推荐腾讯系音乐、视频、地图等内容与应用生态。同时,产品打通腾讯在支付、地图、出行服务等领域的生态接口,从需求直达交易闭环,为用户提供一站式服务。
小米发布全链路语音大模型系列MiMo-V2.5,包含TTS(语音合成)与ASR(语音识别)两大核心。TTS系列包含三款模型:基础版内置多款音色并支持精细控制;VoiceDesign版可一句话生成新音色;VoiceClone版能通过少量样本高保真复刻音色。三者均支持通过自然语言指令和音频标签精细调度声音表现,已在小米MiMo开放平台限时免费。ASR模型已正式开源,在中英双语、方言、强噪音及多人对话等复杂场景下的识别性能达到业界领先水平。
本研究提出一个结合语言控制与感知标注的多语言TTS受控多维配对评估框架。针对10种印度语言的5000余条原生及语码混合句子,对7个前沿TTS系统进行了评估,收集了超过1900名母语评分者提供的12万对以上比较数据。评分者除整体偏好外,还从可懂度、表现力、音质、生动性、噪声和幻觉六个感知维度进行判断。研究通过Bradley-Terry模型构建多语言排行榜,利用SHAP分析解读人类偏好,并分析了排行榜的可靠性及各模型在不同感知维度上的优势与权衡。
多邻国向免费用户开放此前仅限付费订阅的高级语言学习内容,涵盖中英日韩等九种语言。该内容对应CEFR B2水平(Duolingo Score约129分),包含"高级故事"和播客式音频DuoRadio模块,帮助用户在真实语境中训练复杂情境表达,支持网页及移动端访问。用户可借此提升求职面试、海外留学等场景的语言能力,分数还可直接添加至LinkedIn档案。
苹果Siri改造负责人迈克·洛克威尔考虑离职或转任顾问。这位Vision Pro功臣因接管AI版Siri后需向软件主管费德里吉汇报而心生落差,加之Vision Pro市场表现不佳,职业前景不明朗。尽管萌生去意,预计仍将完成Siri升级项目。与此同时,硬件高管Kate Bergeron也因晋升受阻而沮丧。苹果面临特努斯接任CEO前的核心团队稳定难题。
特斯拉车机语音大模型服务于4月20日在上海市完成备案,备案单位为特斯拉(上海)有限公司。至此,上海市累计已完成158款生成式人工智能服务备案。根据规定,已上线的生成式人工智能应用需在显著位置公示备案情况并添加生成合成内容标识。此前,特斯拉xBot客户服务已于去年11月成为全国首批获批上线的外企大模型产品。
大众汽车将于今年下半年为中国市场车型引入AI语音助手,整合腾讯、阿里巴巴、百度等技术,采用本地化大语言模型并在车机端完成运算,无需依赖云端。与此同时,大众与小鹏汽车联合开发的首款车型"与众08"已正式上市,售价22.99万-28.99万元,搭载800伏高压超快充平台、高通8295P芯片,具备1500TOPs智驾算力,CLTC续航最高超700公里。
苹果公司宣布,蒂姆·库克将于2026年9月1日起转任董事会执行董事长,硬件工程高级副总裁约翰·特努斯接任首席执行官。据彭博社透露,此次换帅意在借助特努斯的年龄优势,重拾乔布斯时代的决断力,推动苹果重返产品创新前沿。特努斯将集中核心决策权,并主导首款可折叠iPhone发布及Siri革新。本月他已对硬件工程部门进行AI导向的改革,以加速产品开发与质量提升。
微信鸿蒙版App推送8.0.17.16邀测更新,测试期为2026年4月20日至5月19日。新版本支持视频号注册及资料修改,视频播放新增自动旋转功能,"听一听"模块可分享歌曲至状态并跳转QQ音乐,同时灰度测试AI写歌与AI翻唱功能。自去年1月登陆鸿蒙应用市场以来,该应用安装量已突破5000万次。