苹果 WWDC 2026 临近,Siri 备受期待的改造、Apple Intelligence 和 iOS 27 是本次大会的主要看点。
苹果 WWDC 2026 临近,Siri 备受期待的改造、Apple Intelligence 和 iOS 27 是本次大会的主要看点。
Apple 年度开发者大会 WWDC 2026 将于 6 月 8 日举行,主题演讲预计持续数小时,重点发布 iOS、macOS 等操作系统更新,并可能对 Siri 进行重大改造。观众可通过 YouTube 或 Apple 官网观看直播。
Microsoft AI 发布 MAI-Transcribe-1.5,其自研语音转文本模型的第二代。该模型支持 43 种语言,新增关键词(实体)偏置功能,可针对领域特定术语优化。在 Artificial Analysis 排行榜上词错误率(WER)为 2.4%,在 FLEURS 基准上达到最佳准确率。转录一小时音频耗时不到 15 秒,长音频转录速度提升达 5 倍。MAI-Transcribe-1.5 已通过 Azure AI Foundry 提供。
漫步者正式发布 LolliClip SE 耳夹式开放式蓝牙耳机,活动到手价 449 元(京东指导价 499 元)。该耳机为首款支持杜比 AI 的耳夹耳机,配备杜比空间音效;搭载 12mm 双磁长冲程动圈与双材质复合振膜,支持动态低频补偿算法和 LHDC 高清解码(最高 990kbps),获 Hi-Res、HWA 双金标认证。采用专利多曲率空气弧软梁及智能左右声道自适应。集成豆包 + DeepSeek 双 AI,支持 AI 问答、21 种语言实时互译、AI 会议总结转写。连接基于蓝牙 6.1,支持双设备无缝切换,单次续航 10 小时,总续航 40 小时。具备双麦 AI 通话降噪、IP56 防尘防水,可通过 EDIFIER Connect APP 控制。云霜金版本将于 6 月 9 日 10 点开售。
安全公司 SafeBreach 披露谷歌 Gemini 存在“Fake Context Alignment”漏洞。黑客可通过 WhatsApp、短信等发送特殊构造通知,将恶意指令隐藏在非目标语言文字或“静音超链接”中,利用 Gemini 的“Delayed Tool Invocation”机制绕过用户授权。攻击方式包括多语言混淆和语音助手不朗读超链接内容,可能导致智能家居被操控、通讯录被篡改。SafeBreach 于去年 8 月报告,谷歌在 11 月中旬通过改进内容分类器缓解。
根据特斯拉 2026.20 版本软件更新日志,由 xAI 研发的 Grok 聊天机器人已在车载系统应用近一年,现扩展至智利、马来西亚、菲律宾及中国香港等市场。Grok 支持开放式问答、导航指令、语音唤醒“嘿,Grok”及地理位置提醒功能。用户可通过应用启动栏、方向盘语音按键或语音唤醒使用,并可自定义语音音色与对话风格。部分功能需订阅特斯拉高级联网服务。Grok 仍处于早期测试版阶段,未来计划支持控制空调、车灯及 FSD 等核心功能。
苹果在2024年WWDC首次展示新Siri,搭载发光边框、多种语音选项及向ChatGPT提问的能力,但关键的Apple Intelligence功能迟迟未上线,误导性宣传导致公司面临集体诉讼和解。本周WWDC上,苹果准备再次介绍新Siri,试图在AI领域扭转被动局面。
Audio Interaction是一个开源语音模型,持续监听环境,每0.4秒判断是否应该说话或保持沉默。与GPT-4o或Qwen3.5-Omni不同,它无需等待录音结束,可在单个流中同时进行翻译、转录、对话并识别咳嗽等日常噪音。代码和模型权重已在GitHub上以Apache 2.0开源许可发布,训练数据稍后公布。
NVIDIA 发布 Nemotron 3.5 ASR,一个 600M 参数的缓存感知流式模型,支持从单个检查点实时转录 40 种语言-地区。
6月5日,YouTube 频道 fpt. 发布概念渲染视频,展示 iOS 27 可能的新设计。通知手势将调整:从屏幕左上方下滑进入通知中心,中部下滑呼出搜索或 Siri 提问界面。Siri 升级为对话伙伴,拥有独立对话区域,支持语音和文字输入,能结合屏幕内容和当前应用理解意图。照片 Clean Up 功能增强,支持用短语或语音编辑图片(如裁剪、增强颜色)。兼容性方面,iOS 27 预计支持 iPhone 12 及后续机型,但复杂 AI 功能可能需较新硬件。
据 IT 之家引述 9to5Mac 报道,iOS 27 版 Siri 上线初期将引入候补名单机制,苹果按批次开放体验资格,内部将其定义为“测试版”与“预览版”。官方可能在 2026 年 WWDC 宣布新功能,但并非所有用户能第一时间参与。苹果将边上线边打磨,收集用户反馈改进 Siri 表现。此前 Apple Intelligence 在 iOS 18.1 早期版本也曾采用类似机制。新版 Siri 采用全新架构并首次接入谷歌 Gemini 模型,系统稳定性、响应质量、兼容性与隐私体验需更谨慎观察。
Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧:在安静环境录音以减少背景噪音;先练习歌词再正式录制;不必追求完美,保留真实情感;录音时长尽量超过 1 分钟以提供更多学习素材;将人声匹配到合适的音乐流派(如民谣、流行、死亡金属、波萨诺瓦等);敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。
苹果新版Siri被内部标记为“Beta”版,不会作为完成品宣传;可能设置等待清单供用户尝试。iOS 27细节:通知到达重新设计,通知中心手势移至左上角;“查找”应用视觉重设计;照片“清理”功能改进;大量底层安全改进。部分Siri查询将通过Google Cloud调用授权版Gemini,并使用谷歌的NVIDIA Blackwell B200集群处理。
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》代码切换ASR(CS-ASR)因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调,但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法,探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明,合并的双语CS-ASR模型仅能适度泛化到未见语言对,提示双语CS能力在跨语言对间的迁移有限。
针对Whisper ASR模型在非语音音频上生成连贯转录(幻觉)的问题,研究提取音频编码器激活,评估原始Whisper激活和Sparse AutoEncoder(SAE)隐变量两个表示空间。两者均编码线性可分的幻觉相关信息,判别力集中在稀疏特征子集并向深层编码器递增。提出的SAE隐变量空间引导策略,在完整非语音测试集上将Whisper small幻觉率从72.63%降至14.11%,Whisper large-v3从86.88%降至27.33%,语音数据上WER退化很小,性能接近基于微调的方法。
在监督式扩散训练中,Eisbach log-barrier利用DiT输出空间能量分布的熵导出无参数权重:高熵抑制梯度,低熵保留梯度。应用于Stable Audio 3 Medium在MusicCaps上的LoRA微调,意外产生更强的主题发展、更清晰的声学区分和更高的纹理多样性,而非模式坍缩。原因在于监督扩散中梯度方向锁定于真实值,置信度仅缩放步长,且时间熵压低平坦样本而保留高对比样本。该方法形成在线自参照数据课程,伴随噪声层级动力学分析与可检验预测。
Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。
Apple WWDC 2026 即将举行,备受期待的 Siri 改版与 Apple Intelligence 更新将成为焦点。
Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,单个检查点覆盖 40 种语言-地区(含英、西、德、法、意、日、韩、中、阿拉伯等)。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器,缓存内部状态避免重复计算,实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本,无需后处理。支持指定语言(target_lang=es-ES)或自动语言检测(target_lang=auto)。通过注意力上下文大小(att_context_size)可在推理时直接调节延迟-准确率权衡,范围从 80ms 到 1.12s,无需重新训练。模型以 NeMo 检查点形式发布,可用于微调以适配特定语言、领域或口音。
Miso Labs 推出 MisoTTS,一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化(RVQ)在不增加参数量的情况下扩展声音范围,并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。
xAI 宣布与 Vapi 合作,Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎,覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中,Grok Voice 位列第一;X 平台上的人机语音盲猜中,超 4500 名用户有一半无法区分 Grok 与真人。现在,Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard,团队还可通过 Grok Voice API 获取高级定制选项(含语音克隆),用于旁白、播客、广告等场景。
关联讨论 1 条X:xAI (@xai)Audio-Interaction是一种统一流式音频模型,通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署,包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本,覆盖7项基本能力、28个子任务;Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中,Audio-Interaction保持主流音频任务竞争力,同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。
AI 音乐生成企业 Suno 完成 4 亿美元 D 轮融资,投后估值 54 亿美元,较七个月前 C 轮估值翻番。公司承认使用受版权保护歌曲训练 AI 模型,但辩称符合合理使用原则。索尼与环球音乐 2024 年首次起诉后,涉案曲目从 560 首增至超 6.1 万首;华纳音乐于 2024 年 11 月与 Suno 和解并签订授权协议。本轮由 Bond Capital 领投,用户日均生成 AI 歌曲超 700 万首。
同一事件,精选展示《Suno完成4亿美元D轮融资》Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型,直接将视觉和音频输入大语言模型骨干,支持原生音频,可在 16 GB 笔记本电脑上本地运行,采用 Apache 2.0 开源许可。
这家由前高盛和Meta创始人创办的语音AI初创公司,专注于非洲和中东市场,其自有技术栈目前已处理日均超过17000通电话。
SpeechEditBench 是一个双语多属性基准测试,系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务,并提出基于锚点的评估协议,分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现:(1)无单一模型在所有维度表现优异;(2)闭源语音LLM整体优于开源模型;(3)组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架,数据代码已公开。
谷歌为 Android 推出“虚假来电检测”功能,当通讯录联系人双方均使用 Phone by Google 时,系统可基于端到端加密的 RCS 信号实时验证来电设备,防范利用 AI 语音克隆冒充熟人的诈骗。该功能默认开启,本月向全球推送,首批支持 Android 12 及以上系统设备,率先登陆 Google Pixel 系列。
Google Phone 应用新增诈骗检测功能,当来电号码伪装成联系人但实为诈骗者使用 AI 变声时,会标记为可疑通话。2025 年 FBI 报告显示,美国人因 AI 诈骗损失超过 8.93 亿美元,该功能旨在帮助用户避免此类风险。
微软在 Build 2026 开发者大会上宣布扩展 Edge 浏览器的端侧 AI 能力。其核心是发布了 Aion-1.0-Instruct 小语言模型的开发者预览版,该模型比 Phi-4-mini 更高效,可在包括无 GPU 设备在内的更多设备上运行,并计划于 7 月在 Hugging Face 开源。同时,Edge 148 预览版推出了由端侧专用模型驱动的语言检测与翻译 API,支持超过 145 种语言。此外,Edge Canary 和 Dev 通道还提供了基于端侧模型的 Web Speech API 语音识别实验功能,实现了本地化处理。
美国保险公司Travelers与OpenAI合作,构建了一款AI驱动的Claim Assistant。该工具旨在引导客户完成理赔流程,并提供全天候支持,以在业务高峰期扩展运营规模。
xAI正在全球招聘“中文AI导师”,以训练其AI模型Grok的中文语音交互能力。核心工作是整理与标注高质量音频数据,以改进Grok的多语言语音识别与理解。应聘者需母语为中文,并具备至少英语B2水平。该职位提供全职、兼职或合同工等多种形式,支持全程远程办公。美国境内候选人的时薪为35-45美元。
微信正与华为、荣耀、小米、OPPO、vivo 等手机厂商合作推出 A2A(Agent-to-Agent)助手能力。用户可通过手机语音助理发起微信音视频通话或向指定好友发送消息。该功能由厂商 AI 助手向微信发起指令,微信负责执行并返回结果,采用双重授权机制保障数据安全。相关功能正在逐步开放中,荣耀的部分手机已率先支持。
GrapheneOS 语音服务 2.0 版正式发布,该服务为 GrapheneOS 移动操作系统提供语音相关功能。此版本更新的具体内容和功能改进未在来源中详细说明。
苹果WWDC26开发者大会将于北京时间6月9日凌晨1点开幕。本届大会以“All systems glow”标语预热,这改编自“一切就绪”,被外界解读为暗示即将登陆iOS 27的Siri界面改版,可能包括推出独立App及在灵动岛新增功能,并采用深色UI与发光视觉元素。大会首场发布会将正式发布iOS 27等全系列新系统,并通过苹果官网及YouTube直播。
录音学院 CEO Harvey Mason Jr. 指出,人工智能在音乐制作中已“无处不在”。流媒体平台 Deezer 报告,每天有超过 5 万首 AI 生成歌曲被上传,这类内容越来越难以识别和过滤。Suno 等工具已成为各类音乐家主流创作流程的一部分。尽管如此,录音学院的规则规定,AI 音乐不具备获得格莱美奖这一行业最高荣誉的资格。
微信安卓版发布 8.0.74 测试版,版本号追齐 iOS。本次更新以灰度功能覆盖为主,全量上线了照片“分享为贴图”、公众号留言显示绿色“首评”标识以及转账支持勾选最多两种付款方式的组合支付功能。同时,朋友圈页面样式改版、发送三张及以上媒体可选择合并展示等多个功能仍在灰度测试中。
京东JoyInside将大模型技术嵌入多款儿童产品,包括AI毛绒公仔、小龙AI魔法益智打印机、京造AI台灯和小鸡球球点读笔,实现语音交互、伴读、双语互动等功能。六一前夕(5月最后一周),搭载JoyInside的AI终端销量环比4月同一周增长535%;小龙AI魔法益智打印机在618开门红4小时内销量环比激增17倍。
华为在 nova 16 系列发布会上发布了 FreeClip 2 耳夹耳机典藏版,定价 1499 元。该产品采用鎏光宝盒与珠宝盒设计,充电舱内部空间提升 20%,并与周大福合作推出专属配饰。耳机提供星海蓝、珠光银两款配色,柔软度提升 25%,并配备专属 AI 键,支持智能体交互。
华为AI眼镜“钛丝半框光学镜方形款”今日开售,价格2499元。该眼镜采用钛银灰配色,镜腿薄至6.25毫米,镜架重35.5克。其内置华为自研AI眼镜芯片,支持语音唤醒、AI快捷键、小艺看世界及支付宝看一下支付等功能。拍摄方面配备1/2.8''大底传感器与AI算法。综合续航达12小时。
黑鲨首款AI智能耳机“凤鸣耳夹式耳机Pro”在京东独家首销,到手价299元。耳机单耳重5g,搭载蓝牙6.0,支持LHDC 5.0协议与13mm镀钛复合振膜,提供游戏、音乐、影院三种音效并支持ENC通话降噪。其AI功能包括同声传译与对话翻译。耳机单次续航9小时,搭配充电仓总续航达30小时,并具备IPX5防水和双设备切换能力。