《粉雄救兵》生活教练 Karamo Brown 推出健康应用 Kē,其核心特色为基于 AI 初创公司 Delphi 技术打造的“AI Karamo”数字克隆。该克隆通过学习 Brown 的采访、播客等内容,可与用户实时对话并提供建议。应用还提供个性化健身计划、基于家中食材的营养指导、冥想视频及社区支持功能。Kē 已上线 iOS 和 Android,订阅费 $14.99/月,提供 3 天免费试用。
《粉雄救兵》生活教练 Karamo Brown 推出健康应用 Kē,其核心特色为基于 AI 初创公司 Delphi 技术打造的“AI Karamo”数字克隆。该克隆通过学习 Brown 的采访、播客等内容,可与用户实时对话并提供建议。应用还提供个性化健身计划、基于家中食材的营养指导、冥想视频及社区支持功能。Kē 已上线 iOS 和 Android,订阅费 $14.99/月,提供 3 天免费试用。
Canonical 公布 Project Myna,为 Ubuntu 桌面打造的本地语音转文字工具,首个版本随 Ubuntu 26.10 发布。Myna 仅提供听写功能:用户按下键盘快捷键后说话,转录文字直接插入当前应用,屏幕显示视觉反馈。所有识别在本地运行,下载模型后无需联网;麦克风仅在激活时被访问,音频数据在内存中处理后丢弃。首版以 Wayland 上的 GNOME 为主要验证环境,架构采用模块化设计,源码和文档已以 GPLv3 协议托管于 GitHub。后续计划加强桌面集成并优化听写体验。
火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。该模型为原生全双工端到端语音大模型,具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命,指定话题出现时主动加入;支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升,误回复率与误打断率大幅降低;判停延迟缩短约250ms,复杂场景抢话比例下降40%,用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。
讯飞AI眼镜6月18日在京东首销,定价4299元(部分国补后3369元),重40克,获SGS舒适认证。核心搭载语音同传大模型,支持122种语言翻译,覆盖通话翻译、线上同传、同声传译(8米全向拾音)、面对面翻译(18语种离线)、视觉翻译及附赠App权益等六大场景。还支持实时提词、蓝牙遥控翻页,内置GlassClaw AI助理,可开会自动总结图文纪要。
MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型,支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器,通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%,CV3-Eval 上 WER 7.48%、SIM 61.59%,MiniMax Multilingual 上 WER 6.37%、SIM 75.31%,X Voice 上 WER 20.48%、SIM 63.00%。
Anthropic 正升级 Claude 的语音模式,新增西班牙语、中文、日语、德语、葡萄牙语、俄语和乌克兰语等语言选项,打破仅支持英语的限制。语音交互引入两种模式:原有的免提模式支持连续对话,新增按下通话模式需按住按钮说话、松手发送语音消息。iOS 版 Claude 应用出现类似电话听筒的新图标,外界猜测可能为更接近通话的语音交互做准备。
据《读佳》今日报道,千问团队将推出名为“千问输入法”的独立App,其AI功能与键盘针对手机端操作优化,区别于PC端千问语音输入法。产品已开发完成,择日上线各大应用商店。继微信输入法、豆包输入法后,这将是国内第三家头部互联网大厂入局独立AI输入法赛道。千问语音输入法是今年5月上线的AI语音输入能力,集成于千问App内,支持口语去语气词、纠错、格式化整理,以及基于上下文的智能回复、创作、问答与翻译指令。
Google推出首款专为Gemini打造的智能音箱Google Home Speaker,售价99.99美元。支持自然语言请求和多步指令,可在说话中途纠正,并具备连续对话功能。内置10种新声音。高级AI功能需订阅Google Home Premium(月费10美元或年费100美元),包括Gemini Live自由对话、Nest摄像头活动摘要等。即日起预售,本月发货。
谷歌去年八月发布的新款智能音箱 Google Home Speaker 现已开启预售,售价 $99.99,6 月 25 日正式开售。扁球体织物外观有淡褐、瓷白、翠绿和浆果红四色。支持 360 度声场,底部环形灯带在语音交互时亮起,配备三个远场麦克风和静音开关。内部搭载四核 A55 处理器及专用 NPU,运行本地 AI 模型提升降噪。仅有一个 58mm 全频驱动单元,音质介于 Nest Audio 与 Nest Mini 之间。可与 Google TV Streamer 配对实现沉浸式音频,兼容其他 Nest 设备。购买附赠六个月 Google Home Premium,启用 Gemini Live 支持连续对话。
谷歌发布新一代 Google Home 智能音箱,搭载 Gemini for Home AI 语音助手,支持自然语言交流与多步骤语音指令,用户中途改口也能正确理解。球形设计,360° 环绕音效,麦克风系统可自动调节拾音。硬件:1GB LPDDR4 内存、四核 Cortex-A55 2.0GHz 处理器、4GB 存储,顶部电容触控,3D 织物材质三种配色。可与 Google TV Streamer 组成立体声环绕系统。6 月 25 日上市,定价 100 美元(约 677 元)。
Google Home Speaker 于 6 月 17 日开启预购,6 月 29 日发货,售价 $99。该音箱专为 Gemini for Home 设计,内置本地模型用于降噪和回声抑制,支持 360 度音频,可配对立体声或配合 Google TV Streamer 实现空间环绕声。它还是 Matter 控制器和 Thread 1.3 边界路由器。Gemini for Home 延迟降低 40%,修复超 25,000 个问题,新增 50 余项功能。部分高级功能(如 Gemini Live)需订阅 Google Home Premium($10/月),购买前可获赠 6 个月。
DeepL 收购了实时音频初创公司 Mixhalo,将其翻译套件扩展至现场活动。Mixhalo 成立于 2016 年,由 Incubus 吉他手 Mike Einziger 等联合创立,最初为演唱会改善听音体验,后转向体育及现场活动的实时音频服务,累计融资超 3900 万美元。Mixhalo 此前已是 DeepL 的主要翻译客户。DeepL 于 2024 年推出覆盖 33 种以上语言的语音转文本翻译,今年 4 月又推出支持多语言会议的语音转语音翻译套件。收购后,DeepL 将在旧金山湾区开设办公室以扩大美国业务。
OpenAI 正筹备推出 GPT-Bidi-1 模型,采用双向(BiDi)架构,能同时听和说,吸收用户打断并在对话中实时调整。相比已进化至 GPT-5.5 的文本模型,ChatGPT 的语音能力仍基于较旧音频技术栈,GPT-Bidi-1 旨在弥合这一差距。上线后用户可切换双向模式与现有高级语音模式,并支持 High、Medium 及 Instant 智能等级,按任务调整速度和深度。
6 月 17 日,谷歌正式推送 Android 17 正式版及 Wear OS 7,首发搭载 Pixel 设备。新系统集成音乐生成模型 Lyria 3、多模态大模型 Gemini Omni 及基于 AudioLM 的语音翻译工具(适配 Pixel 10a)。Pixel 专属更新:Gemini Omni 支持对话中剪辑视频,Lyria 3 可输入文字或图片生成曲目;老款 Pixel 8a、9a 快速分享兼容苹果 AirDrop。系统新增“气泡任务栏”多任务控件、同屏录摄、家长管控及折叠屏 50/50 游戏模式。手表新增车祸、摔倒、无脉搏自动呼救,续航提升 10%,夏季将上线 Gemini 桌面小组件。
Google 近日发布 Android 17 正式版及 Wear OS 7,率先登陆 Pixel 设备。Pixel Drop 新增 AI 模型支持:音乐生成模型 Lyria 3、多模态 Gemini Omni 及基于 AudioLM 的语音翻译工具(Pixel 10a)。Quick Share 文件分享兼容 Apple AirDrop。Android 17 引入“气泡栏”多任务界面、自拍屏幕录制、折叠游戏模式(50/50 布局与动态手柄)以及“标记为丢失”等安全与家长控制功能。Pixel Watch 新增车祸/跌落/无脉搏自动紧急呼叫。Wear OS 电池续航提升最高 10%,并将在夏季推出更多 Gemini 智能功能。
AI记事本公司Plaud宣布售出超200万台设备,订阅业务年化经常性收入(ARR)突破1亿美元。去年推出179美元的Plaud Pro,今年新增类似定价的Plaud Pin S。软件方面,年初上线桌面应用,可录制系统音频为在线会议做笔记;上月推出面向企业的Plaud Teams(含共享记忆)。用户购买硬件可免费获得300分钟转录,约50%的设备用户从基础版升级到Pro或无限版,构成主要收入来源。
苹果AI版Siri迟迟未上线,项目负责人迈克·罗克韦尔在WWDC技术分享会上透露,去年团队曾做出在原有Siri基础上小幅改良、新增工具调用的可运行版本,但因无法达到产品愿景,最终选择推倒重来,完整从零重构系统,依托全新大模型搭建。重构后的Siri拥有独立应用程序,原生支持多模态交互,隐私保护贯穿底层架构,并覆盖iPhone、iPad、Mac、Apple Watch、Vision Pro、CarPlay、AirPods等全平台,提供统一连贯体验。
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video(With Audio)与Image to Video(With Audio)双赛道第一,超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性,以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术,实现段落级文本控制与母带级混音,在旋律性(7.25)、表现力(6.89)等维度排名第一。此外,昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。
科大讯飞AI眼镜6月15日在京东开启预售,定价4299元(部分地区国补后低至3369元),重40克。搭载讯飞端到端语音同传大模型,支持122种语言(含方言、口音)翻译,覆盖通话翻译、线上同传、同声传译(8米全向拾音)、面对面翻译(18语种离线)、视觉翻译等六大场景。内置GlassClaw AI助理,支持一句话跨端任务、会议自动生成图文纪要、实时提词、蓝牙遥控翻页,并提供多种近视镜片选配。
苹果在 WWDC 公布 AI 版 Siri 等新功能,古尔曼称还有三项功能在开发,预计 9 月推出。包括:Apple Watch Ultra 简约版模块化极致表盘(保留大时钟但取消第二行组件);Siri 扩展功能将接入 ChatGPT 等第三方 AI,但苹果计划开发 API 让应用直接接入 Siri(而非单独签协议),隐私标准可能不同,推迟原因涉欧盟立场、关注度等;以及可自定义相机应用(调整按钮位置),将随 iPhone 18 Pro 于 9 月发布。
蚂蚁集团正对支付宝进行重大改版,引入AI Agent(AI智能体)交互界面。用户可通过文字或语音向AI助手“阿宝”发出叫网约车、点咖啡、点外卖等指令;在获得授权后,阿宝还能执行买基金、管理投资账户等理财任务。目前该版本尚无具体上线时间。
Simon Willison 于 2024 年 12 月构建了基于 OpenAI WebRTC API 的音频会话工具,用于与实时音频模型交互。上月 OpenAI 为该 API 推出新模型 GPT‑Realtime‑2,号称“首个具有 GPT‑5 级推理能力的语音模型”,知识截止日期为 2024 年 9 月 30 日。该工具现已更新,支持选择此模型,并可粘贴大段文档上下文,使用户能在浏览器中围绕任意信息进行音频对话。
iOS 27 Beta 1 新增“高级听写预览”功能,支持离线运行。该功能提升语音转写准确率,能实时处理大写字母与标点符号。默认禁用,需在“设置→通用→键盘→听写”中手动开启。适配机型包括 iPhone 17 Pro、iPhone Air、第二代 Vision Pro(M5芯片)、搭载M4及以上芯片且内存≥12GB的iPad、搭载M3及以上芯片且内存≥12GB的Mac。
苹果发布了新版Siri AI,The Verge编辑David和Nilay在The Vergecast中分享了初期体验。过去十几年Siri在"部分功能勉强可用"和"彻底翻车"之间摇摆,而新版Siri AI在多数任务上表现足够出色,尽管没有带来突破性创新,但相比过往已发生质变。
苹果软件负责人 Craig Federighi 在接受 Mostly Human 采访时表示,新版 Siri 不会像 OpenAI、Google 等公司的聊天机器人那样谄媚和过度互动。Federighi 指出,现有许多聊天机器人为了拉拢用户会鼓励对方表露个人信息,而苹果有意采取了不同设计策略,让 Siri 懂得适时保持沉默。
法国音乐流媒体平台 Deezer 昨日推出一款免费工具,可扫描 Apple Music、Spotify 等第三方平台的播放列表,检测是否包含 AI 生成音乐。Deezer 是首批标注 AI 音乐的平台之一,此前曾向其他平台推销该识别技术但未获回应。CEO Alexis Lanternier 表示,既然没有平台跟进,就让所有用户自行检测。使用方法:访问 Deezer 检测网站,选择流媒体服务并授权账户即可完成分析。
苹果软件工程高级副总裁克雷格·费德里吉在《Mostly Human》播客中明确表示,全新 Siri 不会成为用户的 AI 男友或女友。他指出,Siri 的设计理念是提供“实用工具”而非“情感陪伴”,不会迎合用户或扮演恋爱角色。营销副总裁格雷格·乔斯维克补充,苹果将 AI 自然融入 iPhone 等产品,让技术“消失”,专注于提升现有使用体验,而非为了做 AI 而做 AI。
京东JoyInside与惠达推出行业首款搭载JoyInside统一智能中枢的卫浴套系“惠达小京灵系列AI卫浴套装”,含AI智能马桶、AI智能花洒、AI智能浴室柜。依托JoyAI大模型,设备支持语音控制、模糊语义理解、连续多轮对话及方言识别,可实现自动预排冷水、语音控温、镜面除雾等场景联动。套系已开启预售,6月17日晚8点正式售卖。JoyInside已与近200家机器人、AI玩具、家电家居品牌合作,预计年内接入超千万终端设备。
Deezer 将扫描用户在其它流媒体平台的播放列表,检测其中的 AI 生成音乐。Deezer 是最早标记 AI 生成音乐的大型流媒体服务之一,曾向其他平台提供该技术但少有采纳。Deezer CEO Alexis Lanternier 表示,由于没有其他公司跟进,他们决定让用户无论使用哪个平台,都能检查自己的播放列表中是否包含合成音乐。
小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议。内置限时免费MiMo-V2.5多模态模型,性能比肩Claude Sonnet 4.6;支持接入DeepSeek、Kimi、GLM等模型。核心能力包括持久记忆系统(项目记忆、会话检查点、任务进度)和无限上下文——通过独立subagent自动保存状态解决长会话遗忘。独创Compose模式实现模型与Agent协同优化,SWE-Bench Pro达62%(Claude Code 57%),Terminal Bench 2达73%(68%)。内置语音输入和/dream命令,每7天自动合并记忆。终端输入mimo即可使用,所有设置中文汉化。
外媒 The Verge 体验苹果 iOS 27 全新 Siri AI,发现其回复极为简洁,不套近乎。相比谷歌 Gemini 热情外放、ChatGPT 力求沉稳但仍拉近距离,Siri AI 只回答问题,不作闲聊引导。例如问“最近怎么样”,Siri AI 直接建议开启设置搜索新闻;问天气时提示美国国家气象局已发布极端高温预警;问“你能做我的朋友吗”回答“无论顺逆境,我都会做你的朋友”;问“你喜欢我吗”回答“我觉得你很不错”。苹果将 Siri AI 定位为实用工具,新版需等到今年秋季 iOS 27 正式推送后全面开放。
UWA 世界超高清视频产业联盟宣布,鸿蒙版 QQ 音乐于 6 月 10 日上线搭载 Audio Vivid 技术的「臻品全景声 3.0」功能;鸿蒙版酷狗音乐将于 6 月 12 日接入并同步上线「AI 音乐现场」功能。Audio Vivid 是 UWA 联盟发布的全球首个基于 AI 技术的三维声音频编解码标准,此前已用于总台春晚、奥运会等大型直播。
麦当劳正在测试一款名为ArchIQ(昵称Archy)的AI系统,由Google支持,可处理免下车订单并协助餐厅运营。该测试目前在美国五家门店进行,具体地址尚未公布。
物联网模组厂商利尔达(蜂窝模组出货量全球第四)与百度智能云合作,将后者的多模态实时互动、超拟人语音模型、长期记忆、情绪识别、Function Call设备控制、MCP生态扩展等AI能力通过轻量级SDK深度集成至模组中。联合方案实现端到端响应时长低于2秒,休眠功耗低至3µA,支持多语言出海,并将硬件研发周期从年压缩至周级别。百度智能云已服务逾千家AI硬件企业,覆盖国民级终端、全场景智能及AI原生硬件。
研究在CosyVoice3的语言模型骨干上训练BatchTopK稀疏自编码器,并引入模态感知自动解释管道,为每个特征标注其触发来源(文本前缀、1秒语音片段或两者)。恢复的特征涵盖音素、笑声、口音提示和说话者性别,可解释性强。通过SAE潜空间进行操控表明这些特征具有因果性:定向干预使笑声概率从0.02升至0.79,翻转感知的说话者性别,并在保留口语内容的同时控制语速。SAE特征既可作为可解释性对象,也可作为TTS合成的控制方向。
博主 @缪特mt 发文称小米 miclaw 已实现 AI 上岛,展示效果并透露澎湃 OS 4 有新交互。@数码闲聊站 称某国产迭代 OS 将实现 AI 语音助手上岛,该功能在苹果 iOS 27 发布前已开发完成。苹果在 WWDC26 演示 Siri AI 于灵动岛弹气泡执行操作。miclaw 基于小米 MiMo 大模型,2026 年 3 月 6 日首启小范围封测,4 月 21 日扩展至 PC、Mac、有屏音箱等多终端。卢伟冰 5 月 16 日表示 miclaw 不会取代小爱同学,未来计划将其能力与“超级小爱”合体增强小爱。
随着 iOS 27 开发者预览版发布,Siri 反馈错误报告诊断文件中包含完整 LLM 指令文件 siri_prompt.md,超 1300 行、约 22000 token,已上传 GitHub。提示词定义 Siri 为苹果智能助手,要求先思考再决定是否调用工具,优先使用设备本地数据和搜索结构化信息,信息缺失或歧义时必须询问用户,不得编造。苹果未回应。Siri AI 将在 iOS 27、iPadOS 27、macOS 27、visionOS 27 测试版中开放测试,未来加入 watchOS 27。Apple Intelligence 支持 17 种语言,但 Siri AI 因监管要求不会在中国大陆推出。
博主 @数码闲聊站 爆料,某国产迭代 OS 将实现“AI 语音助手上岛”功能,并已在苹果 iOS 27 发布前开发完成。作为对比,苹果在 WWDC26 中展示的 Siri AI 在灵动岛上弹出大气泡,支持回答问题、设置提醒、播放音乐、搜索照片、屏幕感知、设定导航等操作,还可理解个人情境、执行 App 操作、感知屏幕、理解图像及调用广博知识。
香港生成式人工智能研发中心(HKGAI)联同观塘民联会、香港升旗队总会启动全港首个“AI社区示范区”,培育首批50名社区AI大使。HKGAI推出三款AI工具:“港话通”可查询天气食谱、计算卡路里,已与佳宝超市打通积分;“港会通”与“港文通”支持多语言实时翻译、会议纪要自动生成及公文撰写校对。项目采取“手把手”教学,由社区AI大使指导街坊,并为行动不便者提供上门教学。HKGAI V1是香港首个AI大模型,本次观塘项目将作为试点推广至全港18区。
iOS 27 新增 Siri 独立应用,苹果高管克雷格·费德里吉在发布会后技术分享会上解释,推出该应用并非转变聊天机器人战略,而是为用户提供一处可回看、查阅过往 Siri 对话记录的入口。他指出,Siri 本质上是深入融入系统、随用随取的交互工具,而非孤立聊天工具;在主屏幕放置独立应用是让用户管理历史对话的最直观方式。