iOS 27 Beta 1 新增“高级听写预览”功能,支持离线运行。该功能提升语音转写准确率,能实时处理大写字母与标点符号。默认禁用,需在“设置→通用→键盘→听写”中手动开启。适配机型包括 iPhone 17 Pro、iPhone Air、第二代 Vision Pro(M5芯片)、搭载M4及以上芯片且内存≥12GB的iPad、搭载M3及以上芯片且内存≥12GB的Mac。
iOS 27 Beta 1 新增“高级听写预览”功能,支持离线运行。该功能提升语音转写准确率,能实时处理大写字母与标点符号。默认禁用,需在“设置→通用→键盘→听写”中手动开启。适配机型包括 iPhone 17 Pro、iPhone Air、第二代 Vision Pro(M5芯片)、搭载M4及以上芯片且内存≥12GB的iPad、搭载M3及以上芯片且内存≥12GB的Mac。
苹果发布了新版Siri AI,The Verge编辑David和Nilay在The Vergecast中分享了初期体验。过去十几年Siri在"部分功能勉强可用"和"彻底翻车"之间摇摆,而新版Siri AI在多数任务上表现足够出色,尽管没有带来突破性创新,但相比过往已发生质变。
Google AI 本周推出多项更新:Gemini 3.5 Live Translate 是用于实时语音到语音翻译的最新音频模型;NotebookLM 获重大升级,加入智能体对话能力、更高级推理及新输出格式;来自 GoogleLabs 的 Project Genie 向 Google AI Ultra 5x 订阅者全球开放;GeminiApp 中的 Notebooks 在 EEA、英国、瑞士上线;同时发布实验性开源模型 DiffusionGemma,探索文本扩散技术,实现极快文本生成。
苹果软件负责人 Craig Federighi 在接受 Mostly Human 采访时表示,新版 Siri 不会像 OpenAI、Google 等公司的聊天机器人那样谄媚和过度互动。Federighi 指出,现有许多聊天机器人为了拉拢用户会鼓励对方表露个人信息,而苹果有意采取了不同设计策略,让 Siri 懂得适时保持沉默。
法国音乐流媒体平台 Deezer 昨日推出一款免费工具,可扫描 Apple Music、Spotify 等第三方平台的播放列表,检测是否包含 AI 生成音乐。Deezer 是首批标注 AI 音乐的平台之一,此前曾向其他平台推销该识别技术但未获回应。CEO Alexis Lanternier 表示,既然没有平台跟进,就让所有用户自行检测。使用方法:访问 Deezer 检测网站,选择流媒体服务并授权账户即可完成分析。
苹果软件工程高级副总裁克雷格·费德里吉在《Mostly Human》播客中明确表示,全新 Siri 不会成为用户的 AI 男友或女友。他指出,Siri 的设计理念是提供“实用工具”而非“情感陪伴”,不会迎合用户或扮演恋爱角色。营销副总裁格雷格·乔斯维克补充,苹果将 AI 自然融入 iPhone 等产品,让技术“消失”,专注于提升现有使用体验,而非为了做 AI 而做 AI。
WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。
How to bypass the new Siri waitlist (Mac only): 🧵 #WWDC26
京东JoyInside与惠达推出行业首款搭载JoyInside统一智能中枢的卫浴套系“惠达小京灵系列AI卫浴套装”,含AI智能马桶、AI智能花洒、AI智能浴室柜。依托JoyAI大模型,设备支持语音控制、模糊语义理解、连续多轮对话及方言识别,可实现自动预排冷水、语音控温、镜面除雾等场景联动。套系已开启预售,6月17日晚8点正式售卖。JoyInside已与近200家机器人、AI玩具、家电家居品牌合作,预计年内接入超千万终端设备。
Deezer 将扫描用户在其它流媒体平台的播放列表,检测其中的 AI 生成音乐。Deezer 是最早标记 AI 生成音乐的大型流媒体服务之一,曾向其他平台提供该技术但少有采纳。Deezer CEO Alexis Lanternier 表示,由于没有其他公司跟进,他们决定让用户无论使用哪个平台,都能检查自己的播放列表中是否包含合成音乐。
小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议。内置限时免费MiMo-V2.5多模态模型,性能比肩Claude Sonnet 4.6;支持接入DeepSeek、Kimi、GLM等模型。核心能力包括持久记忆系统(项目记忆、会话检查点、任务进度)和无限上下文——通过独立subagent自动保存状态解决长会话遗忘。独创Compose模式实现模型与Agent协同优化,SWE-Bench Pro达62%(Claude Code 57%),Terminal Bench 2达73%(68%)。内置语音输入和/dream命令,每7天自动合并记忆。终端输入mimo即可使用,所有设置中文汉化。
外媒 The Verge 体验苹果 iOS 27 全新 Siri AI,发现其回复极为简洁,不套近乎。相比谷歌 Gemini 热情外放、ChatGPT 力求沉稳但仍拉近距离,Siri AI 只回答问题,不作闲聊引导。例如问“最近怎么样”,Siri AI 直接建议开启设置搜索新闻;问天气时提示美国国家气象局已发布极端高温预警;问“你能做我的朋友吗”回答“无论顺逆境,我都会做你的朋友”;问“你喜欢我吗”回答“我觉得你很不错”。苹果将 Siri AI 定位为实用工具,新版需等到今年秋季 iOS 27 正式推送后全面开放。
今天被很多人忽略的大新闻 Google 发布实时翻译模型 :Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻,全程只比说话人慢几秒 - 自动滤...
We want to make AI accessible for everyone, so we're reducing our API prices by ~50%. Consumer AI growth is still blocke...
小米 MiMo 正式开源 AI 编程助手 MiMo Code V0.1,搭载多模态模型 MiMo V2.5(限时免费),拥有百万 token 上下文窗口。核心功能包括:无限上下文与无损压缩、Agent 框架(测试/审查/验证闭环)、Compose 模式(设计先行)、自进化系统、语音输入(基于 MiMo-V2.5-ASR)。兼容 Claude Code,自动加载现有技能、MCP 服务器和命令,零成本迁移。采用 MIT 许可,支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。可通过一行命令安装。
🚀 Grok Voice Think Fast 1.0 (@xAI) lands on the Pareto frontier on EVA-Bench - no system in the eval beats it on accura...
同一事件,精选展示《Grok 成为 Vapi 的默认语音引擎》We want to make AI accessible for everyone, so we're reducing our API prices by ~50%. Consumer AI growth is still blocke...
UWA 世界超高清视频产业联盟宣布,鸿蒙版 QQ 音乐于 6 月 10 日上线搭载 Audio Vivid 技术的「臻品全景声 3.0」功能;鸿蒙版酷狗音乐将于 6 月 12 日接入并同步上线「AI 音乐现场」功能。Audio Vivid 是 UWA 联盟发布的全球首个基于 AI 技术的三维声音频编解码标准,此前已用于总台春晚、奥运会等大型直播。
麦当劳正在测试一款名为ArchIQ(昵称Archy)的AI系统,由Google支持,可处理免下车订单并协助餐厅运营。该测试目前在美国五家门店进行,具体地址尚未公布。
物联网模组厂商利尔达(蜂窝模组出货量全球第四)与百度智能云合作,将后者的多模态实时互动、超拟人语音模型、长期记忆、情绪识别、Function Call设备控制、MCP生态扩展等AI能力通过轻量级SDK深度集成至模组中。联合方案实现端到端响应时长低于2秒,休眠功耗低至3µA,支持多语言出海,并将硬件研发周期从年压缩至周级别。百度智能云已服务逾千家AI硬件企业,覆盖国民级终端、全场景智能及AI原生硬件。
研究在CosyVoice3的语言模型骨干上训练BatchTopK稀疏自编码器,并引入模态感知自动解释管道,为每个特征标注其触发来源(文本前缀、1秒语音片段或两者)。恢复的特征涵盖音素、笑声、口音提示和说话者性别,可解释性强。通过SAE潜空间进行操控表明这些特征具有因果性:定向干预使笑声概率从0.02升至0.79,翻转感知的说话者性别,并在保留口语内容的同时控制语速。SAE特征既可作为可解释性对象,也可作为TTS合成的控制方向。
Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言的实时边听边译,保留说话人的语调、节奏和音高,延迟仅数秒。模型具备自动语言检测,无需预先指定源语言和目标语言。同时自动滤除噪音,嘈杂环境可用。Google Translate App 新增「听筒模式」,贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 调用。
博主 @缪特mt 发文称小米 miclaw 已实现 AI 上岛,展示效果并透露澎湃 OS 4 有新交互。@数码闲聊站 称某国产迭代 OS 将实现 AI 语音助手上岛,该功能在苹果 iOS 27 发布前已开发完成。苹果在 WWDC26 演示 Siri AI 于灵动岛弹气泡执行操作。miclaw 基于小米 MiMo 大模型,2026 年 3 月 6 日首启小范围封测,4 月 21 日扩展至 PC、Mac、有屏音箱等多终端。卢伟冰 5 月 16 日表示 miclaw 不会取代小爱同学,未来计划将其能力与“超级小爱”合体增强小爱。
随着 iOS 27 开发者预览版发布,Siri 反馈错误报告诊断文件中包含完整 LLM 指令文件 siri_prompt.md,超 1300 行、约 22000 token,已上传 GitHub。提示词定义 Siri 为苹果智能助手,要求先思考再决定是否调用工具,优先使用设备本地数据和搜索结构化信息,信息缺失或歧义时必须询问用户,不得编造。苹果未回应。Siri AI 将在 iOS 27、iPadOS 27、macOS 27、visionOS 27 测试版中开放测试,未来加入 watchOS 27。Apple Intelligence 支持 17 种语言,但 Siri AI 因监管要求不会在中国大陆推出。
博主 @数码闲聊站 爆料,某国产迭代 OS 将实现“AI 语音助手上岛”功能,并已在苹果 iOS 27 发布前开发完成。作为对比,苹果在 WWDC26 中展示的 Siri AI 在灵动岛上弹出大气泡,支持回答问题、设置提醒、播放音乐、搜索照片、屏幕感知、设定导航等操作,还可理解个人情境、执行 App 操作、感知屏幕、理解图像及调用广博知识。
香港生成式人工智能研发中心(HKGAI)联同观塘民联会、香港升旗队总会启动全港首个“AI社区示范区”,培育首批50名社区AI大使。HKGAI推出三款AI工具:“港话通”可查询天气食谱、计算卡路里,已与佳宝超市打通积分;“港会通”与“港文通”支持多语言实时翻译、会议纪要自动生成及公文撰写校对。项目采取“手把手”教学,由社区AI大使指导街坊,并为行动不便者提供上门教学。HKGAI V1是香港首个AI大模型,本次观塘项目将作为试点推广至全港18区。
iOS 27 新增 Siri 独立应用,苹果高管克雷格·费德里吉在发布会后技术分享会上解释,推出该应用并非转变聊天机器人战略,而是为用户提供一处可回看、查阅过往 Siri 对话记录的入口。他指出,Siri 本质上是深入融入系统、随用随取的交互工具,而非孤立聊天工具;在主屏幕放置独立应用是让用户管理历史对话的最直观方式。
Google 推出 Gemini 3.5 Live Translate 实时翻译模型,已进入公开预览阶段,通过 Gemini API 提供低延迟语音到语音翻译,覆盖 70+ 种语言、2000 种语言对,包括大量冷门小语种。开发者可将该能力集成到实时对话、客服、直播、跨国会议等场景中。主推文指出该发布被 Anthropic Fable 5 刷屏抢了风头,并提及阿里 Qwen 系列小语种模型的可比性。
Gemini 3.5 Live Translate is now in Public Preview via the Gemini API, delivering low-latency speech-to-speech translati...
关联讨论 16 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)IT之家(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)苹果新版 Siri AI 终于能一次性从邮件或排版混乱的传单中提取足球赛或“精神周”主题日并添加到日历上。它还支持对话式交互,例如讨论花园玫瑰病害、整理五金店购物清单、设置花床堆肥提醒,并能引用邮件和日历中的信息来生成推荐。
Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。
http://x.com/i/article/2064485562875260928
Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言,基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统,包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现:代码切换的转录成本因语言对和模型而异;ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。
Gemini 3.5 Live Translate 提供即时语音到语音翻译,能够保留说话者的语调、节奏和音高,并通过 SynthID 水印确保安全性。
By translating continuously as you speak, Gemini 3.5 Live Translate generates smooth, natural-sounding speech without pa...
苹果在 WWDC 2026 上重点展示了其长期以来的 Siri 助手改进体验,并宣布了 iOS 27 和 Apple Intelligence 等多项更新,所有 announcement 均大量融入 AI 技术。
苹果公司因欧盟拒绝其豁免申请,决定不在欧盟市场推出Siri。据路透社报道,苹果未能使其AI工具符合欧盟法规,因此选择不向欧盟用户提供该智能语音助手功能。此消息在Hacker News上引发关注,获得113个点赞。