中国杭州初创公司推出AI宠物翻译产品PettiChat,售价$119,采用阿里Qwen大模型,翻译准确率达94.6%。产品为AI宠物项圈形态,能实时翻译猫狗叫声,基于500+真实宠物声音样本训练,实现1秒内将动物叫声转化为人类语言。
中国杭州初创公司推出AI宠物翻译产品PettiChat,售价$119,采用阿里Qwen大模型,翻译准确率达94.6%。产品为AI宠物项圈形态,能实时翻译猫狗叫声,基于500+真实宠物声音样本训练,实现1秒内将动物叫声转化为人类语言。
苹果在2024年WWDC首次展示新Siri,搭载发光边框、多种语音选项及向ChatGPT提问的能力,但关键的Apple Intelligence功能迟迟未上线,误导性宣传导致公司面临集体诉讼和解。本周WWDC上,苹果准备再次介绍新Siri,试图在AI领域扭转被动局面。
Audio Interaction是一个开源语音模型,持续监听环境,每0.4秒判断是否应该说话或保持沉默。与GPT-4o或Qwen3.5-Omni不同,它无需等待录音结束,可在单个流中同时进行翻译、转录、对话并识别咳嗽等日常噪音。代码和模型权重已在GitHub上以Apache 2.0开源许可发布,训练数据稍后公布。
NVIDIA 发布 Nemotron 3.5 ASR,一个 600M 参数的缓存感知流式模型,支持从单个检查点实时转录 40 种语言-地区。
6月5日,YouTube 频道 fpt. 发布概念渲染视频,展示 iOS 27 可能的新设计。通知手势将调整:从屏幕左上方下滑进入通知中心,中部下滑呼出搜索或 Siri 提问界面。Siri 升级为对话伙伴,拥有独立对话区域,支持语音和文字输入,能结合屏幕内容和当前应用理解意图。照片 Clean Up 功能增强,支持用短语或语音编辑图片(如裁剪、增强颜色)。兼容性方面,iOS 27 预计支持 iPhone 12 及后续机型,但复杂 AI 功能可能需较新硬件。
据 IT 之家引述 9to5Mac 报道,iOS 27 版 Siri 上线初期将引入候补名单机制,苹果按批次开放体验资格,内部将其定义为“测试版”与“预览版”。官方可能在 2026 年 WWDC 宣布新功能,但并非所有用户能第一时间参与。苹果将边上线边打磨,收集用户反馈改进 Siri 表现。此前 Apple Intelligence 在 iOS 18.1 早期版本也曾采用类似机制。新版 Siri 采用全新架构并首次接入谷歌 Gemini 模型,系统稳定性、响应质量、兼容性与隐私体验需更谨慎观察。
Google DeepMind 发布开源权重模型 Gemma 4 12B,支持语音转录,在 AA-WER 基准上得分为 8.8%(排名第 58),远低于专注转录的开源模型 Voxtral Mini Transcribe 2(4B 参数,WER 3.6%)和 Voxtral Small(12B 参数,WER 2.8%)。该模型是 Gemma 4 系列中支持转录的最大型号(另有 E4B、E2B),而 31B 和 26B A4B 仅支持文本、图片和视频输入。Google 同步推出本地听写应用 Eloquent(MacOS/iOS)。模型已在 Hugging Face、Ollama 和 LMStudio 上架。
Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧:在安静环境录音以减少背景噪音;先练习歌词再正式录制;不必追求完美,保留真实情感;录音时长尽量超过 1 分钟以提供更多学习素材;将人声匹配到合适的音乐流派(如民谣、流行、死亡金属、波萨诺瓦等);敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。
苹果新版Siri被内部标记为“Beta”版,不会作为完成品宣传;可能设置等待清单供用户尝试。iOS 27细节:通知到达重新设计,通知中心手势移至左上角;“查找”应用视觉重设计;照片“清理”功能改进;大量底层安全改进。部分Siri查询将通过Google Cloud调用授权版Gemini,并使用谷歌的NVIDIA Blackwell B200集群处理。
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》代码切换ASR(CS-ASR)因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调,但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法,探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明,合并的双语CS-ASR模型仅能适度泛化到未见语言对,提示双语CS能力在跨语言对间的迁移有限。
针对Whisper ASR模型在非语音音频上生成连贯转录(幻觉)的问题,研究提取音频编码器激活,评估原始Whisper激活和Sparse AutoEncoder(SAE)隐变量两个表示空间。两者均编码线性可分的幻觉相关信息,判别力集中在稀疏特征子集并向深层编码器递增。提出的SAE隐变量空间引导策略,在完整非语音测试集上将Whisper small幻觉率从72.63%降至14.11%,Whisper large-v3从86.88%降至27.33%,语音数据上WER退化很小,性能接近基于微调的方法。
在监督式扩散训练中,Eisbach log-barrier利用DiT输出空间能量分布的熵导出无参数权重:高熵抑制梯度,低熵保留梯度。应用于Stable Audio 3 Medium在MusicCaps上的LoRA微调,意外产生更强的主题发展、更清晰的声学区分和更高的纹理多样性,而非模式坍缩。原因在于监督扩散中梯度方向锁定于真实值,置信度仅缩放步长,且时间熵压低平坦样本而保留高对比样本。该方法形成在线自参照数据课程,伴随噪声层级动力学分析与可检验预测。
Introducing Tavus Solutions. Complete, production-ready AI humans for the enterprise workflows where human-quality conve...
Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。
Apple WWDC 2026 即将举行,备受期待的 Siri 改版与 Apple Intelligence 更新将成为焦点。
Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,单个检查点覆盖 40 种语言-地区(含英、西、德、法、意、日、韩、中、阿拉伯等)。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器,缓存内部状态避免重复计算,实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本,无需后处理。支持指定语言(target_lang=es-ES)或自动语言检测(target_lang=auto)。通过注意力上下文大小(att_context_size)可在推理时直接调节延迟-准确率权衡,范围从 80ms 到 1.12s,无需重新训练。模型以 NeMo 检查点形式发布,可用于微调以适配特定语言、领域或口音。
Come build agents that can finally hold a fluid conversation at the 24-Hour Conversational AI Hackathon, hosted by @usem...
Come build agents that can finally hold a fluid conversation at the 24-Hour Conversational AI Hackathon, hosted by @usem...
Miso Labs 推出 MisoTTS,一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化(RVQ)在不增加参数量的情况下扩展声音范围,并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。
xAI 宣布与 Vapi 合作,Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎,覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中,Grok Voice 位列第一;X 平台上的人机语音盲猜中,超 4500 名用户有一半无法区分 Grok 与真人。现在,Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard,团队还可通过 Grok Voice API 获取高级定制选项(含语音克隆),用于旁白、播客、广告等场景。
关联讨论 1 条X:xAI (@xai)Audio-Interaction是一种统一流式音频模型,通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署,包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本,覆盖7项基本能力、28个子任务;Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中,Audio-Interaction保持主流音频任务竞争力,同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。
Grok Voice Think Fast 1.0 now ranks #1 on the Artificial Analysis τ-Voice benchmark for real-world agentic customer serv...
Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》OpenMOSS团队发布MOSS-Audio,一个融合语音(Speech)、环境音(Sound)、音乐(Music)的开源音频-语言模型,已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域,可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用,代码和权重已在Hugging Face及GitHub公布,开发者可本地运行。
MOSS-Audio just hit #1 on @huggingface Trending. Speech. Sound. Music. One open audio-language model. Try it: Hugging Fa...
AI 音乐生成企业 Suno 完成 4 亿美元 D 轮融资,投后估值 54 亿美元,较七个月前 C 轮估值翻番。公司承认使用受版权保护歌曲训练 AI 模型,但辩称符合合理使用原则。索尼与环球音乐 2024 年首次起诉后,涉案曲目从 560 首增至超 6.1 万首;华纳音乐于 2024 年 11 月与 Suno 和解并签订授权协议。本轮由 Bond Capital 领投,用户日均生成 AI 歌曲超 700 万首。
同一事件,精选展示《Suno完成4亿美元D轮融资》Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型,直接将视觉和音频输入大语言模型骨干,支持原生音频,可在 16 GB 笔记本电脑上本地运行,采用 Apache 2.0 开源许可。
Miso Labs 开源 8B 参数文本转语音模型 Miso One,专注于生成富有情感的表达,如温暖、犹豫或兴奋,告别机械音。模型专为短视频、播客和教育内容等旁白场景设计,推理延迟仅 110 毫秒,快于人类反应时间。模型权重完全开源,支持自托管、微调和数据私有化,API 即将开放。
Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...
Grok STT and Grok TTS from @xai are now live on Vapi, the platform for enterprise voice AI. Build on Vapi to create cust...
关联讨论 1 条X:xAI (@xai)Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...
这家由前高盛和Meta创始人创办的语音AI初创公司,专注于非洲和中东市场,其自有技术栈目前已处理日均超过17000通电话。
微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。
Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...
SpeechEditBench 是一个双语多属性基准测试,系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务,并提出基于锚点的评估协议,分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现:(1)无单一模型在所有维度表现优异;(2)闭源语音LLM整体优于开源模型;(3)组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架,数据代码已公开。
谷歌为 Android 推出“虚假来电检测”功能,当通讯录联系人双方均使用 Phone by Google 时,系统可基于端到端加密的 RCS 信号实时验证来电设备,防范利用 AI 语音克隆冒充熟人的诈骗。该功能默认开启,本月向全球推送,首批支持 Android 12 及以上系统设备,率先登陆 Google Pixel 系列。
微软AI发布了MAI-Transcribe-1.5语音转录模型。该模型在AA-WER排行榜上位列第三,词错误率(WER)为2.4%,仅次于阿里巴巴的Fun-Realtime-ASR-preview(1.7%)和ElevenLabs Scribe v2(2.2%)。其主要特点是速度极快,处理速度约为276倍实时,是准确率前十模型中第二快模型速度的两倍以上,因此在准确率-速度帕累托前沿上处于领先地位。模型还支持关键词偏差识别,并涵盖包括英语、法语、阿拉伯语、日语和中文在内的43种语言。
Google Phone 应用新增诈骗检测功能,当来电号码伪装成联系人但实为诈骗者使用 AI 变声时,会标记为可疑通话。2025 年 FBI 报告显示,美国人因 AI 诈骗损失超过 8.93 亿美元,该功能旨在帮助用户避免此类风险。
微软在 Build 2026 开发者大会上宣布扩展 Edge 浏览器的端侧 AI 能力。其核心是发布了 Aion-1.0-Instruct 小语言模型的开发者预览版,该模型比 Phi-4-mini 更高效,可在包括无 GPU 设备在内的更多设备上运行,并计划于 7 月在 Hugging Face 开源。同时,Edge 148 预览版推出了由端侧专用模型驱动的语言检测与翻译 API,支持超过 145 种语言。此外,Edge Canary 和 Dev 通道还提供了基于端侧模型的 Web Speech API 语音识别实验功能,实现了本地化处理。
美国保险公司Travelers与OpenAI合作,构建了一款AI驱动的Claim Assistant。该工具旨在引导客户完成理赔流程,并提供全天候支持,以在业务高峰期扩展运营规模。