豆包实时语音模型3.0 API正式上线。支持全双工(同时听和说,可随时插话)和端到端(语音进、语音出,无转录),交互更快速自然。具备精准遵循指令能力,如设定“先不出声,聊到世界杯再加入”后安静待命。关键升级是支持自定义工具,可在实时对话中直接调用工具完成任务(预定日历、发邮件、总结文档、发起查询等),从“语音助手”向“语音 Agent”迈进。
豆包实时语音模型3.0 API正式上线。支持全双工(同时听和说,可随时插话)和端到端(语音进、语音出,无转录),交互更快速自然。具备精准遵循指令能力,如设定“先不出声,聊到世界杯再加入”后安静待命。关键升级是支持自定义工具,可在实时对话中直接调用工具完成任务(预定日历、发邮件、总结文档、发起查询等),从“语音助手”向“语音 Agent”迈进。
针对非语言发声(NVV)中说话人身份一致性评估,现有说话人验证(SV)系统泛化差且微调会导致灾难性遗忘。本文提出融合冻结Data2Vec自监督特征与ECAPA-TDNN的框架,并加入带领域感知路由的混合专家(MoE)模块。通过预训练教师模型在语音输入上施加条件蒸馏损失以保持语音验证精度,同时用对比损失弥合语音与NVV的域间差距。该方法将NVV的等错误率(EER)从38.93%降至22.66%,语音EER从13.17%降至9.24%。
Two days into blind voting of voice models on our Humanness IndexTM, and xAI's Grok TTS model is at the top of the pack....
同一事件,精选展示《Grok 成为 Vapi 的默认语音引擎》《粉雄救兵》生活教练 Karamo Brown 推出健康应用 Kē,其核心特色为基于 AI 初创公司 Delphi 技术打造的“AI Karamo”数字克隆。该克隆通过学习 Brown 的采访、播客等内容,可与用户实时对话并提供建议。应用还提供个性化健身计划、基于家中食材的营养指导、冥想视频及社区支持功能。Kē 已上线 iOS 和 Android,订阅费 $14.99/月,提供 3 天免费试用。
Canonical 公布 Project Myna,为 Ubuntu 桌面打造的本地语音转文字工具,首个版本随 Ubuntu 26.10 发布。Myna 仅提供听写功能:用户按下键盘快捷键后说话,转录文字直接插入当前应用,屏幕显示视觉反馈。所有识别在本地运行,下载模型后无需联网;麦克风仅在激活时被访问,音频数据在内存中处理后丢弃。首版以 Wayland 上的 GNOME 为主要验证环境,架构采用模块化设计,源码和文档已以 GPLv3 协议托管于 GitHub。后续计划加强桌面集成并优化听写体验。
火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。该模型为原生全双工端到端语音大模型,具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命,指定话题出现时主动加入;支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升,误回复率与误打断率大幅降低;判停延迟缩短约250ms,复杂场景抢话比例下降40%,用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。
讯飞AI眼镜6月18日在京东首销,定价4299元(部分国补后3369元),重40克,获SGS舒适认证。核心搭载语音同传大模型,支持122种语言翻译,覆盖通话翻译、线上同传、同声传译(8米全向拾音)、面对面翻译(18语种离线)、视觉翻译及附赠App权益等六大场景。还支持实时提词、蓝牙遥控翻页,内置GlassClaw AI助理,可开会自动总结图文纪要。
MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型,支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器,通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%,CV3-Eval 上 WER 7.48%、SIM 61.59%,MiniMax Multilingual 上 WER 6.37%、SIM 75.31%,X Voice 上 WER 20.48%、SIM 63.00%。
Anthropic 正升级 Claude 的语音模式,新增西班牙语、中文、日语、德语、葡萄牙语、俄语和乌克兰语等语言选项,打破仅支持英语的限制。语音交互引入两种模式:原有的免提模式支持连续对话,新增按下通话模式需按住按钮说话、松手发送语音消息。iOS 版 Claude 应用出现类似电话听筒的新图标,外界猜测可能为更接近通话的语音交互做准备。
据《读佳》今日报道,千问团队将推出名为“千问输入法”的独立App,其AI功能与键盘针对手机端操作优化,区别于PC端千问语音输入法。产品已开发完成,择日上线各大应用商店。继微信输入法、豆包输入法后,这将是国内第三家头部互联网大厂入局独立AI输入法赛道。千问语音输入法是今年5月上线的AI语音输入能力,集成于千问App内,支持口语去语气词、纠错、格式化整理,以及基于上下文的智能回复、创作、问答与翻译指令。
分享一个跨国小团队用 NotebookLM 高效沟通对齐的方法:将公司关键文档上传至 NotebookLM,生成播客,自己听无误后转成所需语种让对方收听;沟通不清晰时还可通过文本问答澄清。该方法在小团队中效果很好,但对内容安全要求不高时适用。
Google推出首款专为Gemini打造的智能音箱Google Home Speaker,售价99.99美元。支持自然语言请求和多步指令,可在说话中途纠正,并具备连续对话功能。内置10种新声音。高级AI功能需订阅Google Home Premium(月费10美元或年费100美元),包括Gemini Live自由对话、Nest摄像头活动摘要等。即日起预售,本月发货。
谷歌去年八月发布的新款智能音箱 Google Home Speaker 现已开启预售,售价 $99.99,6 月 25 日正式开售。扁球体织物外观有淡褐、瓷白、翠绿和浆果红四色。支持 360 度声场,底部环形灯带在语音交互时亮起,配备三个远场麦克风和静音开关。内部搭载四核 A55 处理器及专用 NPU,运行本地 AI 模型提升降噪。仅有一个 58mm 全频驱动单元,音质介于 Nest Audio 与 Nest Mini 之间。可与 Google TV Streamer 配对实现沉浸式音频,兼容其他 Nest 设备。购买附赠六个月 Google Home Premium,启用 Gemini Live 支持连续对话。
Soniox 发布 v5 Real-Time 流式 STT 模型,在 AA-WER Streaming 基准上处于准确率与延迟的帕累托前沿。First Final 转录 WER 4.5%(延迟 0.05s),比 Deepgram Flux (7.4%, 0.02s) 和 Nova-3 Realtime (6.7%, 0.06s) 更准确,比 Cartesia Ink-2 (3.7%, 0.09s) 和 ElevenLabs Scribe v2 Realtime (3.6%, 0.14s) 更快。First Partial 转录 WER 4.7%(延迟 0.05s),准确率仅次于上述两款模型但速度更快。价格 $2/1000 分钟,为所有测试专有流式模型最低。支持 60+ 语言及实时翻译。
谷歌发布新一代 Google Home 智能音箱,搭载 Gemini for Home AI 语音助手,支持自然语言交流与多步骤语音指令,用户中途改口也能正确理解。球形设计,360° 环绕音效,麦克风系统可自动调节拾音。硬件:1GB LPDDR4 内存、四核 Cortex-A55 2.0GHz 处理器、4GB 存储,顶部电容触控,3D 织物材质三种配色。可与 Google TV Streamer 组成立体声环绕系统。6 月 25 日上市,定价 100 美元(约 677 元)。
Google Home Speaker 于 6 月 17 日开启预购,6 月 29 日发货,售价 $99。该音箱专为 Gemini for Home 设计,内置本地模型用于降噪和回声抑制,支持 360 度音频,可配对立体声或配合 Google TV Streamer 实现空间环绕声。它还是 Matter 控制器和 Thread 1.3 边界路由器。Gemini for Home 延迟降低 40%,修复超 25,000 个问题,新增 50 余项功能。部分高级功能(如 Gemini Live)需订阅 Google Home Premium($10/月),购买前可获赠 6 个月。
DeepL 收购了实时音频初创公司 Mixhalo,将其翻译套件扩展至现场活动。Mixhalo 成立于 2016 年,由 Incubus 吉他手 Mike Einziger 等联合创立,最初为演唱会改善听音体验,后转向体育及现场活动的实时音频服务,累计融资超 3900 万美元。Mixhalo 此前已是 DeepL 的主要翻译客户。DeepL 于 2024 年推出覆盖 33 种以上语言的语音转文本翻译,今年 4 月又推出支持多语言会议的语音转语音翻译套件。收购后,DeepL 将在旧金山湾区开设办公室以扩大美国业务。
OpenAI 正筹备推出 GPT-Bidi-1 模型,采用双向(BiDi)架构,能同时听和说,吸收用户打断并在对话中实时调整。相比已进化至 GPT-5.5 的文本模型,ChatGPT 的语音能力仍基于较旧音频技术栈,GPT-Bidi-1 旨在弥合这一差距。上线后用户可切换双向模式与现有高级语音模式,并支持 High、Medium 及 Instant 智能等级,按任务调整速度和深度。
GPT-Realtime 2 is the future of the operating system. I've been experimenting with it for a couple weeks now, and I gott...
6 月 17 日,谷歌正式推送 Android 17 正式版及 Wear OS 7,首发搭载 Pixel 设备。新系统集成音乐生成模型 Lyria 3、多模态大模型 Gemini Omni 及基于 AudioLM 的语音翻译工具(适配 Pixel 10a)。Pixel 专属更新:Gemini Omni 支持对话中剪辑视频,Lyria 3 可输入文字或图片生成曲目;老款 Pixel 8a、9a 快速分享兼容苹果 AirDrop。系统新增“气泡任务栏”多任务控件、同屏录摄、家长管控及折叠屏 50/50 游戏模式。手表新增车祸、摔倒、无脉搏自动呼救,续航提升 10%,夏季将上线 Gemini 桌面小组件。
Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。
🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...
Google 近日发布 Android 17 正式版及 Wear OS 7,率先登陆 Pixel 设备。Pixel Drop 新增 AI 模型支持:音乐生成模型 Lyria 3、多模态 Gemini Omni 及基于 AudioLM 的语音翻译工具(Pixel 10a)。Quick Share 文件分享兼容 Apple AirDrop。Android 17 引入“气泡栏”多任务界面、自拍屏幕录制、折叠游戏模式(50/50 布局与动态手柄)以及“标记为丢失”等安全与家长控制功能。Pixel Watch 新增车祸/跌落/无脉搏自动紧急呼叫。Wear OS 电池续航提升最高 10%,并将在夏季推出更多 Gemini 智能功能。
Today, we're announcing that we've closed our Series C and raised $100M to continue automating the world's most complex ...
🚨 OpenAI is planning to release GPT-Bidi-1 very soon Their next-generation voice model for more natural conversations [...
AI记事本公司Plaud宣布售出超200万台设备,订阅业务年化经常性收入(ARR)突破1亿美元。去年推出179美元的Plaud Pro,今年新增类似定价的Plaud Pin S。软件方面,年初上线桌面应用,可录制系统音频为在线会议做笔记;上月推出面向企业的Plaud Teams(含共享记忆)。用户购买硬件可免费获得300分钟转录,约50%的设备用户从基础版升级到Pro或无限版,构成主要收入来源。
Did Anthropic update voice mode?! This is 100 times better than ChatGPT!!
We released Sonic-3.5 and Ink-2, the #1 streaming models for text to speech and speech to text you can use in your voice...
苹果AI版Siri迟迟未上线,项目负责人迈克·罗克韦尔在WWDC技术分享会上透露,去年团队曾做出在原有Siri基础上小幅改良、新增工具调用的可运行版本,但因无法达到产品愿景,最终选择推倒重来,完整从零重构系统,依托全新大模型搭建。重构后的Siri拥有独立应用程序,原生支持多模态交互,隐私保护贯穿底层架构,并覆盖iPhone、iPad、Mac、Apple Watch、Vision Pro、CarPlay、AirPods等全平台,提供统一连贯体验。
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video(With Audio)与Image to Video(With Audio)双赛道第一,超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性,以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术,实现段落级文本控制与母带级混音,在旋律性(7.25)、表现力(6.89)等维度排名第一。此外,昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。
科大讯飞AI眼镜6月15日在京东开启预售,定价4299元(部分地区国补后低至3369元),重40克。搭载讯飞端到端语音同传大模型,支持122种语言(含方言、口音)翻译,覆盖通话翻译、线上同传、同声传译(8米全向拾音)、面对面翻译(18语种离线)、视觉翻译等六大场景。内置GlassClaw AI助理,支持一句话跨端任务、会议自动生成图文纪要、实时提词、蓝牙遥控翻页,并提供多种近视镜片选配。
苹果在 WWDC 公布 AI 版 Siri 等新功能,古尔曼称还有三项功能在开发,预计 9 月推出。包括:Apple Watch Ultra 简约版模块化极致表盘(保留大时钟但取消第二行组件);Siri 扩展功能将接入 ChatGPT 等第三方 AI,但苹果计划开发 API 让应用直接接入 Siri(而非单独签协议),隐私标准可能不同,推迟原因涉欧盟立场、关注度等;以及可自定义相机应用(调整按钮位置),将随 iPhone 18 Pro 于 9 月发布。
蚂蚁集团正对支付宝进行重大改版,引入AI Agent(AI智能体)交互界面。用户可通过文字或语音向AI助手“阿宝”发出叫网约车、点咖啡、点外卖等指令;在获得授权后,阿宝还能执行买基金、管理投资账户等理财任务。目前该版本尚无具体上线时间。
我尼玛!苹果现在安全性真的差! 世界果真就是草台班子、谁也不例外! 苹果新Siri AI的等候名单? 国外大神Mac用户直接一顿操作就把AI增强版给硬解锁了,名单这东西瞬间成了笑话。 WWDC刚秀完新Siri,大家还在排队等官方推送,结果有...
Simon Willison 于 2024 年 12 月构建了基于 OpenAI WebRTC API 的音频会话工具,用于与实时音频模型交互。上月 OpenAI 为该 API 推出新模型 GPT‑Realtime‑2,号称“首个具有 GPT‑5 级推理能力的语音模型”,知识截止日期为 2024 年 9 月 30 日。该工具现已更新,支持选择此模型,并可粘贴大段文档上下文,使用户能在浏览器中围绕任意信息进行音频对话。