微信派7月2日宣布,微信输入法上线语音转文字整理及隔空传送功能。用户使用语音转文字后,可点击“文字整理”选项优化内容,该功能已在iOS 3.5.1、Android 3.5.0、Mac 2.2.0、Windows 2.1.0等最新版全量上线。隔空传送支持两台均安装微信输入法的设备间快速传输照片和文件。此外,输入法还新增聊天自动匹配表情包功能,输入文字后可通过笑脸标识快速查询表情包。
微信派7月2日宣布,微信输入法上线语音转文字整理及隔空传送功能。用户使用语音转文字后,可点击“文字整理”选项优化内容,该功能已在iOS 3.5.1、Android 3.5.0、Mac 2.2.0、Windows 2.1.0等最新版全量上线。隔空传送支持两台均安装微信输入法的设备间快速传输照片和文件。此外,输入法还新增聊天自动匹配表情包功能,输入文字后可通过笑脸标识快速查询表情包。
7月2日,大疆推出 DJI Mic Mini 2S 迷你无线麦克风。发射器重约12克,支持32-bit浮点内录和14.5GB存储(28小时循环内录),内置自研降噪模型,提供强、弱两级AI降噪。单次续航11小时,搭配充电盒总续航约40小时。接收器最多同时连接四个发射器,支持单声道、立体声和四声道模式,无线传输距离最远400米。发射器支持蓝牙直连手机,并可直连Osmo Pocket 4等DJI设备。一拖二套装(含充电盒)1199元,一拖一套装629元,手机版一拖一套装629元,单发射器399元。
特斯拉车辆可自主驶入异响检测工位,车内麦克风捕捉杂音反馈工程团队。公司正研发“全向听觉系统”AI用于交付前识别装配缺陷。工厂各部门部署自研AI智能体系统,覆盖研发、供应链、售后、质检。Cybercab生产线约90%工序全自动化,未来产量或超越所有历史车型(Model Y累计近400万台)。星链有望搭载于Cybercab保障偏远地区信号。Optimus人形机器人首条量产线在弗里蒙特工厂落地,全模块化设计,约40条子生产线在德国制造。
xAI 推出 Voice Agent Builder 测试版,这是一个基于 Grok Voice 的无代码平台,可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性,支持连接现有 SIP 号码、API 和 WebSocket,采用语音到语音路径。在 τ-voice Bench 上,Grok Voice Think Fast 1.0 得分 67.3%,领先 Gemini 3.1 Flash Live(43.8%)和 GPT Realtime 1.5(35.3%)。定价为每分钟音频 0.05 美元、电话费 0.01 美元,提供 80+ 种语音及声音克隆,每个账户附赠一个免费电话号码。
关联讨论 1 条X:xAI (@xai)FlexiSLM是首个支持动态可控帧率的语音语言模型。它利用动态帧率表示,在高质量操作点上超越了固定帧率的7B模型Qwen2.5-Omni和Kimi-Audio。FlexiSLM可精确控制帧率至4.0 Hz;在6.25 Hz下推理时间相比12.5 Hz减半,同时保持强语音质量。
Google 推出首款“为 Gemini 打造”的智能音箱 Home Speaker,售价 99.99 美元。硬件设计精巧,音质在体积相当的产品中表现良好,支持 360 度音效、立体声配对、Matter 控制及 Thread 边界路由器功能,可配合 Google TV Streamer 作为音频输出。然而,内置的 Gemini for Home 智能助手响应缓慢、不可靠,且部分功能需要付费才能使用。相比前代 Nest Audio,新款音箱尺寸更小但低频偏弱,在同价位竞品(Echo Dot Max、HomePod Mini)中音质排名第三。
AI 视觉艺术家 Dream Relic(Broc Vaughn)通过 Suno 的 Create 功能,将多年来积累的歌词转化为配乐歌曲,为其超现实、怀旧风格的影像世界赋予声音。他在 TikTok 和 Hooks 上发布的一首 Suno 生成曲目获得数百条评论,甚至有人表示“讨厌 AI 音乐但这是例外”。这一反响促使他更认真对待音乐创作——此前他曾与唱片公司和制作人合作但效果不佳。Dream Relic 正筹备发布全长专辑,并在 TikTok、Hooks、Spotify 等平台上线多首作品。
Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions(自动转录音频生成字幕)和 Edit Detection(自动检测剪辑点)。Mac 版加入 Auto Mask(自动识别皮肤、天空等主体)、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑,并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年,新用户免费试用一个月,教育用户 $2.99/月。
Netflix 真人秀《Wonka’s The Golden Ticket》将于 9 月 23 日首播。预告片旁白由 AI 生成,复刻了已故演员 Gene Wilder 的声音。Netflix 与 ElevenLabs 合作,并已获 Wilder 家人同意。节目被描述为“高赌注社会实验”,12 名金票获得者各携伴侣参赛,冠军将在 9 月 30 日的两集大结局中产生。
字节跳动旗下豆包App上线内置导航功能“豆包导航”(部分界面显示为“轻导航”)。步行与骑行路线支持App内原生导航,驾车与公共交通路线需跳转至高德地图完成服务,底层地图技术由百度地图提供。用户通过语音或文字输入目的地即可启动,系统生成包含四种出行方案的一体化地图卡片。内置导航配备实时语音播报,同步显示剩余路程、预计耗时、预估抵达时间,并支持悬浮小窗模式,可边导航边使用其他功能。
抖音反诈工具“验证助手”今日升级,新增语音输入和图片文本提取功能。验证框由多分类统一为单一输入框,系统通过意图识别模型自动判断信息类型并完成验证。老年人可上传可疑截图圈选文字区域,或语音描述短信、电话等内容,系统自动识别填入。截至目前,验证助手已累计服务超2800万人次,日均帮助约4万名用户鉴别风险。
阿里千问输入法 macOS 版今日上线官网,支持最快 300 字/分的 AI 语音输入,可自动润色、将口语转为工整文字,并支持 9 种方言,纯净无广告。官方预告 iOS、Android、Windows 版将于近日发布。此前千问团队已于今年 5 月推出千问语音输入法(千问 App 内的组件),具备去语气词、纠错、格式化整理及基于上下文的智能回复等能力,而本次上线的输入法则定位为独立 App,填补千问在移动端 AI 输入法赛道的空白。
中兴通讯在上海世界移动通信大会推出 AI 智屏 2.0,搭载 4TOPS 算力 AI 芯片、云台摄像头及 433MHz 无线技术,采用电子相框一体化造型与 10.1 英寸全贴合屏幕,支持“小兴小兴”语音助手。通过 360° 红外和 433MHz 无线可语音控制电视、空调等传统家电,集成温湿度与光线传感器实现场景化控制。覆盖智能管家、康养伙伴(多模态 AI 识别)、伴学搭子(AI 家庭教师/扫描同传)、生活助手(智能订票/点外卖)、用网卫士五大场景。
魅族 FlymeAIOS 官方微博宣布,2026 年内手机将大规模升级,Flyme Auto 3.0 即将登场。Flyme Auto 发布于 2023 年 3 月,支持无缝接力、手机辅助 OTA、手机-汽车硬件互通、手机寻车、平行视窗、小窗展示、跨端可见即可说等功能。当前合作车型累计销量突破 300 万辆,合作车型达 45 款,2026 年 5 月单月新增超 141,609 辆。
理想AI眼镜Livis六月OTA升级,新增6项功能、优化6项功能。新增同声传译(聆听模式与对话模式),韩语、日语等19种语言8月上线。新增手机端语音助手唤醒(长按触控区),支持单次指令与多轮对话。新增按键与触控区个性化设置(可自定义拍照/录像/录音,长按唤醒“理想同学”或手机语音助手)。新增眼镜盒低电量弹窗提醒(低于20%)。新增理想同学拟人化知性音色。单次录音时长放开至最高7小时。优化竖版视频画质(影像数据处理能力提升42%),优化视频传输(同画质下传输时间缩短约20%)。
Gradium 发布两款实时语音翻译模型:stt-translate(语音转文本)和 s2s-translate(语音转语音)。两者覆盖英语、法语、德语、西班牙语、葡萄牙语共 5 种语言、20 个语言对,将转录和翻译合并为一步,传统 3 模型级联缩减为 2 模型。stt-translate 在 BLEU 和 MetricX 指标上领先 gemini-3.5-live-translate,BLEU 领先 gpt-realtime-translate,MetricX 可比。s2s-translate 平均延迟 3.0s,优于 gpt-realtime-translate(3.6s),略逊于 gemini-3.5-live-translate(2.9s)。支持从目录选择输出语音或克隆自己的声音,通过单条双工 WebSocket 传输。
Treble Technologies 与 Hugging Face 联合推出 FFASR(Far-Field ASR)排行榜,这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据,涵盖 14 种房间(20–470 m³)和三个信噪比级别(远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB),加上近场干燥条件,共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率(WER)和实时因子(RTFx,在 NVIDIA L4 GPU 上评估)。未来将支持多说话人场景、麦克风阵列和回声消除。
Google 新款 Home Speaker 售价 99 美元,体积小巧但音质饱满,低音优于同尺寸的 UE Wonderboom,清晰度和响度均超过 Amazon Echo Dot Max。配备三个麦克风,唤醒词识别灵敏,即便在淋浴中也能响应“Hey, Google”。外观呈彩色毛线球状,无可见按键;音量可通过点击左右侧调节,但触控区域小且方向不直观,顶部播放/暂停触控正常。灯光环隐藏于底部,反馈不够明显。不支持标准蓝牙,可通过 Google Cast 串流或与 Google TV Streamer 配对。内置 Gemini 智能助手,可用于控制家居、规划日程和查询信息。
OpenAI 在 GitHub 开源 Plant Talk 项目,通过 Codex Desktop 连接 ChatGPT,让室内植物具备语音能力。用户可与植物语音交流,如询问“最近怎么样?”“需要浇水吗?”等。系统支持 Arduino、土壤湿度传感器、LM393 光照传感器获取环境数据,还可连接二氧化碳传感器、空气湿度传感器。用户可创建不同植物人格,如高冷仙人掌、话痨绿萝、吐槽多肉。搭建需配备麦克风、摄像头、扬声器的电脑及 OpenAI 账户。
6月23日,部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1,位于设置模型选择器中,与标准语音和高级语音并列。该模型支持边说话边监听,用户可在对话中途打断并发出新指令,例如要求从1数到10时中途喊停倒数,模型会立即切换执行。OpenAI 尚未官宣,预计本周启动更大范围测试。
独立音乐平台 Jamendo 在美国加州联邦法院起诉英伟达,指控其未经授权使用 MTG-Jamendo 数据集(约 5.6 万首曲目)训练 Fugatto、Audio Flamingo 两款音频大模型。该数据集仅限非商用科研用途。2024 年 3 月发现后多次协商无果,2025 年 6 月寄出商用账单(1610 万欧元)并在比利时起诉。本次美国诉状主张直接著作权侵权、违约、不当得利、不正当竞争,最低索赔 1780 万欧元(含逾期利息)。
火山引擎昨日发布豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0),首次支持文本、音频等多模态参考生成,端到端输出目标音频,长时生成中保持多角色音色一致性。用户可通过单条 Prompt 编排角色对白、情绪语气、背景音乐、环境氛围,直接产出成片级音频。模型一次支持 2 分钟音频创作,可多次延长且保持音色统一;实现零样本多模态生成,支持音色与风格解耦控制。火山方舟已开启 API 邀测,个人用户可免费体验 30 分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。
针对不同实时语音应用需单独训练增强模型的痛点,本文提出一种通用实时语音增强模型,可同时控制算法延迟与计算延迟。算法延迟通过可配置的前瞻帧灵活调整,并引入并行卷积层应对不同填充配置带来的学习低效;计算延迟由早期退出机制控制,支持在不同网络深度推理。两阶段训练策略(共享到多解码器过渡)缩小了通用模型与专用模型的性能差距。该框架使单个模型可在多种延迟预算下部署,无需重新训练。
tvOS 27 首个开发者测试版代码显示,苹果正为 Apple TV 和 HomePod 引入 AI 功能。系统底层新增多个 Apple Intelligence 相关框架,HomePod 首次设置流程中直接提及 Siri AI。代码中还出现 N1 芯片(蓝牙与 Wi-Fi 处理器),该芯片未搭载于当前在售机型,被视作苹果推进智能家居新品的线索。
该教程通过Python使用NVIDIA Canary-1B-v2构建语音识别与翻译管线:先安装NeMo ASR工具包和音频依赖,在GPU上加载模型;将音频处理为16 kHz单声道格式后,执行英语ASR,将语音翻译为25种语言,生成词级和时间段时间戳,导出SRT字幕文件,并支持长文本转录、批处理与推理速度基准测试。
Meta 首次以自有品牌推出三款智能眼镜:Adventurer、Fury 及与凯莉·詹娜合作的 Starfire。Adventurer 和 Fury 售价 299 美元,Starfire 售价 399 美元,均比去年雷朋 Meta Wayfarer 便宜 80 美元。眼镜由 Meta 设计、依视路陆逊梯卡生产,内置摄像头、扬声器,支持与 Meta AI 对话、翻译及拍摄,预装最新 AI 模型 Muse Spark。鼻托三档可调,提供多种配色与镜片选项。Meta 透露未来可能推出无摄像头版本,并计划最终进入 AR 眼镜市场。
网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。
火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。
语音智能体面临响应速度与复杂能力的权衡。ConvFill 提出“对话式填充”(conversational infill)方法:用小参数 talker 模型实时生成上下文响应,隐藏外部 reasoner 模型的推理延迟,并在推理中动态整合 reasoner 的流式知识。基于 290,571 条合成数据、6 个领域、7 个 135M–1.7B 参数小语言模型验证任务可学习性。系统保持毫秒级首次响应时间,准确性差距缩小至前沿 reasoner 模型的 6.3% 以内。在 Apple M2 SoC 上的 18 人用户研究中,ConvFill 整体与前沿模型持平,检索密集型任务更受青睐,响应性显著更高。代码、模型和数据集已开源。
Wan-Streamer v0.1 是原生流式、端到端的交互基础模型,在单一 Transformer 中统一建模语言、音频和视频的输入与输出,序列表示为交错视觉、音频、文本 token,通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块,感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计,支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms,结合 350 ms 双向网络延迟后总交互延迟约 550 ms,实现亚秒级全双工音视频通信。
亚马逊正将生成式AI对话助手Alexa+扩展至印度,邀请用户参与印地语版Beta测试。测试版可能存在Bug,或提供不准确信息及误发音本地用语。Alexa+尚未在印度上线,具体时间未定。亚马逊于2017年在印度推出英语版Alexa,2019年加入印地语支持。Alexa+于2025年发布,今年2月向所有美国用户开放,随后扩展至英国、加拿大等国。Prime会员免费,其他用户付费。
华为智慧屏今日推送系统更新,主要新增或优化:标准模式新增儿童时长管控(设置>通用>使用时间管理);畅连小窗支持自由调节窗口大小;观看影视剧时可呼叫小艺进行人物、剧情等问答;超级桌面分辨率由1080P提升至2K;遥控器支持控制外接设备(需开启CEC);开关机菜单支持自定义预设焦点;智慧屏可与全屋吸顶音箱联动;AI语音唤醒准确率和响应时延优化;门锁画中画联动显示接听设备名称及位置,并支持挂断。官方暂未公布新版本具体型号及适用机型。
开源硬件制造商 PINE64 于本月 19 日推出 PineVoice 智能音箱,售价 49.99 美元(约 339.4 元人民币),可加购 14.99 美元的 Zigbee 加密狗。该音箱集成双麦克风阵列、音量控制和硬件麦克风静音按钮,基于博流智能 BL606P 无线多模网关芯片(含玄铁 C906 和 E907 内核),拥有 788KB SRAM、32MiB pSRAM 和 16MiB 闪存,支持 Wi-Fi (802.11 b/g/n) 及蓝牙 5.X,具备本地唤醒词检测,默认固件支持 Wyoming Satellite 远程语音卫星项目。
豆包在 App 内灰度上线一键打车服务,由曹操出行提供运力。获灰测用户可直接在对话框口述出行需求,系统自动识别起止地点、人数与用车偏好,匹配曹操出行后一键确认派单。目前北京、杭州部分用户已获灰测资格。曹操出行司机接单后弹窗提示“本单是豆包服务订单”,完成可获 2 元平台惊喜服务费。曹操出行上周在2026国际汽车及供应链博览会(香港)发布 RoboX 战略,提出“双十万计划”——到2030年累计部署10万辆Robotaxi与10万辆Robovan,同时成立AI事业部推进全面AI转型。
马斯克在 X 平台回复称,Grok 语音控制特斯拉 FSD(监督版)功能预计约三个月后上线,今年秋季推送全系车辆。此前 Grok 已作为车载助手上线,通过 2025 假日版本更新增加导航语音指令,2026 春季更新新增“嘿 Grok”唤醒与位置提醒。新功能将允许用户用自然语言设定 FSD 行驶逻辑,无需手动打转向灯;停车场景提升显著,可实时口述精准泊车指令,弥补 14.1 版本“抵达目的地自动泊车”模式有限。
通过logit lens分析不同家族和规模的交错式语音语言模型,发现模型在中间层隐式地将语音转录为文本token——77%的数据中目标语音对应的文本词出现在候选词前列,随后模型在文本空间中预测下一个词再转回语音域。这一行为并非源自语音识别训练,交错数据和文本LM初始化是诱发该机制的关键因素。
visionOS 27 将于今秋推送。M5 Vision Pro 独占 Siri 语音定制(Voice Customization),用户可自由调整语气表现力和语速;同时独占搭载 AFM 3 Core Advanced 本地 AI 模型,该模型支持原生多模态能力并采用稀疏架构,需 M5 芯片算力支撑。M2 款 Vision Pro 可共享 visionOS 27 大部分升级,包括 Siri AI、全景照片转空间场景、重新设计的控制中心、更智能的自然语言理解及语音操作交互等。苹果承诺未来通过云端计算为 M2 设备提供部分 AI 功能的折中方案,具体细节尚未公布。
信实工业在年度股东大会上发布 AI 通话助手 Jio Call Agent,直接嵌入 Jio 电信网络,可转录对话、生成摘要,并帮助用户叫车、点餐和预订,用户通过“Hey Jio”唤醒,预计今年晚些上线,覆盖超 5 亿用户。同时推出 AI 版 MyJio,支持自然语言指令完成开通 eSIM、选漫游套餐等操作;TeleFrame 可利用 AI 智能体主动显示天气预警、日程和家庭提醒。信实还通过 Reliance Intelligence 为消费者、企业和政府开发支持印度 22 种语言的 AI 基础设施。安巴尼强调印度不能只做 AI 消费者,而应成为创造者和全球领导者。
印度信实工业在年度股东大会上发布AI服务:Jio Call Agent可加入电话会议转录、总结并执行叫车、订餐等任务,通过“Hey Jio”激活,今年晚些时候面向超5亿用户上线;MyJio应用新增AI版,支持自然语言激活eSIM、选择漫游套餐;家庭显示设备TeleFrame利用AI智能体推送天气、日程提醒;还推出医疗、教育、农业和中小企业AI套件,支持22种印度语言。公司计划投资1100亿美元建设AI基础设施,并与Google、Meta、Nvidia合作。此外,Jio Platforms董事会批准IPO草案,拟发行最多2.7亿股新股。
针对非语言发声(NVV)中说话人身份一致性评估,现有说话人验证(SV)系统泛化差且微调会导致灾难性遗忘。本文提出融合冻结Data2Vec自监督特征与ECAPA-TDNN的框架,并加入带领域感知路由的混合专家(MoE)模块。通过预训练教师模型在语音输入上施加条件蒸馏损失以保持语音验证精度,同时用对比损失弥合语音与NVV的域间差距。该方法将NVV的等错误率(EER)从38.93%降至22.66%,语音EER从13.17%降至9.24%。