7月3日

00:06

IT之家（RSS）

微信派7月2日宣布，微信输入法上线语音转文字整理及隔空传送功能。用户使用语音转文字后，可点击“文字整理”选项优化内容，该功能已在iOS 3.5.1、Android 3.5.0、Mac 2.2.0、Windows 2.1.0等最新版全量上线。隔空传送支持两台均安装微信输入法的设备间快速传输照片和文件。此外，输入法还新增聊天自动匹配表情包功能，输入文字后可通过笑脸标识快速查询表情包。

产品更新语音

7月2日

20:06

IT之家（RSS）

大疆发布迷你无线麦克风 DJI Mic Mini 2S：32-bit 浮点内录、自研降噪，399-1199 元

7月2日，大疆推出 DJI Mic Mini 2S 迷你无线麦克风。发射器重约12克，支持32-bit浮点内录和14.5GB存储（28小时循环内录），内置自研降噪模型，提供强、弱两级AI降噪。单次续航11小时，搭配充电盒总续航约40小时。接收器最多同时连接四个发射器，支持单声道、立体声和四声道模式，无线传输距离最远400米。发射器支持蓝牙直连手机，并可直连Osmo Pocket 4等DJI设备。一拖二套装（含充电盒）1199元，一拖一套装629元，手机版一拖一套装629元，单发射器399元。

产品更新语音

15:04

IT之家（RSS）

AI 技术用于工厂质检：特斯拉车间靠车载麦克风自动检测车辆异响

特斯拉车辆可自主驶入异响检测工位，车内麦克风捕捉杂音反馈工程团队。公司正研发“全向听觉系统”AI用于交付前识别装配缺陷。工厂各部门部署自研AI智能体系统，覆盖研发、供应链、售后、质检。Cybercab生产线约90%工序全自动化，未来产量或超越所有历史车型（Model Y累计近400万台）。星链有望搭载于Cybercab保障偏远地区信号。Optimus人形机器人首条量产线在弗里蒙特工厂落地，全模块化设计，约40条子生产线在德国制造。

行业动态语音部署/工程

00:20

xAI：News（网页）

精选77

xAI 发布 Voice Agent Builder 测试版

xAI 推出 Voice Agent Builder 测试版，这是一个基于 Grok Voice 的无代码平台，可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性，支持连接现有 SIP 号码、API 和 WebSocket，采用语音到语音路径。在 τ-voice Bench 上，Grok Voice Think Fast 1.0 得分 67.3%，领先 Gemini 3.1 Flash Live（43.8%）和 GPT Realtime 1.5（35.3%）。定价为每分钟音频 0.05 美元、电话费 0.01 美元，提供 80+ 种语音及声音克隆，每个账户附赠一个免费电话号码。

智能体 MCP/工具 xAI 产品更新

关联讨论 1 条

推荐理由：xAI 用 Grok Voice 原生的语音到语音路径，把生产级语音代理的搭建门槛降到了无代码、两分钟，计费也简单，做语音业务的人值得试试。

7月1日

20:28

HuggingFace Daily Papers（社区热门论文）

FlexiSLM：一种动态可控帧率的语音语言模型

FlexiSLM是首个支持动态可控帧率的语音语言模型。它利用动态帧率表示，在高质量操作点上超越了固定帧率的7B模型Qwen2.5-Omni和Kimi-Audio。FlexiSLM可精确控制帧率至4.0 Hz；在6.25 Hz下推理时间相比12.5 Hz减半，同时保持强语音质量。

论文/研究语音

20:25

The Verge：AI（RSS）

Google Home Speaker 评测：硬件出色但 Gemini 尚未成熟

Google 推出首款“为 Gemini 打造”的智能音箱 Home Speaker，售价 99.99 美元。硬件设计精巧，音质在体积相当的产品中表现良好，支持 360 度音效、立体声配对、Matter 控制及 Thread 边界路由器功能，可配合 Google TV Streamer 作为音频输出。然而，内置的 Gemini for Home 智能助手响应缓慢、不可靠，且部分功能需要付费才能使用。相比前代 Nest Audio，新款音箱尺寸更小但低频偏弱，在同价位竞品（Echo Dot Max、HomePod Mini）中音质排名第三。

Google 评测/基准语音

05:25

Suno：Blog（网页）

Dream Relic：用 Suno 为超现实影像配乐

AI 视觉艺术家 Dream Relic（Broc Vaughn）通过 Suno 的 Create 功能，将多年来积累的歌词转化为配乐歌曲，为其超现实、怀旧风格的影像世界赋予声音。他在 TikTok 和 Hooks 上发布的一首 Suno 生成曲目获得数百条评论，甚至有人表示“讨厌 AI 音乐但这是例外”。这一反响促使他更认真对待音乐创作——此前他曾与唱片公司和制作人合作但效果不佳。Dream Relic 正筹备发布全长专辑，并在 TikTok、Hooks、Spotify 等平台上线多首作品。

其他语音

01:29

Apple：Newsroom（RSS）

精选66

Apple Creator Studio 更新：更智能、更快速、更互联

Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions（自动转录音频生成字幕）和 Edit Detection（自动检测剪辑点）。Mac 版加入 Auto Mask（自动识别皮肤、天空等主体）、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑，并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年，新用户免费试用一个月，教育用户 $2.99/月。

产品更新图像生成语音

推荐理由：Final Cut Pro 的自动字幕和遮罩是实打实的工作流提升，Pixelmator Pro 的深度整合也让设计更顺畅，虽然没有颠覆性突破，但创意工作者今天就能用上。

01:25

The Verge：AI（RSS）

Netflix 在《Wonka's The Golden Ticket》真人秀中使用 AI 复刻 Gene Wilder 声音

Netflix 真人秀《Wonka’s The Golden Ticket》将于 9 月 23 日首播。预告片旁白由 AI 生成，复刻了已故演员 Gene Wilder 的声音。Netflix 与 ElevenLabs 合作，并已获 Wilder 家人同意。节目被描述为“高赌注社会实验”，12 名金票获得者各携伴侣参赛，冠军将在 9 月 30 日的两集大结局中产生。

行业动态语音

6月29日

21:01

IT之家（RSS）

豆包App上线"豆包导航"功能，支持步行与骑行原生导航

字节跳动旗下豆包App上线内置导航功能“豆包导航”（部分界面显示为“轻导航”）。步行与骑行路线支持App内原生导航，驾车与公共交通路线需跳转至高德地图完成服务，底层地图技术由百度地图提供。用户通过语音或文字输入目的地即可启动，系统生成包含四种出行方案的一体化地图卡片。内置导航配备实时语音播报，同步显示剩余路程、预计耗时、预估抵达时间，并支持悬浮小窗模式，可边导航边使用其他功能。

产品更新语音

19:01

IT之家（RSS）

抖音反诈工具"验证助手"新增识图与语音功能，方便老年用户鉴别诈骗

抖音反诈工具“验证助手”今日升级，新增语音输入和图片文本提取功能。验证框由多分类统一为单一输入框，系统通过意图识别模型自动判断信息类型并完成验证。老年人可上传可疑截图圈选文字区域，或语音描述短信、电话等内容，系统自动识别填入。截至目前，验证助手已累计服务超2800万人次，日均帮助约4万名用户鉴别风险。

产品更新多模态语音

6月27日

11:59

IT之家（RSS）

精选73

阿里千问输入法上线 macOS 版：最快 300 字/分，AI 自动润色

阿里千问输入法 macOS 版今日上线官网，支持最快 300 字/分的 AI 语音输入，可自动润色、将口语转为工整文字，并支持 9 种方言，纯净无广告。官方预告 iOS、Android、Windows 版将于近日发布。此前千问团队已于今年 5 月推出千问语音输入法（千问 App 内的组件），具备去语气词、纠错、格式化整理及基于上下文的智能回复等能力，而本次上线的输入法则定位为独立 App，填补千问在移动端 AI 输入法赛道的空白。

产品更新语音

推荐理由：阿里千问把AI语音能力做成了独立输入法，300字/分+9种方言让语音转文字实用性大增，对不习惯打字的普通用户可能比单纯聊天工具更有粘性。

6月26日