微信派7月2日宣布,微信输入法上线语音转文字整理及隔空传送功能。用户使用语音转文字后,可点击“文字整理”选项优化内容,该功能已在iOS 3.5.1、Android 3.5.0、Mac 2.2.0、Windows 2.1.0等最新版全量上线。隔空传送支持两台均安装微信输入法的设备间快速传输照片和文件。此外,输入法还新增聊天自动匹配表情包功能,输入文字后可通过笑脸标识快速查询表情包。
微信派7月2日宣布,微信输入法上线语音转文字整理及隔空传送功能。用户使用语音转文字后,可点击“文字整理”选项优化内容,该功能已在iOS 3.5.1、Android 3.5.0、Mac 2.2.0、Windows 2.1.0等最新版全量上线。隔空传送支持两台均安装微信输入法的设备间快速传输照片和文件。此外,输入法还新增聊天自动匹配表情包功能,输入文字后可通过笑脸标识快速查询表情包。
FishAudio 将其付费级 TTS 模型 S2.1 Pro 免费开放给开发者使用,非阉割版,与付费套餐同款,支持 83 种语言且无严格限制。已集成的用户仅需修改模型名即可切换。语音赛道的模型层价格战已触底,小团队做 AI 客服、有声内容等应用时,TTS 调用成本可归零,竞争转向应用层价值创造。
7月2日,大疆推出 DJI Mic Mini 2S 迷你无线麦克风。发射器重约12克,支持32-bit浮点内录和14.5GB存储(28小时循环内录),内置自研降噪模型,提供强、弱两级AI降噪。单次续航11小时,搭配充电盒总续航约40小时。接收器最多同时连接四个发射器,支持单声道、立体声和四声道模式,无线传输距离最远400米。发射器支持蓝牙直连手机,并可直连Osmo Pocket 4等DJI设备。一拖二套装(含充电盒)1199元,一拖一套装629元,手机版一拖一套装629元,单发射器399元。
特斯拉车辆可自主驶入异响检测工位,车内麦克风捕捉杂音反馈工程团队。公司正研发“全向听觉系统”AI用于交付前识别装配缺陷。工厂各部门部署自研AI智能体系统,覆盖研发、供应链、售后、质检。Cybercab生产线约90%工序全自动化,未来产量或超越所有历史车型(Model Y累计近400万台)。星链有望搭载于Cybercab保障偏远地区信号。Optimus人形机器人首条量产线在弗里蒙特工厂落地,全模块化设计,约40条子生产线在德国制造。
Fish Audio 发布 S2.1 Pro 文本转语音模型,通过 API 免费使用至 2026 年 7 月 24 日。该模型支持 83 种语言、声音克隆及自然语言控制情感与韵律,质量、延迟和吞吐量均优于前代 S2 Pro。在 Artificial Analysis Speech Arena 排行榜上,S2.1 Pro 基于 1072 场竞技获得 Elo 1153,排名第 13,超过 Async Pro v1.0、Speech 2.8 Turbo 和 Step TTS 2。处理速度达 56.3 字符/秒,高于 GPT-Realtime-2(45.8 chars/s)和 Gemini 3.1 Flash TTS(25.3 chars/s)。
xAI 推出 Voice Agent Builder 无代码平台,基于原生 speech-to-speech 架构 Grok Voice,打通语音识别、大模型、语音合成全链路。用户用自然语言描述流程、上传文档作为知识库,两分钟即可生成带工具调用、安全护栏、全链路监控的完整语音智能体,并免费附赠一个电话号码。支持日历、搜索、工单等内置功能,可接入自有号码和系统。定价 $0.05/分钟,无额外平台费。
Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...
xAI 发布 Grok Voice Agent Builder(Beta),将 Grok 语音模型产品化,支持在浏览器中无代码、2 分钟搭建可打电话的 AI 助手。具备实时对话、亚秒延迟、25+ 语言,并可分配电话号码。相比传统方案门槛大幅降低。体验地址:http://x.ai/voice
xAI 推出 Voice Agent Builder 测试版,这是一个基于 Grok Voice 的无代码平台,可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性,支持连接现有 SIP 号码、API 和 WebSocket,采用语音到语音路径。在 τ-voice Bench 上,Grok Voice Think Fast 1.0 得分 67.3%,领先 Gemini 3.1 Flash Live(43.8%)和 GPT Realtime 1.5(35.3%)。定价为每分钟音频 0.05 美元、电话费 0.01 美元,提供 80+ 种语音及声音克隆,每个账户附赠一个免费电话号码。
Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...
Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...
FlexiSLM是首个支持动态可控帧率的语音语言模型。它利用动态帧率表示,在高质量操作点上超越了固定帧率的7B模型Qwen2.5-Omni和Kimi-Audio。FlexiSLM可精确控制帧率至4.0 Hz;在6.25 Hz下推理时间相比12.5 Hz减半,同时保持强语音质量。
Google 推出首款“为 Gemini 打造”的智能音箱 Home Speaker,售价 99.99 美元。硬件设计精巧,音质在体积相当的产品中表现良好,支持 360 度音效、立体声配对、Matter 控制及 Thread 边界路由器功能,可配合 Google TV Streamer 作为音频输出。然而,内置的 Gemini for Home 智能助手响应缓慢、不可靠,且部分功能需要付费才能使用。相比前代 Nest Audio,新款音箱尺寸更小但低频偏弱,在同价位竞品(Echo Dot Max、HomePod Mini)中音质排名第三。
本地跑了一遍 VoxCPM2,最让我意外的不是它会说粤语、河南话,而是"声音"正在变成一种可以编辑的东西。 写一句提示词,就能指定年龄、音色、情绪和语速;再上传一段参考音频,它还能保留音色,重新控制表达方式。 以前语音模型追求的是"像不像本...
AI 视觉艺术家 Dream Relic(Broc Vaughn)通过 Suno 的 Create 功能,将多年来积累的歌词转化为配乐歌曲,为其超现实、怀旧风格的影像世界赋予声音。他在 TikTok 和 Hooks 上发布的一首 Suno 生成曲目获得数百条评论,甚至有人表示“讨厌 AI 音乐但这是例外”。这一反响促使他更认真对待音乐创作——此前他曾与唱片公司和制作人合作但效果不佳。Dream Relic 正筹备发布全长专辑,并在 TikTok、Hooks、Spotify 等平台上线多首作品。
Artificial Analysis 发布 Controlled Voice Arena,通过语音克隆标准化 8 种声音(2 美男、2 美女、2 英男、2 英女),评估 TTS 模型的音频质量、发音、节奏与语调,分离声音偏好与模型质量。每个模型基于同一 1-2 分钟录音进行克隆。投票已开放,本周公布首批排行榜。
Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions(自动转录音频生成字幕)和 Edit Detection(自动检测剪辑点)。Mac 版加入 Auto Mask(自动识别皮肤、天空等主体)、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑,并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年,新用户免费试用一个月,教育用户 $2.99/月。
Netflix 真人秀《Wonka’s The Golden Ticket》将于 9 月 23 日首播。预告片旁白由 AI 生成,复刻了已故演员 Gene Wilder 的声音。Netflix 与 ElevenLabs 合作,并已获 Wilder 家人同意。节目被描述为“高赌注社会实验”,12 名金票获得者各携伴侣参赛,冠军将在 9 月 30 日的两集大结局中产生。
ByteDance 通过 BytePlus 推出 Seed Audio 1.0,一个非流式 TTS 模型,可在一次生成中同时输出语音、音乐和音效。支持参考音频引导、图像引导音频,以及语速、音量、音调等精细控制。与传统仅生成语音的 TTS 不同,它更像多模态音频生成模型,一次性完成复杂场景音频。目前仅对企业开放申请,早期反馈音频自然,但缺少对时长的精细控制。
Meet Seed Audio 1.0 - Now open for enterprise access application. A pioneering non-streaming TTS model that generates vo...
Grok's realtime voice is now on AI Gateway. Build with AI SDK 7: • xai/grok-voice-think-fast-1.0 (useRealtime) • xai/gro...
Grok's realtime voice is now on AI Gateway. Build with AI SDK 7: • xai/grok-voice-think-fast-1.0 (useRealtime) • xai/gro...
字节跳动旗下豆包App上线内置导航功能“豆包导航”(部分界面显示为“轻导航”)。步行与骑行路线支持App内原生导航,驾车与公共交通路线需跳转至高德地图完成服务,底层地图技术由百度地图提供。用户通过语音或文字输入目的地即可启动,系统生成包含四种出行方案的一体化地图卡片。内置导航配备实时语音播报,同步显示剩余路程、预计耗时、预估抵达时间,并支持悬浮小窗模式,可边导航边使用其他功能。
抖音反诈工具“验证助手”今日升级,新增语音输入和图片文本提取功能。验证框由多分类统一为单一输入框,系统通过意图识别模型自动判断信息类型并完成验证。老年人可上传可疑截图圈选文字区域,或语音描述短信、电话等内容,系统自动识别填入。截至目前,验证助手已累计服务超2800万人次,日均帮助约4万名用户鉴别风险。
阿里通义实验室Wan团队发布Wan Streamer v0.1,首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms,总延迟约550ms,25fps下流式处理单元160ms,分辨率192p。同步生成语音与面部视频,支持全双工打断,取消外部ASR/TTS/动画模块,通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证,未开放使用。
该论文测试老年人日常言语能否成为有效的认知监测双胞胎,结论基本可行。AI通过学习个体随时间变化的说话方式(节奏、停顿、主题、风格习惯),捕捉临床快照易漏掉的小模式——认知衰退往往在语言中早于明显症状出现。个性化模型能检测出与思维能力相关的细微言语变化,而普通GPT回答大多错过这些信号。研究显示,日常对话可成为一种低负担的长期认知健康追踪方式。
阿里千问输入法 macOS 版今日上线官网,支持最快 300 字/分的 AI 语音输入,可自动润色、将口语转为工整文字,并支持 9 种方言,纯净无广告。官方预告 iOS、Android、Windows 版将于近日发布。此前千问团队已于今年 5 月推出千问语音输入法(千问 App 内的组件),具备去语气词、纠错、格式化整理及基于上下文的智能回复等能力,而本次上线的输入法则定位为独立 App,填补千问在移动端 AI 输入法赛道的空白。
开发者 Leaf 开源项目,将网红峰哥做成能实时通话的 AI 分身,集成实时对话、音色克隆和人格注入,工程延迟压到 1 秒内。技术拆解:语音识别用 Cartesia ink-whisper 降噪防误触发;大模型选 MiniMax 高速版,首字响应 361ms;语音合成用 VoxCPM 开源克隆,15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通:克隆项目后,用 Claude Code 或 Cursor 配置,填两个 API Key 即可使用。
http://x.com/i/article/2070103285181349888
Voicenotes Dictation 现已上线 iOS。更新后,用户可在微信、邮件、笔记等任何有输入框的 App 中使用 Voicenotes 键盘直接说话,语音瞬间转文字。这相当于给整个 iOS 系统增加了一个 AI 语音输入法,突破了以往仅限 App 内语音输入的限制。从产品角度看,Voicenotes 将“语音输入”从功能提升为系统级基础设施,争夺用户在各 App 中的输入入口。
Voicenotes Dictation is now live on iOS. You can now use the Voicenotes keyboard to speak into any app with a text box -...
中兴通讯在上海世界移动通信大会推出 AI 智屏 2.0,搭载 4TOPS 算力 AI 芯片、云台摄像头及 433MHz 无线技术,采用电子相框一体化造型与 10.1 英寸全贴合屏幕,支持“小兴小兴”语音助手。通过 360° 红外和 433MHz 无线可语音控制电视、空调等传统家电,集成温湿度与光线传感器实现场景化控制。覆盖智能管家、康养伙伴(多模态 AI 识别)、伴学搭子(AI 家庭教师/扫描同传)、生活助手(智能订票/点外卖)、用网卫士五大场景。
Yesterday @jxnlco and I had a fantastic two-hour conversation that wandered through feature ideas, design philosophy, th...
魅族 FlymeAIOS 官方微博宣布,2026 年内手机将大规模升级,Flyme Auto 3.0 即将登场。Flyme Auto 发布于 2023 年 3 月,支持无缝接力、手机辅助 OTA、手机-汽车硬件互通、手机寻车、平行视窗、小窗展示、跨端可见即可说等功能。当前合作车型累计销量突破 300 万辆,合作车型达 45 款,2026 年 5 月单月新增超 141,609 辆。
理想AI眼镜Livis六月OTA升级,新增6项功能、优化6项功能。新增同声传译(聆听模式与对话模式),韩语、日语等19种语言8月上线。新增手机端语音助手唤醒(长按触控区),支持单次指令与多轮对话。新增按键与触控区个性化设置(可自定义拍照/录像/录音,长按唤醒“理想同学”或手机语音助手)。新增眼镜盒低电量弹窗提醒(低于20%)。新增理想同学拟人化知性音色。单次录音时长放开至最高7小时。优化竖版视频画质(影像数据处理能力提升42%),优化视频传输(同画质下传输时间缩短约20%)。
Gradium 发布两款实时语音翻译模型:stt-translate(语音转文本)和 s2s-translate(语音转语音)。两者覆盖英语、法语、德语、西班牙语、葡萄牙语共 5 种语言、20 个语言对,将转录和翻译合并为一步,传统 3 模型级联缩减为 2 模型。stt-translate 在 BLEU 和 MetricX 指标上领先 gemini-3.5-live-translate,BLEU 领先 gpt-realtime-translate,MetricX 可比。s2s-translate 平均延迟 3.0s,优于 gpt-realtime-translate(3.6s),略逊于 gemini-3.5-live-translate(2.9s)。支持从目录选择输出语音或克隆自己的声音,通过单条双工 WebSocket 传输。
Google Gemini桌面版新增两大功能:Speak to Window允许用户在任意窗口按住fn键语音指挥Gemini写邮件、写文档、生成图片,操作在当前应用内完成;Magic Pointer可圈选屏幕信息,让Gemini理解上下文后执行编辑、总结或创建任务。目标是把Gemini变成系统级上下文感知助手,抢占工作流入口。
Treble Technologies 与 Hugging Face 联合推出 FFASR(Far-Field ASR)排行榜,这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据,涵盖 14 种房间(20–470 m³)和三个信噪比级别(远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB),加上近场干燥条件,共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率(WER)和实时因子(RTFx,在 NVIDIA L4 GPU 上评估)。未来将支持多说话人场景、麦克风阵列和回声消除。
GOOGLE 🔥: Gemini desktop app for macOS will get a new voice dictation feature called "Speak to Window" that works with ...