AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
今天7月3日 周五
00:06IT之家(RSS)47微信输入法新增"语音转文字整理"功能,手机、PC均已上线
7月2日周四
21:21AYi65FishAudio S2.1 Pro TTS 免费开放给开发者
20:06IT之家(RSS)47大疆发布迷你无线麦克风 DJI Mic Mini 2S:32-bit 浮点内录、自研降噪,399-1199 元
15:04IT之家(RSS)56AI 技术用于工厂质检:特斯拉车间靠车载麦克风自动检测车辆异响
07:03Artificial Analysis68Fish Audio S2.1 Pro 文本转语音模型发布
02:21AYi71xAI 发布无代码 Voice Agent Builder,基于 Grok Voice 原生语音架构
00:31Berryxia.AI69xAI 推出 Grok Voice Agent Builder Beta,无代码部署语音 AI 助手
00:20xAI:News(网页)77精选xAI 发布 Voice Agent Builder 测试版
00:02Andrew Milich67可连接日程、知识库与API的语音智能体
00:02xAI73xAI 推出 Voice Agent Builder 语音智能体平台
00:00🚨 AI News | TestingCatalog74xAI 推出语音智能体构建工具
7月1日周三
20:28HuggingFace Daily Papers(社区热门论文)51FlexiSLM: 一种动态可控帧率的语音语言模型
20:25The Verge:AI(RSS)53Google Home Speaker 评测:硬件出色但 Gemini 尚未成熟
14:41OpenBMB55VoxCPM2:2B开源语音编辑模型,声音可像滤镜一样调整
05:25Suno:Blog(网页)40Dream Relic:用 Suno 为超现实影像配乐
03:58Artificial Analysis58Artificial Analysis 推出受控语音竞技场
01:29Apple:Newsroom(RSS)66精选Apple Creator Studio 更新:更智能、更快速、更互联
01:25The Verge:AI(RSS)51Netflix 在《Wonka's The Golden Ticket》真人秀中使用 AI 复刻 Gene Wilder 声音
6月30日周二
23:29Berryxia.AI57ByteDance 推 Seed Audio 1.0:多模态音频生成模型
06:21Runway56Runway 推出 Seed Audio 1.0 音频生成
02:27Andrew Milich56xAI Grok 语音模型上线 Vercel AI Gateway
02:25xAI47xAI语音API登陆Vercel AI Gateway
6月29日周一
21:01IT之家(RSS)41豆包App上线"豆包导航"功能,支持步行与骑行原生导航
19:01IT之家(RSS)55抖音反诈工具"验证助手"新增识图与语音功能,方便老年用户鉴别诈骗
6月27日周六
17:29小互64Wan Streamer v0.1:首个端到端Transformer实时音视频对话模型
15:24Rohan Paul46语言数字双胞胎助力老年人认知监测:日常言语可作为低负担追踪工具
11:59IT之家(RSS)73精选阿里千问输入法上线 macOS 版:最快 300 字/分,AI 自动润色
00:16AYi76精选Leaf 开源项目:将网红峰哥做成实时通话 AI 分身
00:11Google Gemini47Gemini Drops 本月新功能一览
6月26日周五
16:20Berryxia.AI70Voicenotes 将语音输入做成 iOS 系统级键盘
15:59IT之家(RSS)53中兴通讯发布 AI 智屏 2.0:支持语音助手,红外控制传统家电
03:13jason38Codex 将2小时语音备忘录转化为PR与视频脚本
01:24gabriel64语音提示改主意给模型更多上下文
6月25日周四
18:58IT之家(RSS)8魅族 Flyme Auto 3.0 智能座舱系统官宣今年登场
11:58IT之家(RSS)29理想AI眼镜Livis六月OTA升级:新增同声传译、手机端语音助手唤醒等
04:04MarkTechPost(RSS)57Gradium 发布实时语音翻译模型 stt-translate 和 s2s-translate
01:42jason53gpt-realtime-2 唤醒词与推理演示
00:18Berryxia.AI57Google Gemini桌面版推出Speak to Window和Magic Pointer,将AI注入macOS系统层
00:15Hugging Face:Blog(RSS)61精选FFASR 排行榜发布:真实远场条件下 ASR 评测
00:13🚨 AI News | TestingCatalog31Gemini 桌面应用将新增 "Magic Pointer" 和 "Speak to Window" 语音听写功能
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
00:06
IT之家(RSS)
47
微信输入法新增"语音转文字整理"功能,手机、PC均已上线

微信派7月2日宣布,微信输入法上线语音转文字整理及隔空传送功能。用户使用语音转文字后,可点击“文字整理”选项优化内容,该功能已在iOS 3.5.1、Android 3.5.0、Mac 2.2.0、Windows 2.1.0等最新版全量上线。隔空传送支持两台均安装微信输入法的设备间快速传输照片和文件。此外,输入法还新增聊天自动匹配表情包功能,输入文字后可通过笑脸标识快速查询表情包。

产品更新语音
7月2日
21:21
AYi@AYi_AInotes
65
FishAudio S2.1 Pro TTS 免费开放给开发者

FishAudio 将其付费级 TTS 模型 S2.1 Pro 免费开放给开发者使用,非阉割版,与付费套餐同款,支持 83 种语言且无严格限制。已集成的用户仅需修改模型名即可切换。语音赛道的模型层价格战已触底,小团队做 AI 客服、有声内容等应用时,TTS 调用成本可归零,竞争转向应用层价值创造。

产品更新语音
20:06
IT之家(RSS)
47
大疆发布迷你无线麦克风 DJI Mic Mini 2S:32-bit 浮点内录、自研降噪,399-1199 元

7月2日,大疆推出 DJI Mic Mini 2S 迷你无线麦克风。发射器重约12克,支持32-bit浮点内录和14.5GB存储(28小时循环内录),内置自研降噪模型,提供强、弱两级AI降噪。单次续航11小时,搭配充电盒总续航约40小时。接收器最多同时连接四个发射器,支持单声道、立体声和四声道模式,无线传输距离最远400米。发射器支持蓝牙直连手机,并可直连Osmo Pocket 4等DJI设备。一拖二套装(含充电盒)1199元,一拖一套装629元,手机版一拖一套装629元,单发射器399元。

产品更新语音
15:04
IT之家(RSS)
56
AI 技术用于工厂质检:特斯拉车间靠车载麦克风自动检测车辆异响

特斯拉车辆可自主驶入异响检测工位,车内麦克风捕捉杂音反馈工程团队。公司正研发“全向听觉系统”AI用于交付前识别装配缺陷。工厂各部门部署自研AI智能体系统,覆盖研发、供应链、售后、质检。Cybercab生产线约90%工序全自动化,未来产量或超越所有历史车型(Model Y累计近400万台)。星链有望搭载于Cybercab保障偏远地区信号。Optimus人形机器人首条量产线在弗里蒙特工厂落地,全模块化设计,约40条子生产线在德国制造。

行业动态语音部署/工程
07:03
Artificial Analysis@ArtificialAnlys
68
Fish Audio S2.1 Pro 文本转语音模型发布

Fish Audio 发布 S2.1 Pro 文本转语音模型,通过 API 免费使用至 2026 年 7 月 24 日。该模型支持 83 种语言、声音克隆及自然语言控制情感与韵律,质量、延迟和吞吐量均优于前代 S2 Pro。在 Artificial Analysis Speech Arena 排行榜上,S2.1 Pro 基于 1072 场竞技获得 Elo 1153,排名第 13,超过 Async Pro v1.0、Speech 2.8 Turbo 和 Step TTS 2。处理速度达 56.3 字符/秒,高于 GPT-Realtime-2(45.8 chars/s)和 Gemini 3.1 Flash TTS(25.3 chars/s)。

模型发布评测/基准语音
02:21
AYi@AYi_AInotes
71
xAI 发布无代码 Voice Agent Builder,基于 Grok Voice 原生语音架构

xAI 推出 Voice Agent Builder 无代码平台,基于原生 speech-to-speech 架构 Grok Voice,打通语音识别、大模型、语音合成全链路。用户用自然语言描述流程、上传文档作为知识库,两分钟即可生成带工具调用、安全护栏、全链路监控的完整语音智能体,并免费附赠一个电话号码。支持日历、搜索、工单等内置功能,可接入自有号码和系统。定价 $0.05/分钟,无额外平台费。

xAI: Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...

智能体xAI产品更新语音
00:31
Berryxia.AI@berryxia
69
xAI 推出 Grok Voice Agent Builder Beta,无代码部署语音 AI 助手

xAI 发布 Grok Voice Agent Builder(Beta),将 Grok 语音模型产品化,支持在浏览器中无代码、2 分钟搭建可打电话的 AI 助手。具备实时对话、亚秒延迟、25+ 语言,并可分配电话号码。相比传统方案门槛大幅降低。体验地址:http://x.ai/voice

智能体xAI产品更新语音
00:20
xAI:News(网页)
精选77
xAI 发布 Voice Agent Builder 测试版

xAI 推出 Voice Agent Builder 测试版,这是一个基于 Grok Voice 的无代码平台,可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性,支持连接现有 SIP 号码、API 和 WebSocket,采用语音到语音路径。在 τ-voice Bench 上,Grok Voice Think Fast 1.0 得分 67.3%,领先 Gemini 3.1 Flash Live(43.8%)和 GPT Realtime 1.5(35.3%)。定价为每分钟音频 0.05 美元、电话费 0.01 美元,提供 80+ 种语音及声音克隆,每个账户附赠一个免费电话号码。

智能体MCP/工具xAI产品更新

推荐理由:xAI 用 Grok Voice 原生的语音到语音路径,把生产级语音代理的搭建门槛降到了无代码、两分钟,计费也简单,做语音业务的人值得试试。
00:02
Andrew Milich@milichab
67
构建一个连接到你的日程应用、知识库以及任意自定义MCP或API的语音智能体 附带了电话号码,可以开始使用! 【引用 @xai】

xAI: Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...

智能体MCP/工具xAI产品更新
00:02
xAI@xai
73
介绍 Voice Agent Builder:一个无代码平台,可使用 Grok Voice 创建类人语音智能体。 今日可用,$0.05 / 分钟。 http://x.ai/voice
智能体xAI产品更新语音
00:00
🚨 AI News | TestingCatalog@testingcatalog
74
xAI 宣布在 xAI Console 上推出新的 Voice Agent Builder。 用户可以使用该对话智能体构建工具,借助 Grok 语音、连接器等为解决方案提供动力。

xAI: Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...

xAI产品更新语音
7月1日
20:28
HuggingFace Daily Papers(社区热门论文)
51
FlexiSLM: 一种动态可控帧率的语音语言模型

FlexiSLM是首个支持动态可控帧率的语音语言模型。它利用动态帧率表示,在高质量操作点上超越了固定帧率的7B模型Qwen2.5-Omni和Kimi-Audio。FlexiSLM可精确控制帧率至4.0 Hz;在6.25 Hz下推理时间相比12.5 Hz减半,同时保持强语音质量。

论文/研究语音
20:25
The Verge:AI(RSS)
53
Google Home Speaker 评测:硬件出色但 Gemini 尚未成熟

Google 推出首款“为 Gemini 打造”的智能音箱 Home Speaker,售价 99.99 美元。硬件设计精巧,音质在体积相当的产品中表现良好,支持 360 度音效、立体声配对、Matter 控制及 Thread 边界路由器功能,可配合 Google TV Streamer 作为音频输出。然而,内置的 Gemini for Home 智能助手响应缓慢、不可靠,且部分功能需要付费才能使用。相比前代 Nest Audio,新款音箱尺寸更小但低频偏弱,在同价位竞品(Echo Dot Max、HomePod Mini)中音质排名第三。

Google评测/基准语音
14:41
OpenBMB@OpenBMB
55
面壁智能发布VoxCPM2,一个2B参数的开源语音模型,支持30种语言及9种方言。该模型实现"声音可编辑":通过提示词指定年龄、音色、情绪和语速,也可上传参考音频保留原音色并重新控制表达方式。实测显示,语音生成已从单纯模仿真人转向按需导演级表演,让声音变得像图片滤镜一样可描述、复制和改写。

Vincent | 信号>噪音: 本地跑了一遍 VoxCPM2,最让我意外的不是它会说粤语、河南话,而是"声音"正在变成一种可以编辑的东西。 写一句提示词,就能指定年龄、音色、情绪和语速;再上传一段参考音频,它还能保留音色,重新控制表达方式。 以前语音模型追求的是"像不像本...

开源/仓库语音
05:25
Suno:Blog(网页)
40
Dream Relic:用 Suno 为超现实影像配乐

AI 视觉艺术家 Dream Relic(Broc Vaughn)通过 Suno 的 Create 功能,将多年来积累的歌词转化为配乐歌曲,为其超现实、怀旧风格的影像世界赋予声音。他在 TikTok 和 Hooks 上发布的一首 Suno 生成曲目获得数百条评论,甚至有人表示“讨厌 AI 音乐但这是例外”。这一反响促使他更认真对待音乐创作——此前他曾与唱片公司和制作人合作但效果不佳。Dream Relic 正筹备发布全长专辑,并在 TikTok、Hooks、Spotify 等平台上线多首作品。

其他语音
03:58
Artificial Analysis@ArtificialAnlys
58
Artificial Analysis 推出受控语音竞技场

Artificial Analysis 发布 Controlled Voice Arena,通过语音克隆标准化 8 种声音(2 美男、2 美女、2 英男、2 英女),评估 TTS 模型的音频质量、发音、节奏与语调,分离声音偏好与模型质量。每个模型基于同一 1-2 分钟录音进行克隆。投票已开放,本周公布首批排行榜。

评测/基准语音
01:29
Apple:Newsroom(RSS)
精选66
Apple Creator Studio 更新:更智能、更快速、更互联

Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions(自动转录音频生成字幕)和 Edit Detection(自动检测剪辑点)。Mac 版加入 Auto Mask(自动识别皮肤、天空等主体)、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑,并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年,新用户免费试用一个月,教育用户 $2.99/月。

产品更新图像生成语音

推荐理由:Final Cut Pro 的自动字幕和遮罩是实打实的工作流提升,Pixelmator Pro 的深度整合也让设计更顺畅,虽然没有颠覆性突破,但创意工作者今天就能用上。
01:25
The Verge:AI(RSS)
51
Netflix 在《Wonka's The Golden Ticket》真人秀中使用 AI 复刻 Gene Wilder 声音

Netflix 真人秀《Wonka’s The Golden Ticket》将于 9 月 23 日首播。预告片旁白由 AI 生成,复刻了已故演员 Gene Wilder 的声音。Netflix 与 ElevenLabs 合作,并已获 Wilder 家人同意。节目被描述为“高赌注社会实验”,12 名金票获得者各携伴侣参赛,冠军将在 9 月 30 日的两集大结局中产生。

行业动态语音
6月30日
23:29
Berryxia.AI@berryxia
57
ByteDance 推 Seed Audio 1.0:多模态音频生成模型

ByteDance 通过 BytePlus 推出 Seed Audio 1.0,一个非流式 TTS 模型,可在一次生成中同时输出语音、音乐和音效。支持参考音频引导、图像引导音频,以及语速、音量、音调等精细控制。与传统仅生成语音的 TTS 不同,它更像多模态音频生成模型,一次性完成复杂场景音频。目前仅对企业开放申请,早期反馈音频自然,但缺少对时长的精细控制。

BytePlus: Meet Seed Audio 1.0 - Now open for enterprise access application. A pioneering non-streaming TTS model that generates vo...

产品更新多模态语音
06:21
Runway@runwayml
56
Seed Audio 1.0 现已在 Runway 上对所有付费方案开放。只需简单文本提示即可生成最长 120 秒的动态语音、音效设计和音乐。立即通过下方链接尝试。
产品更新语音
02:27
Andrew Milich@milichab
56
xAI Grok 的实时语音模型现已登陆 Vercel AI Gateway,支持实时对话、语音合成与语音转写。欢迎试用。

Vercel Developers: Grok's realtime voice is now on AI Gateway. Build with AI SDK 7: • xai/grok-voice-think-fast-1.0 (useRealtime) • xai/gro...

xAI产品更新语音
02:25
xAI@xai
47
来自xAI的最先进语音API,现已加入Vercel AI Gateway

Vercel Developers: Grok's realtime voice is now on AI Gateway. Build with AI SDK 7: • xai/grok-voice-think-fast-1.0 (useRealtime) • xai/gro...

xAI行业动态语音
6月29日
21:01
IT之家(RSS)
41
豆包App上线"豆包导航"功能,支持步行与骑行原生导航

字节跳动旗下豆包App上线内置导航功能“豆包导航”(部分界面显示为“轻导航”)。步行与骑行路线支持App内原生导航,驾车与公共交通路线需跳转至高德地图完成服务,底层地图技术由百度地图提供。用户通过语音或文字输入目的地即可启动,系统生成包含四种出行方案的一体化地图卡片。内置导航配备实时语音播报,同步显示剩余路程、预计耗时、预估抵达时间,并支持悬浮小窗模式,可边导航边使用其他功能。

产品更新语音
19:01
IT之家(RSS)
55
抖音反诈工具"验证助手"新增识图与语音功能,方便老年用户鉴别诈骗

抖音反诈工具“验证助手”今日升级,新增语音输入和图片文本提取功能。验证框由多分类统一为单一输入框,系统通过意图识别模型自动判断信息类型并完成验证。老年人可上传可疑截图圈选文字区域,或语音描述短信、电话等内容,系统自动识别填入。截至目前,验证助手已累计服务超2800万人次,日均帮助约4万名用户鉴别风险。

产品更新多模态语音
6月27日
17:29
小互@xiaohu
64
Wan Streamer v0.1:首个端到端Transformer实时音视频对话模型

阿里通义实验室Wan团队发布Wan Streamer v0.1,首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms,总延迟约550ms,25fps下流式处理单元160ms,分辨率192p。同步生成语音与面部视频,支持全双工打断,取消外部ASR/TTS/动画模块,通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证,未开放使用。

arXiv多模态模型发布视频
15:24
Rohan Paul@rohanpaul_ai
46
语言数字双胞胎助力老年人认知监测:日常言语可作为低负担追踪工具

该论文测试老年人日常言语能否成为有效的认知监测双胞胎,结论基本可行。AI通过学习个体随时间变化的说话方式(节奏、停顿、主题、风格习惯),捕捉临床快照易漏掉的小模式——认知衰退往往在语言中早于明显症状出现。个性化模型能检测出与思维能力相关的细微言语变化,而普通GPT回答大多错过这些信号。研究显示,日常对话可成为一种低负担的长期认知健康追踪方式。

论文/研究语音
11:59
IT之家(RSS)
精选73
阿里千问输入法上线 macOS 版:最快 300 字/分,AI 自动润色

阿里千问输入法 macOS 版今日上线官网,支持最快 300 字/分的 AI 语音输入,可自动润色、将口语转为工整文字,并支持 9 种方言,纯净无广告。官方预告 iOS、Android、Windows 版将于近日发布。此前千问团队已于今年 5 月推出千问语音输入法(千问 App 内的组件),具备去语气词、纠错、格式化整理及基于上下文的智能回复等能力,而本次上线的输入法则定位为独立 App,填补千问在移动端 AI 输入法赛道的空白。

产品更新语音

推荐理由:阿里千问把AI语音能力做成了独立输入法,300字/分+9种方言让语音转文字实用性大增,对不习惯打字的普通用户可能比单纯聊天工具更有粘性。
00:16
AYi@AYi_AInotes
精选76
Leaf 开源项目:将网红峰哥做成实时通话 AI 分身

开发者 Leaf 开源项目,将网红峰哥做成能实时通话的 AI 分身,集成实时对话、音色克隆和人格注入,工程延迟压到 1 秒内。技术拆解:语音识别用 Cartesia ink-whisper 降噪防误触发;大模型选 MiniMax 高速版,首字响应 361ms;语音合成用 VoxCPM 开源克隆,15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通:克隆项目后,用 Claude Code 或 Cursor 配置,填两个 API Key 即可使用。

Leaf Yeah!: http://x.com/i/article/2070103285181349888

GitHub开源/仓库语音

推荐理由:Leaf 开源的这个实时语音分身项目,把工程延迟拆解到毫秒级,选型和人格蒸馏细节全公开,想做个性化语音机器人的可以直接复用,实践导向很强。
00:11
Google Gemini@GeminiApp
47
从用语音实时创建图像,到支持小企业的新方式,以下是本月 Gemini Drops 的内容 🧵
Google产品更新多模态语音
6月26日
16:20
Berryxia.AI@berryxia
70
Voicenotes 将语音输入做成 iOS 系统级键盘

Voicenotes Dictation 现已上线 iOS。更新后,用户可在微信、邮件、笔记等任何有输入框的 App 中使用 Voicenotes 键盘直接说话,语音瞬间转文字。这相当于给整个 iOS 系统增加了一个 AI 语音输入法,突破了以往仅限 App 内语音输入的限制。从产品角度看,Voicenotes 将“语音输入”从功能提升为系统级基础设施,争夺用户在各 App 中的输入入口。

Voicenotes: Voicenotes Dictation is now live on iOS. You can now use the Voicenotes keyboard to speak into any app with a text box -...

产品更新语音
15:59
IT之家(RSS)
53
中兴通讯发布 AI 智屏 2.0:支持语音助手,红外控制传统家电

中兴通讯在上海世界移动通信大会推出 AI 智屏 2.0,搭载 4TOPS 算力 AI 芯片、云台摄像头及 433MHz 无线技术,采用电子相框一体化造型与 10.1 英寸全贴合屏幕,支持“小兴小兴”语音助手。通过 360° 红外和 433MHz 无线可语音控制电视、空调等传统家电,集成温湿度与光线传感器实现场景化控制。覆盖智能管家、康养伙伴(多模态 AI 识别)、伴学搭子(AI 家庭教师/扫描同传)、生活助手(智能订票/点外卖)、用网卫士五大场景。

产品更新多模态语音
03:13
jason@jxnlco
38
Jason Liu 用两小时语音备忘录替代键盘操作,将对话转录输入 Codex,后者直接生成了产品公告、发布视频脚本和公关材料。引用推文补充,此前他与 @guinnesschen 进行了两小时漫谈,涵盖功能想法、设计哲学、AI 未来等,原始转录交给 Codex 后产出的 PR 和创意作品几乎完美捕捉了对话意图。

Guinness Chen: Yesterday @jxnlco and I had a fantastic two-hour conversation that wandered through feature ideas, design philosophy, th...

OpenAI教程/实践编码语音
01:24
gabriel@gabriel1
64
在语音提示中改变主意会给模型提供更多上下文 就像我70%的提示都会说"实际上忽略之前的内容",但当我想象了一种东西却决定换成别的时,它却提供了很多信息 追求最大 token 数
教程/实践语音
6月25日
18:58
IT之家(RSS)
8
魅族 Flyme Auto 3.0 智能座舱系统官宣今年登场

魅族 FlymeAIOS 官方微博宣布,2026 年内手机将大规模升级,Flyme Auto 3.0 即将登场。Flyme Auto 发布于 2023 年 3 月,支持无缝接力、手机辅助 OTA、手机-汽车硬件互通、手机寻车、平行视窗、小窗展示、跨端可见即可说等功能。当前合作车型累计销量突破 300 万辆,合作车型达 45 款,2026 年 5 月单月新增超 141,609 辆。

产品更新语音
11:58
IT之家(RSS)
29
理想AI眼镜Livis六月OTA升级:新增同声传译、手机端语音助手唤醒等

理想AI眼镜Livis六月OTA升级,新增6项功能、优化6项功能。新增同声传译(聆听模式与对话模式),韩语、日语等19种语言8月上线。新增手机端语音助手唤醒(长按触控区),支持单次指令与多轮对话。新增按键与触控区个性化设置(可自定义拍照/录像/录音,长按唤醒“理想同学”或手机语音助手)。新增眼镜盒低电量弹窗提醒(低于20%)。新增理想同学拟人化知性音色。单次录音时长放开至最高7小时。优化竖版视频画质(影像数据处理能力提升42%),优化视频传输(同画质下传输时间缩短约20%)。

产品更新端侧语音
04:04
MarkTechPost(RSS)
57
Gradium 发布实时语音翻译模型 stt-translate 和 s2s-translate

Gradium 发布两款实时语音翻译模型:stt-translate(语音转文本)和 s2s-translate(语音转语音)。两者覆盖英语、法语、德语、西班牙语、葡萄牙语共 5 种语言、20 个语言对,将转录和翻译合并为一步,传统 3 模型级联缩减为 2 模型。stt-translate 在 BLEU 和 MetricX 指标上领先 gemini-3.5-live-translate,BLEU 领先 gpt-realtime-translate,MetricX 可比。s2s-translate 平均延迟 3.0s,优于 gpt-realtime-translate(3.6s),略逊于 gemini-3.5-live-translate(2.9s)。支持从目录选择输出语音或克隆自己的声音,通过单条双工 WebSocket 传输。

产品更新多模态语音
01:42
jason@jxnlco
53
计算机!启动防火墙! 使用 gpt-realtime-2,你可以在上下文中提示唤醒词、进行推理,并构建一些傻乎乎的游戏。 看我玩一个游戏 Simon Says… 剧透:它赢了我。
OpenAI教程/实践语音
00:18
Berryxia.AI@berryxia
57
Google Gemini桌面版推出Speak to Window和Magic Pointer,将AI注入macOS系统层

Google Gemini桌面版新增两大功能:Speak to Window允许用户在任意窗口按住fn键语音指挥Gemini写邮件、写文档、生成图片,操作在当前应用内完成;Magic Pointer可圈选屏幕信息,让Gemini理解上下文后执行编辑、总结或创建任务。目标是把Gemini变成系统级上下文感知助手,抢占工作流入口。

智能体Google产品更新语音
00:15
Hugging Face:Blog(RSS)
精选61
FFASR 排行榜发布:真实远场条件下 ASR 评测

Treble Technologies 与 Hugging Face 联合推出 FFASR(Far-Field ASR)排行榜,这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据,涵盖 14 种房间(20–470 m³)和三个信噪比级别(远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB),加上近场干燥条件,共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率(WER)和实时因子(RTFx,在 NVIDIA L4 GPU 上评估)。未来将支持多说话人场景、麦克风阵列和回声消除。

Hugging Face评测/基准语音

推荐理由:远场语音的‘实验室-生产’性能差终于有了量化指标,这个排行榜把 ASR 的真实世界鲁棒性公开化,做语音产品的团队该看看。
00:13
🚨 AI News | TestingCatalog@testingcatalog
31
Gemini 桌面应用(macOS)将新增两项功能:一是 "Magic Pointer",用户可高亮任意窗口中的信息并指示 Gemini 编辑、总结或创建内容;二是 "Speak to Window" 语音听写功能,按住 fn 键即可用语音让 Gemini 起草邮件、撰写文档、生成图像等,无需切换应用。

🚨 AI News | TestingCatalog: GOOGLE 🔥: Gemini desktop app for macOS will get a new voice dictation feature called "Speak to Window" that works with ...

Google产品更新语音
‹ 上一页
123…19
下一页 ›