AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
6月24日周三
23:13🚨 AI News | TestingCatalog32Gemini macOS 版新增语音听写功能
22:23小互48字节跳动发布 SeedMusic 1.0 Preview AI 音乐模型
21:39The Verge:AI(RSS)54Google Home Speaker 评测:音质出色但操作繁琐
17:44IT之家(RSS)64OpenAI 开源 Plant Talk:让室内植物通过 ChatGPT 拥有"声音"
12:42IT之家(RSS)74精选OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试
11:41IT之家(RSS)69Jamendo 起诉英伟达未经授权用数万首音乐训练 AI 模型,索赔超 1780 万欧元
11:39OpenBMB63面壁智能 VoxCPM-0.5B 在 iPhone 上实现全端侧运行
10:27IT之家(RSS)62火山引擎发布豆包音频生成模型 1.0,支持多模态参考生成与长时音色一致性
08:00HuggingFace Daily Papers(社区热门论文)47单一模型适配多种延迟:用于多样化实时应用的通用语音增强方案
07:27IT之家(RSS)41苹果 tvOS 27 测试版现 Siri AI 代码,Apple TV 与 HomePod 酝酿扩展 AI 功能
07:18gabriel55提示词:别保留,一次描述所有用语音
02:37MarkTechPost(RSS)51如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出
6月23日周二
23:38🚨 AI News | TestingCatalog58OpenAI Bidi 1 语音模型:可唱歌、生成声音
22:57Chubby♨️52GPT-5.6推迟,Claude Sonnet 5开放企业早期访问
22:13IT之家(RSS)60Meta 三款自有品牌智能眼镜首发亮相,299-399 美元
19:10IT之家(RSS)72精选网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型
17:37🚨 AI News | TestingCatalog57OpenAI Bidi 1语音模型将支持实时翻译
16:37🚨 AI News | TestingCatalog48OpenAI 正测试双向语音模型 Bidi 1,支持打断与连续对话
16:26Chubby♨️37OpenAI新"bidi"语音模式太疯狂
16:04凡人小北49火山引擎展示AI记忆卡YoooClaw C-ONE,打通飞书任务分发
13:50公众号:火山引擎71精选豆包音频生成模型1.0发布,重新定义AI音频创作
13:10Orange AI43豆包 Seed Audio 1.0:声音模型的 Seedance 时刻
09:06🚨 AI News | TestingCatalog33OpenAI 准备发布"Bidi 1"新语音模型
08:00HuggingFace Daily Papers(社区热门论文)57ConvFill:对话式填充实现语音智能体响应与能力兼得
08:00HuggingFace Daily Papers(社区热门论文)68Wan-Streamer v0.1: 端到端实时交互基础模型
02:10Rohan Paul54Bland语音AI:周通话350万+,累计5.13亿,获1亿美元C轮融资
01:34TechCrunch:AI(RSS)35亚马逊在印度测试支持印地语的 Alexa+
6月22日周一
16:05IT之家(RSS)45华为智慧屏推送系统更新:新增儿童时长管控、畅连小窗调节等
15:05IT之家(RSS)36PINE64 推出 PineVoice 智能音箱:基于 RISC-V 处理器,支持本地唤醒词检测
15:04jason60Guinness Chen:用语音输入代替手动编辑提示词
12:04IT之家(RSS)46豆包 App 灰测打车功能,由曹操出行提供服务
07:06Rohan Paul52安巴尼将Jio网络打造成AI智能体试验场
6月21日周日
10:03IT之家(RSS)41马斯克:Grok 语音控制特斯拉 FSD 功能将在 3 个月左右推出
08:00HuggingFace Daily Papers(社区热门论文)55交错式语音语言模型在文本中隐式工作
6月20日周六
22:23X.PIN65微信小微扩大测试可生成小程序
07:59IT之家(RSS)47visionOS 27 今秋推送:M5 Vision Pro 头显独占 Siri 语音定制和苹果最强本地 AI 模型
07:22🚨 AI News | TestingCatalog60ChatGPT iOS语音气泡可自由拖动变形状
6月19日周五
23:59IT之家(RSS)42印度首富安巴尼:印度必须成为 AI 的创造者和全球领导者
23:50TechCrunch:AI(RSS)45信实工业推出多款AI服务,涵盖通话、应用与家居
21:19OpenBMB54社区开发者基于 VoxCPM2 和 ComfyUI 构建 VoiceGate,实现跨语言视频配音
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月24日
23:13
🚨 AI News | TestingCatalog@testingcatalog
32
GOOGLE 🔥: Gemini 桌面应用(macOS)将新增名为 "Speak to Window" 的语音听写功能,可在任意其他应用中使用。
Google产品更新语音
22:23
小互@xiaohu
48
字节跳动发布 SeedMusic 1.0 Preview AI 音乐模型

字节跳动推出 SeedMusic 1.0 Preview AI 音乐模型,用户只需一句话提示词即可生成完整歌曲,生成速度约 2-3 分钟。示例提示词为“来一首古风歌曲,但是有着现代流行音乐的节奏感,能让人朗朗上口,关于爱情的歌曲”,效果不错。该模型属于字节跳动在 AI 领域的布局之一。

产品更新语音
21:39
The Verge:AI(RSS)
54
Google Home Speaker 评测:音质出色但操作繁琐

Google 新款 Home Speaker 售价 99 美元,体积小巧但音质饱满,低音优于同尺寸的 UE Wonderboom,清晰度和响度均超过 Amazon Echo Dot Max。配备三个麦克风,唤醒词识别灵敏,即便在淋浴中也能响应“Hey, Google”。外观呈彩色毛线球状,无可见按键;音量可通过点击左右侧调节,但触控区域小且方向不直观,顶部播放/暂停触控正常。灯光环隐藏于底部,反馈不够明显。不支持标准蓝牙,可通过 Google Cast 串流或与 Google TV Streamer 配对。内置 Gemini 智能助手,可用于控制家居、规划日程和查询信息。

Google产品更新语音
17:44
IT之家(RSS)
64
OpenAI 开源 Plant Talk:让室内植物通过 ChatGPT 拥有"声音"

OpenAI 在 GitHub 开源 Plant Talk 项目,通过 Codex Desktop 连接 ChatGPT,让室内植物具备语音能力。用户可与植物语音交流,如询问“最近怎么样?”“需要浇水吗?”等。系统支持 Arduino、土壤湿度传感器、LM393 光照传感器获取环境数据,还可连接二氧化碳传感器、空气湿度传感器。用户可创建不同植物人格,如高冷仙人掌、话痨绿萝、吐槽多肉。搭建需配备麦克风、摄像头、扬声器的电脑及 OpenAI 账户。

OpenAI开源/仓库语音
12:42
IT之家(RSS)
精选74
OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试

6月23日,部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1,位于设置模型选择器中,与标准语音和高级语音并列。该模型支持边说话边监听,用户可在对话中途打断并发出新指令,例如要求从1数到10时中途喊停倒数,模型会立即切换执行。OpenAI 尚未官宣,预计本周启动更大范围测试。

OpenAI多模态模型发布语音

推荐理由:Bidi 1 让 ChatGPT 语音从回合制变成双向并行,打断后能立即响应,这是语音交互真正的升维,普通人很快就能感受到对话自然感的质变。
11:41
IT之家(RSS)
69
Jamendo 起诉英伟达未经授权用数万首音乐训练 AI 模型,索赔超 1780 万欧元

独立音乐平台 Jamendo 在美国加州联邦法院起诉英伟达,指控其未经授权使用 MTG-Jamendo 数据集(约 5.6 万首曲目)训练 Fugatto、Audio Flamingo 两款音频大模型。该数据集仅限非商用科研用途。2024 年 3 月发现后多次协商无果,2025 年 6 月寄出商用账单(1610 万欧元)并在比利时起诉。本次美国诉状主张直接著作权侵权、违约、不当得利、不正当竞争,最低索赔 1780 万欧元(含逾期利息)。

数据/训练行业动态语音
11:39
OpenBMB@OpenBMB
63
面壁智能(OpenBMB)的扩散式 TTS 模型 VoxCPM-0.5B 已通过 Apple Core AI 完全部署至 iPhone 端侧,无需联网。该模型整合了 MiniCPM4 语言模型、LocDiT flow-matching 和 AudioVAE,每一层均运行于 Neural Engine 和 GPU 上。模型权重和部署代码已开源至 HuggingFace 与 GitHub。

MLBoy_DaisukeMajima: VoxCPM now runs FULLY on-device on iPhone - via Apple's Core AI. @OpenBMB's diffusion TTS (MiniCPM4 LM + LocDiT flow-mat...

开源/仓库开源生态端侧语音
10:27
IT之家(RSS)
62
火山引擎发布豆包音频生成模型 1.0,支持多模态参考生成与长时音色一致性

火山引擎昨日发布豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0),首次支持文本、音频等多模态参考生成,端到端输出目标音频,长时生成中保持多角色音色一致性。用户可通过单条 Prompt 编排角色对白、情绪语气、背景音乐、环境氛围,直接产出成片级音频。模型一次支持 2 分钟音频创作,可多次延长且保持音色统一;实现零样本多模态生成,支持音色与风格解耦控制。火山方舟已开启 API 邀测,个人用户可免费体验 30 分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。

多模态模型发布语音
08:00
HuggingFace Daily Papers(社区热门论文)
47
单一模型适配多种延迟:用于多样化实时应用的通用语音增强方案

针对不同实时语音应用需单独训练增强模型的痛点,本文提出一种通用实时语音增强模型,可同时控制算法延迟与计算延迟。算法延迟通过可配置的前瞻帧灵活调整,并引入并行卷积层应对不同填充配置带来的学习低效;计算延迟由早期退出机制控制,支持在不同网络深度推理。两阶段训练策略(共享到多解码器过渡)缩小了通用模型与专用模型的性能差距。该框架使单个模型可在多种延迟预算下部署,无需重新训练。

论文/研究语音
07:27
IT之家(RSS)
41
苹果 tvOS 27 测试版现 Siri AI 代码,Apple TV 与 HomePod 酝酿扩展 AI 功能

tvOS 27 首个开发者测试版代码显示,苹果正为 Apple TV 和 HomePod 引入 AI 功能。系统底层新增多个 Apple Intelligence 相关框架,HomePod 首次设置流程中直接提及 Siri AI。代码中还出现 N1 芯片(蓝牙与 Wi-Fi 处理器),该芯片未搭载于当前在售机型,被视作苹果推进智能家居新品的线索。

端侧行业动态语音
07:18
gabriel@gabriel1
55
提示时不要再克制了,你可以真的只用一个提示就一次性搞定任何功能,多说一会儿就好。目标是尽可能把你想到的一切都描述在一个提示中。 另外,显然要用语音。我经常连续说上15分钟。
教程/实践语音
02:37
MarkTechPost(RSS)
51
如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出

该教程通过Python使用NVIDIA Canary-1B-v2构建语音识别与翻译管线:先安装NeMo ASR工具包和音频依赖,在GPU上加载模型;将音频处理为16 kHz单声道格式后,执行英语ASR,将语音翻译为25种语言,生成词级和时间段时间戳,导出SRT字幕文件,并支持长文本转录、批处理与推理速度基准测试。

教程/实践语音
6月23日
23:38
🚨 AI News | TestingCatalog@testingcatalog
58
OpenAI 即将推出双向语音模型 Bidi 1,支持唱歌和生成不同声音。Bidi 1 可在用户说话时插话并继续监听,能在句子中间来回切换任务,处理打断和停顿的能力显著提升,并能更好地保持对话上下文记忆。模型仍有连续说话长度上限(一次可轻松数到 23 不停顿)。Bidi 1 将登陆 ChatGPT,并可能进入 Codex,预计很快可用。

🚨 AI News | TestingCatalog: BREAKING 🔥: First tests of "Bidi 1", an upcoming bidirectional voice model from OpenAI. This upgrade will arrive in Cha...

OpenAI产品更新语音
22:57
Chubby♨️@kimmonismus
52
据爆料,GPT-5.6本周不再发布,新目标推迟至7月中旬;DeepMind对Gemini 3.5 Pro当前状态不满意,本月不会推出。与此同时,Claude Sonnet 5已向部分企业客户开放早期访问,被视为Mythos/Fable 5开发停滞的权宜之计。OpenAI新语音模型Bidi也正准备在ChatGPT上线,可能本周可用。

leo 🐾: 🚨 SCOOP(s): - GPT-5.6 has been delayed and will no longer release this week. New target is ~mid-July. - DeepMind are no...

AnthropicGoogleOpenAI行业动态
22:13
IT之家(RSS)
60
Meta 三款自有品牌智能眼镜首发亮相,299-399 美元

Meta 首次以自有品牌推出三款智能眼镜:Adventurer、Fury 及与凯莉·詹娜合作的 Starfire。Adventurer 和 Fury 售价 299 美元,Starfire 售价 399 美元,均比去年雷朋 Meta Wayfarer 便宜 80 美元。眼镜由 Meta 设计、依视路陆逊梯卡生产,内置摄像头、扬声器,支持与 Meta AI 对话、翻译及拍摄,预装最新 AI 模型 Muse Spark。鼻托三档可调,提供多种配色与镜片选项。Meta 透露未来可能推出无摄像头版本,并计划最终进入 AR 眼镜市场。

Meta产品更新多模态端侧
19:10
IT之家(RSS)
精选72
网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型

网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。

GitHub模型发布语音

推荐理由:网易有道把语音克隆的门槛压到了 3 秒,跨 14 种语言还能保持无口音,而且全量开源、商用无限制,对多语种配音和短剧出海是直接可用的工具。
17:37
🚨 AI News | TestingCatalog@testingcatalog
57
OPENAI 🔥: 即将推出的Bidi 1语音模型将能进行实时翻译! 这将解锁大量用例,当它落地到API时可在其上构建。
OpenAI模型发布语音
16:37
🚨 AI News | TestingCatalog@testingcatalog
48
OpenAI 正测试双向语音模型 Bidi 1,支持打断与连续对话

OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。

🚨 AI News | TestingCatalog: BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in setting...

OpenAI多模态模型发布语音
16:26
Chubby♨️@kimmonismus
37
OpenAI即将推出的"bidi"语音模式听起来太疯狂了!
OpenAI产品更新语音
16:04
凡人小北@frxiaobei
49
火山引擎展示AI记忆卡YoooClaw C-ONE,打通飞书任务分发

火山引擎在FORCE大会上展示YoooClaw C-ONE,一款卡片大小的「AI记忆卡」。它能录音转文字,也能抓取手机通知实时喂入,两路数据汇入火山引擎的ArkClaw做抽取和推理,形成个人知识大脑。出口端打通飞书,例如老板开完会后一句话即可将任务分别推送给对应同事。推文作者称这是除seedance2.5外今次最心动的产品。

产品更新语音部署/工程
13:50
公众号:火山引擎
精选71
豆包音频生成模型1.0发布,重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由:豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt,长时一致性解决了一直以来‘串戏’的痛点,音频创作者的生产流程可能会被改写。
13:10
Orange AI@oran_ge
43
豆包 Seed Audio 1.0:声音模型的 Seedance 时刻

豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。

多模态模型发布语音
09:06
🚨 AI News | TestingCatalog@testingcatalog
33
BREAKING 🔥: OpenAI 正在准备"Bidi 1"即将网络发布! > 一种新的语音模型将在设置中可用,与标准和高级选项并列。 > 语音模式气泡将变为黄色而不是蓝色。 多久?👀
OpenAI产品更新语音
08:00
HuggingFace Daily Papers(社区热门论文)
57
ConvFill:对话式填充实现语音智能体响应与能力兼得

语音智能体面临响应速度与复杂能力的权衡。ConvFill 提出“对话式填充”(conversational infill)方法:用小参数 talker 模型实时生成上下文响应,隐藏外部 reasoner 模型的推理延迟,并在推理中动态整合 reasoner 的流式知识。基于 290,571 条合成数据、6 个领域、7 个 135M–1.7B 参数小语言模型验证任务可学习性。系统保持毫秒级首次响应时间,准确性差距缩小至前沿 reasoner 模型的 6.3% 以内。在 Apple M2 SoC 上的 18 人用户研究中,ConvFill 整体与前沿模型持平,检索密集型任务更受青睐,响应性显著更高。代码、模型和数据集已开源。

推理论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
68
Wan-Streamer v0.1: 端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型,在单一 Transformer 中统一建模语言、音频和视频的输入与输出,序列表示为交错视觉、音频、文本 token,通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块,感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计,支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms,结合 350 ms 双向网络延迟后总交互延迟约 550 ms,实现亚秒级全双工音视频通信。

多模态模型发布视频语音
02:10
Rohan Paul@rohanpaul_ai
54
语音AI平台Bland (@usebland) 每周处理超过350万次电话,累计已处理超5.13亿次。公司获得1亿美元C轮融资,将用于训练模型以处理紧急、高风险、长达45分钟的电话呼叫。Bland专注于受监管行业,主打高压力、后果严重的电话场景。

Bland: Our recent $100M Series C means we can continue training our models to handle the urgent, high-risk, 45-minute phone cal...

行业动态语音
01:34
TechCrunch:AI(RSS)
35
亚马逊在印度测试支持印地语的 Alexa+

亚马逊正将生成式AI对话助手Alexa+扩展至印度,邀请用户参与印地语版Beta测试。测试版可能存在Bug,或提供不准确信息及误发音本地用语。Alexa+尚未在印度上线,具体时间未定。亚马逊于2017年在印度推出英语版Alexa,2019年加入印地语支持。Alexa+于2025年发布,今年2月向所有美国用户开放,随后扩展至英国、加拿大等国。Prime会员免费,其他用户付费。

产品更新语音
6月22日
16:05
IT之家(RSS)
45
华为智慧屏推送系统更新:新增儿童时长管控、畅连小窗调节等

华为智慧屏今日推送系统更新,主要新增或优化:标准模式新增儿童时长管控(设置>通用>使用时间管理);畅连小窗支持自由调节窗口大小;观看影视剧时可呼叫小艺进行人物、剧情等问答;超级桌面分辨率由1080P提升至2K;遥控器支持控制外接设备(需开启CEC);开关机菜单支持自定义预设焦点;智慧屏可与全屋吸顶音箱联动;AI语音唤醒准确率和响应时延优化;门锁画中画联动显示接听设备名称及位置,并支持挂断。官方暂未公布新版本具体型号及适用机型。

产品更新端侧语音
15:05
IT之家(RSS)
36
PINE64 推出 PineVoice 智能音箱:基于 RISC-V 处理器,支持本地唤醒词检测

开源硬件制造商 PINE64 于本月 19 日推出 PineVoice 智能音箱,售价 49.99 美元(约 339.4 元人民币),可加购 14.99 美元的 Zigbee 加密狗。该音箱集成双麦克风阵列、音量控制和硬件麦克风静音按钮,基于博流智能 BL606P 无线多模网关芯片(含玄铁 C906 和 E907 内核),拥有 788KB SRAM、32MiB pSRAM 和 16MiB 闪存,支持 Wi-Fi (802.11 b/g/n) 及蓝牙 5.X,具备本地唤醒词检测,默认固件支持 Wyoming Satellite 远程语音卫星项目。

产品更新端侧语音
15:04
jason@jxnlco
60
Guinness Chen 表示,2026年6月了,别再手动编辑提示词,应该按住听写按钮即兴说上10分钟,把脑海里的每个碎片、警告、例子和感觉都交给模型--大语言模型最擅长的就是从语言中重建潜在意图。Jason Liu 称赞他只发好内容,观点总是很棒,并建议大家关注他 @guinnesschen。

Guinness Chen: Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...

大佬观点语音
12:04
IT之家(RSS)
46
豆包 App 灰测打车功能,由曹操出行提供服务

豆包在 App 内灰度上线一键打车服务,由曹操出行提供运力。获灰测用户可直接在对话框口述出行需求,系统自动识别起止地点、人数与用车偏好,匹配曹操出行后一键确认派单。目前北京、杭州部分用户已获灰测资格。曹操出行司机接单后弹窗提示“本单是豆包服务订单”,完成可获 2 元平台惊喜服务费。曹操出行上周在2026国际汽车及供应链博览会(香港)发布 RoboX 战略,提出“双十万计划”——到2030年累计部署10万辆Robotaxi与10万辆Robovan,同时成立AI事业部推进全面AI转型。

产品更新语音
07:06
Rohan Paul@rohanpaul_ai
52
Techcrunch: 安巴尼正将Jio拥有5亿用户的电信网络转变为印度最大的日常AI智能体试验场。 Jio Call Agent将嵌入电话通话中,征得同意后监听、转录语音、总结对话,并触发行动,如打车或订餐。 这个计划看起来像是AI正从独立应用向网络层移动。
智能体产品更新语音
6月21日
10:03
IT之家(RSS)
41
马斯克:Grok 语音控制特斯拉 FSD 功能将在 3 个月左右推出

马斯克在 X 平台回复称,Grok 语音控制特斯拉 FSD(监督版)功能预计约三个月后上线,今年秋季推送全系车辆。此前 Grok 已作为车载助手上线,通过 2025 假日版本更新增加导航语音指令,2026 春季更新新增“嘿 Grok”唤醒与位置提醒。新功能将允许用户用自然语言设定 FSD 行驶逻辑,无需手动打转向灯;停车场景提升显著,可实时口述精准泊车指令,弥补 14.1 版本“抵达目的地自动泊车”模式有限。

产品更新具身智能语音
08:00
HuggingFace Daily Papers(社区热门论文)
55
交错式语音语言模型在文本中隐式工作

通过logit lens分析不同家族和规模的交错式语音语言模型,发现模型在中间层隐式地将语音转录为文本token——77%的数据中目标语音对应的文本词出现在候选词前列,随后模型在文本空间中预测下一个词再转回语音域。这一行为并非源自语音识别训练,交错数据和文本LM初始化是诱发该机制的关键因素。

多模态论文/研究语音
6月20日
22:23
X.PIN@thexpin
65
微信于6月20日扩大了对小微(Xiaowei)的灰度测试--一个内置在主应用中的对话助手,可通过文本或语音运行。它能操作微信原生功能并调用小程序完成任务:打车、外卖、订酒店、查快递。它还能根据单条提示词生成一个可运行的小程序。生成的应用程序目前为
智能体产品更新语音
07:59
IT之家(RSS)
47
visionOS 27 今秋推送:M5 Vision Pro 头显独占 Siri 语音定制和苹果最强本地 AI 模型

visionOS 27 将于今秋推送。M5 Vision Pro 独占 Siri 语音定制(Voice Customization),用户可自由调整语气表现力和语速;同时独占搭载 AFM 3 Core Advanced 本地 AI 模型,该模型支持原生多模态能力并采用稀疏架构,需 M5 芯片算力支撑。M2 款 Vision Pro 可共享 visionOS 27 大部分升级,包括 Siri AI、全景照片转空间场景、重新设计的控制中心、更智能的自然语言理解及语音操作交互等。苹果承诺未来通过云端计算为 M2 设备提供部分 AI 功能的折中方案,具体细节尚未公布。

产品更新多模态端侧语音
07:22
🚨 AI News | TestingCatalog@testingcatalog
60
ICYMI: ChatGPT iOS 的语音模式气泡,可以拖到屏幕中间,还能变形。 还是说,我应该叫它 Orb?👀
OpenAI教程/实践语音
6月19日
23:59
IT之家(RSS)
42
印度首富安巴尼:印度必须成为 AI 的创造者和全球领导者

信实工业在年度股东大会上发布 AI 通话助手 Jio Call Agent,直接嵌入 Jio 电信网络,可转录对话、生成摘要,并帮助用户叫车、点餐和预订,用户通过“Hey Jio”唤醒,预计今年晚些上线,覆盖超 5 亿用户。同时推出 AI 版 MyJio,支持自然语言指令完成开通 eSIM、选漫游套餐等操作;TeleFrame 可利用 AI 智能体主动显示天气预警、日程和家庭提醒。信实还通过 Reliance Intelligence 为消费者、企业和政府开发支持印度 22 种语言的 AI 基础设施。安巴尼强调印度不能只做 AI 消费者,而应成为创造者和全球领导者。

产品更新行业动态语音
23:50
TechCrunch:AI(RSS)
45
信实工业推出多款AI服务,涵盖通话、应用与家居

印度信实工业在年度股东大会上发布AI服务:Jio Call Agent可加入电话会议转录、总结并执行叫车、订餐等任务,通过“Hey Jio”激活,今年晚些时候面向超5亿用户上线;MyJio应用新增AI版,支持自然语言激活eSIM、选择漫游套餐;家庭显示设备TeleFrame利用AI智能体推送天气、日程提醒;还推出医疗、教育、农业和中小企业AI套件,支持22种印度语言。公司计划投资1100亿美元建设AI基础设施,并与Google、Meta、Nvidia合作。此外,Jio Platforms董事会批准IPO草案,拟发行最多2.7亿股新股。

智能体产品更新语音
21:19
OpenBMB@OpenBMB
54
社区开发者基于 VoxCPM2 和 ComfyUI 构建 VoiceGate,实现跨语言视频配音

社区开发者基于 VoxCPM2 与 ComfyUI 构建了 VoiceGate,实现自动语音提取(ASR)、大语言模型翻译、多语言语音合成(支持 30 多种语言和 9 种方言,含语音克隆与音色设计)、时间戳对齐音频以及背景音分离混音。核心创新 VoiceBridge 插件首次在 ComfyUI 中引入 SRT 时间戳驱动的 TTS 对齐,实现字幕级精细控制,解决 AI 配音音视频不同步问题。应用包括中文视频转英/日/韩等多语言,以及全球视频转中文及方言。

开源/仓库视频语音
‹ 上一页
1234…19
下一页 ›