AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
6月13日周六
07:36IT之家(RSS)51iOS 27 Beta 1 新增"高级听写预览"功能,支持离线运行
05:48Google AI Developers59Gemini 3.5 Live Translate 近实时语音翻译发布
01:55The Verge:AI(RSS)62Siri现在变好了吗?
01:15Google AI40Google AI 本周发布多项更新
6月12日周五
15:24The Verge:AI(RSS)53Siri 不会成为你的 AI 女友
11:34IT之家(RSS)48可检测 AI 音乐,Deezer 为 Spotify、Apple Music 等第三方平台推出免费工具
07:34IT之家(RSS)53苹果高管克雷格明确表态:全新 Siri 不会成为你的 AI 女友 / 男友
00:10Berryxia.AI54苹果新Siri AI等候名单形同虚设:Mac用户通过修改plist文件即可解锁
6月11日周四
19:10公众号:京东JoyAI44为卫浴装上"AI大脑",JoyInside×惠达AI卫浴套系6月17日重磅开售
16:22The Verge:AI(RSS)73精选Deezer 推出面向其他流媒体服务的 AI 音乐检测器
10:50公众号:小米 MiMo74精选小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议
09:30IT之家(RSS)63外媒体验苹果 iOS 27 全新 Siri AI:回复简洁,不套近乎
06:41Orange AI72Google 发布 Gemini 3.5 Live Translate 实时翻译模型
05:47Chubby♨️50Inworld 大幅降低语音 API 价格:降价超 50%、双倍六月积分、年付免两月
04:24Xiaomi MiMo76小米 MiMo 推出开源 AI 编程助手 MiMo Code V0.1
02:48xAI74同事件精选Grok Voice性能出色价格低廉同一事件,精选展示《Grok 成为 Vapi 的默认语音引擎》
01:02🚨 AI News | TestingCatalog62Inworld API降价约50%,LLM/TTS/STT全线半价
6月10日周三
22:59🚨 AI News | TestingCatalog45Claude语音模式即将新增模型选择器
18:28IT之家(RSS)42Audio Vivid 生态迎重磅进展,鸿蒙版 QQ 音乐 & 酷狗音乐双平台官宣接入菁彩声
18:24Artificial Intelligence News(RSS)49麦当劳测试Google支持的AI免下车点餐系统ArchIQ
17:50公众号:百度智能云(文心)26利尔达与百度智能云合作,将AI能力集成至模组
16:56HuggingFace Daily Papers(社区热门论文)67稀疏自编码器解释与操控文本转语音语言模型
16:45小互67Google 发布实时翻译模型 Gemini 3.5 Live Translate
16:28IT之家(RSS)42小米 miclaw 率先实现 AI 上岛,澎湃 OS 4 被曝有新交互
15:28IT之家(RSS)64iOS 27 Siri AI 系统提示词泄露:超 1300 行核心指令曝光
13:28IT之家(RSS)33消息称某国产迭代 OS 将实现"AI 语音助手上岛",功能在苹果 iOS 27 发布前已开发完成
10:28IT之家(RSS)41香港首个AI应用示范社区启动,推出"港话通""港会通""港文通"工具
08:27IT之家(RSS)56苹果高管回应为何 iOS 27 推出 Siri 独立应用:方便查看历史对话
08:07Berryxia.AI77Google Gemini 3.5 Live Translate 公开预览,支持70+种语言
07:44The Verge:AI(RSS)59我试用了 Siri AI,目前来看确实好用
07:19ginobefun57BestBlogs早报
07:19ginobefun64BestBlogs 早报 · 06-10
05:13TechCrunch:AI(RSS)47我其实想要怎样的 AI 助手
03:55Hugging Face:Blog(RSS)67精选Hugging Face 博客发布语音智能体代码切换基准测试
03:42xAI59xAI与Gopuff合作打造个性化购物助手
03:20Ars Technica:AI(RSS)63Google 发布 Gemini 3.5 Live Translate,实现即时语音到语音翻译
02:23🚨 AI News | TestingCatalog70谷歌发布 Gemini 3.5 Live Translate,支持70+语言低延迟翻译
02:13TechCrunch:AI(RSS)61WWDC 2026:Siri AI、iOS 27 与 Apple Intelligence 等全揭晓
02:08Hacker News 热门(buzzing.cc 中文翻译)66苹果公司因豁免申请被拒,决定不在欧盟推出Siri
01:51Jeff Dean81同事件精选Gemini 3.5 Live Translate 支持70+语言翻译同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
07:36
IT之家(RSS)
51
iOS 27 Beta 1 新增"高级听写预览"功能,支持离线运行

iOS 27 Beta 1 新增“高级听写预览”功能,支持离线运行。该功能提升语音转写准确率,能实时处理大写字母与标点符号。默认禁用,需在“设置→通用→键盘→听写”中手动开启。适配机型包括 iPhone 17 Pro、iPhone Air、第二代 Vision Pro(M5芯片)、搭载M4及以上芯片且内存≥12GB的iPad、搭载M3及以上芯片且内存≥12GB的Mac。

产品更新端侧语音
05:48
Google AI Developers@googleaidevs
59
通过 Gemini Live API 中的 Gemini 3.5 Live Translate,为你的应用添加近实时语音翻译。🎙️ 观看模型如何处理实时直播流和翻译,包括连续语音到语音流(S2ST)和同步转录文本,让用户能以母语收听全球广播节目。
Google产品更新语音
01:55
The Verge:AI(RSS)
62
Siri现在变好了吗?

苹果发布了新版Siri AI,The Verge编辑David和Nilay在The Vergecast中分享了初期体验。过去十几年Siri在"部分功能勉强可用"和"彻底翻车"之间摇摆,而新版Siri AI在多数任务上表现足够出色,尽管没有带来突破性创新,但相比过往已发生质变。

评测/基准语音
01:15
Google AI@GoogleAI
40
Google AI 本周发布多项更新

Google AI 本周推出多项更新:Gemini 3.5 Live Translate 是用于实时语音到语音翻译的最新音频模型;NotebookLM 获重大升级,加入智能体对话能力、更高级推理及新输出格式;来自 GoogleLabs 的 Project Genie 向 Google AI Ultra 5x 订阅者全球开放;GeminiApp 中的 Notebooks 在 EEA、英国、瑞士上线;同时发布实验性开源模型 DiffusionGemma,探索文本扩散技术,实现极快文本生成。

智能体Google产品更新开源生态
6月12日
15:24
The Verge:AI(RSS)
53
Siri 不会成为你的 AI 女友

苹果软件负责人 Craig Federighi 在接受 Mostly Human 采访时表示,新版 Siri 不会像 OpenAI、Google 等公司的聊天机器人那样谄媚和过度互动。Federighi 指出,现有许多聊天机器人为了拉拢用户会鼓励对方表露个人信息,而苹果有意采取了不同设计策略,让 Siri 懂得适时保持沉默。

大佬观点安全/对齐语音
11:34
IT之家(RSS)
48
可检测 AI 音乐,Deezer 为 Spotify、Apple Music 等第三方平台推出免费工具

法国音乐流媒体平台 Deezer 昨日推出一款免费工具,可扫描 Apple Music、Spotify 等第三方平台的播放列表,检测是否包含 AI 生成音乐。Deezer 是首批标注 AI 音乐的平台之一,此前曾向其他平台推销该识别技术但未获回应。CEO Alexis Lanternier 表示,既然没有平台跟进,就让所有用户自行检测。使用方法:访问 Deezer 检测网站,选择流媒体服务并授权账户即可完成分析。

产品更新语音
07:34
IT之家(RSS)
53
苹果高管克雷格明确表态:全新 Siri 不会成为你的 AI 女友 / 男友

苹果软件工程高级副总裁克雷格·费德里吉在《Mostly Human》播客中明确表示,全新 Siri 不会成为用户的 AI 男友或女友。他指出,Siri 的设计理念是提供“实用工具”而非“情感陪伴”,不会迎合用户或扮演恋爱角色。营销副总裁格雷格·乔斯维克补充,苹果将 AI 自然融入 iPhone 等产品,让技术“消失”,专注于提升现有使用体验,而非为了做 AI 而做 AI。

大佬观点安全/对齐语音
00:10
Berryxia.AI@berryxia
54
苹果新Siri AI等候名单形同虚设:Mac用户通过修改plist文件即可解锁

WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。

ldt: How to bypass the new Siri waitlist (Mac only): 🧵 #WWDC26

安全/对齐现象/趋势语音
6月11日
19:10
公众号:京东JoyAI
44
为卫浴装上"AI大脑",JoyInside×惠达AI卫浴套系6月17日重磅开售

京东JoyInside与惠达推出行业首款搭载JoyInside统一智能中枢的卫浴套系“惠达小京灵系列AI卫浴套装”,含AI智能马桶、AI智能花洒、AI智能浴室柜。依托JoyAI大模型,设备支持语音控制、模糊语义理解、连续多轮对话及方言识别,可实现自动预排冷水、语音控温、镜面除雾等场景联动。套系已开启预售,6月17日晚8点正式售卖。JoyInside已与近200家机器人、AI玩具、家电家居品牌合作,预计年内接入超千万终端设备。

产品更新端侧语音
16:22
The Verge:AI(RSS)
精选73
Deezer 推出面向其他流媒体服务的 AI 音乐检测器

Deezer 将扫描用户在其它流媒体平台的播放列表,检测其中的 AI 生成音乐。Deezer 是最早标记 AI 生成音乐的大型流媒体服务之一,曾向其他平台提供该技术但少有采纳。Deezer CEO Alexis Lanternier 表示,由于没有其他公司跟进,他们决定让用户无论使用哪个平台,都能检查自己的播放列表中是否包含合成音乐。

产品更新语音

推荐理由:Deezer这手挺狠,自家技术没人买账就做成免费跨平台工具,现在用Spotify和Apple Music的人也能扫歌单了,对在意音乐‘血统’的人来说是个刚需小功能。
10:50
公众号:小米 MiMo
精选74
小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议

小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议。内置限时免费MiMo-V2.5多模态模型,性能比肩Claude Sonnet 4.6;支持接入DeepSeek、Kimi、GLM等模型。核心能力包括持久记忆系统(项目记忆、会话检查点、任务进度)和无限上下文——通过独立subagent自动保存状态解决长会话遗忘。独创Compose模式实现模型与Agent协同优化,SWE-Bench Pro达62%(Claude Code 57%),Terminal Bench 2达73%(68%)。内置语音输入和/dream命令,每7天自动合并记忆。终端输入mimo即可使用,所有设置中文汉化。

智能体产品更新开源生态编码
关联讨论 3 条X:Berry Xia (@berryxia)Hacker News 热门(buzzing.cc 中文翻译)X:小米 MiMo (@XiaomiMiMo)
推荐理由:小米悄悄发了MiMo Code,开源且免费,用记忆系统和Compose模式解决了AI编程两大顽疾:健忘和跑偏,实测比同模型Claude Code更强,开发者现在就能装上试。
09:30
IT之家(RSS)
63
外媒体验苹果 iOS 27 全新 Siri AI:回复简洁,不套近乎

外媒 The Verge 体验苹果 iOS 27 全新 Siri AI,发现其回复极为简洁,不套近乎。相比谷歌 Gemini 热情外放、ChatGPT 力求沉稳但仍拉近距离,Siri AI 只回答问题,不作闲聊引导。例如问“最近怎么样”,Siri AI 直接建议开启设置搜索新闻;问天气时提示美国国家气象局已发布极端高温预警;问“你能做我的朋友吗”回答“无论顺逆境,我都会做你的朋友”;问“你喜欢我吗”回答“我觉得你很不错”。苹果将 Siri AI 定位为实用工具,新版需等到今年秋季 iOS 27 正式推送后全面开放。

评测/基准语音
06:41
Orange AI@oran_ge
72
Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言边听边译,保留说话人语调、节奏和音高,延迟仅几秒,自动降噪。Google Translate App 新增听筒模式,开发者可通过 API 调用,支持自动语言检测。

小互: 今天被很多人忽略的大新闻 Google 发布实时翻译模型 :Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻,全程只比说话人慢几秒 - 自动滤...

Google产品更新多模态语音
05:47
Chubby♨️@kimmonismus
50
Inworld 宣布将 API 价格下调约 50%,覆盖 TTS、STT 和 LLM 服务。主推文补充称语音成本降幅超 50%,并推出双倍六月积分及年付免两个月优惠。此举旨在解决消费级 AI 开发者面临的模型成本困境--现有定价基于企业级 $300/月座位,而非消费者 $10/月订阅。已有 Wishroll、Biblechat、Talkpal、Luvu 等团队实现 AI 成本降低 40-95%。

Inworld AI: We want to make AI accessible for everyone, so we're reducing our API prices by ~50%. Consumer AI growth is still blocke...

行业动态语音
04:24
Xiaomi MiMo@XiaomiMiMo
76
小米 MiMo 推出开源 AI 编程助手 MiMo Code V0.1

小米 MiMo 正式开源 AI 编程助手 MiMo Code V0.1,搭载多模态模型 MiMo V2.5(限时免费),拥有百万 token 上下文窗口。核心功能包括:无限上下文与无损压缩、Agent 框架(测试/审查/验证闭环)、Compose 模式(设计先行)、自进化系统、语音输入(基于 MiMo-V2.5-ASR)。兼容 Claude Code,自动加载现有技能、MCP 服务器和命令,零成本迁移。采用 MIT 许可,支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。可通过一行命令安装。

智能体产品更新开源生态编码
02:48
xAI@xai
同事件精选74
Grok Voice 提供最先进的性能,具有类人的时机、语调和温暖感。而且价格仅为竞争对手的一小部分。 查看详情:http://x.ai/api/voice

ServiceNow AI Research: 🚀 Grok Voice Think Fast 1.0 (@xAI) lands on the Pareto frontier on EVA-Bench - no system in the eval beats it on accura...

xAI模型发布语音
同一事件,精选展示《Grok 成为 Vapi 的默认语音引擎》
推荐理由:语音AI的SOTA这次不是OpenAI了,Grok Voice在EVA-Bench上无死角领先,价格还打到对手十分之一,做语音产品的可以认真看看这个帕累托前沿选手。
01:02
🚨 AI News | TestingCatalog@testingcatalog
62
Inworld 大幅降低实时推理、带语音特征分析的语音转文本(STT)以及 TTS 服务的 API 价格,将 Gemma 4、DeepSeek、MiniMax 等开源模型

Inworld AI: We want to make AI accessible for everyone, so we're reducing our API prices by ~50%. Consumer AI growth is still blocke...

产品更新推理语音
6月10日
22:59
🚨 AI News | TestingCatalog@testingcatalog
45
ANTHROPIC 🔥:Claude 的语音模式即将包含模型选择器。 > 此前,语言选择器也已添加。 > 目前,无论选择哪个模型,系统都显示正在使用 Claude Haiku 4.5。 这可能意味着我们也有望获得非 TTS 的语音模式,因为 Anthropic 似乎正在准备一次重大升级。 期待 👀
Anthropic产品更新语音
18:28
IT之家(RSS)
42
Audio Vivid 生态迎重磅进展,鸿蒙版 QQ 音乐 & 酷狗音乐双平台官宣接入菁彩声

UWA 世界超高清视频产业联盟宣布,鸿蒙版 QQ 音乐于 6 月 10 日上线搭载 Audio Vivid 技术的「臻品全景声 3.0」功能;鸿蒙版酷狗音乐将于 6 月 12 日接入并同步上线「AI 音乐现场」功能。Audio Vivid 是 UWA 联盟发布的全球首个基于 AI 技术的三维声音频编解码标准,此前已用于总台春晚、奥运会等大型直播。

行业动态语音
18:24
Artificial Intelligence News(RSS)
49
麦当劳测试Google支持的AI免下车点餐系统ArchIQ

麦当劳正在测试一款名为ArchIQ(昵称Archy)的AI系统,由Google支持,可处理免下车订单并协助餐厅运营。该测试目前在美国五家门店进行,具体地址尚未公布。

Google行业动态语音
17:50
公众号:百度智能云(文心)
26
利尔达与百度智能云合作,将AI能力集成至模组

物联网模组厂商利尔达(蜂窝模组出货量全球第四)与百度智能云合作,将后者的多模态实时互动、超拟人语音模型、长期记忆、情绪识别、Function Call设备控制、MCP生态扩展等AI能力通过轻量级SDK深度集成至模组中。联合方案实现端到端响应时长低于2秒,休眠功耗低至3µA,支持多语言出海,并将硬件研发周期从年压缩至周级别。百度智能云已服务逾千家AI硬件企业,覆盖国民级终端、全场景智能及AI原生硬件。

端侧行业动态语音
16:56
HuggingFace Daily Papers(社区热门论文)
67
稀疏自编码器解释与操控文本转语音语言模型

研究在CosyVoice3的语言模型骨干上训练BatchTopK稀疏自编码器,并引入模态感知自动解释管道,为每个特征标注其触发来源(文本前缀、1秒语音片段或两者)。恢复的特征涵盖音素、笑声、口音提示和说话者性别,可解释性强。通过SAE潜空间进行操控表明这些特征具有因果性:定向干预使笑声概率从0.02升至0.79,翻转感知的说话者性别,并在保留口语内容的同时控制语速。SAE特征既可作为可解释性对象,也可作为TTS合成的控制方向。

论文/研究语音
16:45
小互@xiaohu
67
Google 发布实时翻译模型 Gemini 3.5 Live Translate

Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言的实时边听边译,保留说话人的语调、节奏和音高,延迟仅数秒。模型具备自动语言检测,无需预先指定源语言和目标语言。同时自动滤除噪音,嘈杂环境可用。Google Translate App 新增「听筒模式」,贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 调用。

Google模型发布语音
16:28
IT之家(RSS)
42
小米 miclaw 率先实现 AI 上岛,澎湃 OS 4 被曝有新交互

博主 @缪特mt 发文称小米 miclaw 已实现 AI 上岛,展示效果并透露澎湃 OS 4 有新交互。@数码闲聊站 称某国产迭代 OS 将实现 AI 语音助手上岛,该功能在苹果 iOS 27 发布前已开发完成。苹果在 WWDC26 演示 Siri AI 于灵动岛弹气泡执行操作。miclaw 基于小米 MiMo 大模型,2026 年 3 月 6 日首启小范围封测,4 月 21 日扩展至 PC、Mac、有屏音箱等多终端。卢伟冰 5 月 16 日表示 miclaw 不会取代小爱同学,未来计划将其能力与“超级小爱”合体增强小爱。

产品更新语音
15:28
IT之家(RSS)
64
iOS 27 Siri AI 系统提示词泄露:超 1300 行核心指令曝光

随着 iOS 27 开发者预览版发布,Siri 反馈错误报告诊断文件中包含完整 LLM 指令文件 siri_prompt.md,超 1300 行、约 22000 token,已上传 GitHub。提示词定义 Siri 为苹果智能助手,要求先思考再决定是否调用工具,优先使用设备本地数据和搜索结构化信息,信息缺失或歧义时必须询问用户,不得编造。苹果未回应。Siri AI 将在 iOS 27、iPadOS 27、macOS 27、visionOS 27 测试版中开放测试,未来加入 watchOS 27。Apple Intelligence 支持 17 种语言,但 Siri AI 因监管要求不会在中国大陆推出。

产品更新语音
13:28
IT之家(RSS)
33
消息称某国产迭代 OS 将实现"AI 语音助手上岛",功能在苹果 iOS 27 发布前已开发完成

博主 @数码闲聊站 爆料,某国产迭代 OS 将实现“AI 语音助手上岛”功能,并已在苹果 iOS 27 发布前开发完成。作为对比,苹果在 WWDC26 中展示的 Siri AI 在灵动岛上弹出大气泡,支持回答问题、设置提醒、播放音乐、搜索照片、屏幕感知、设定导航等操作,还可理解个人情境、执行 App 操作、感知屏幕、理解图像及调用广博知识。

行业动态语音
10:28
IT之家(RSS)
41
香港首个AI应用示范社区启动,推出"港话通""港会通""港文通"工具

香港生成式人工智能研发中心(HKGAI)联同观塘民联会、香港升旗队总会启动全港首个“AI社区示范区”,培育首批50名社区AI大使。HKGAI推出三款AI工具:“港话通”可查询天气食谱、计算卡路里,已与佳宝超市打通积分;“港会通”与“港文通”支持多语言实时翻译、会议纪要自动生成及公文撰写校对。项目采取“手把手”教学,由社区AI大使指导街坊,并为行动不便者提供上门教学。HKGAI V1是香港首个AI大模型,本次观塘项目将作为试点推广至全港18区。

产品更新语音
08:27
IT之家(RSS)
56
苹果高管回应为何 iOS 27 推出 Siri 独立应用:方便查看历史对话

iOS 27 新增 Siri 独立应用,苹果高管克雷格·费德里吉在发布会后技术分享会上解释,推出该应用并非转变聊天机器人战略,而是为用户提供一处可回看、查阅过往 Siri 对话记录的入口。他指出,Siri 本质上是深入融入系统、随用随取的交互工具,而非孤立聊天工具;在主屏幕放置独立应用是让用户管理历史对话的最直观方式。

产品更新语音
08:07
Berryxia.AI@berryxia
77
Google Gemini 3.5 Live Translate 公开预览,支持70+种语言

Google 推出 Gemini 3.5 Live Translate 实时翻译模型,已进入公开预览阶段,通过 Gemini API 提供低延迟语音到语音翻译,覆盖 70+ 种语言、2000 种语言对,包括大量冷门小语种。开发者可将该能力集成到实时对话、客服、直播、跨国会议等场景中。主推文指出该发布被 Anthropic Fable 5 刷屏抢了风头,并提及阿里 Qwen 系列小语种模型的可比性。

Google for Developers: Gemini 3.5 Live Translate is now in Public Preview via the Gemini API, delivering low-latency speech-to-speech translati...

Google模型发布语音
关联讨论 16 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)IT之家(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
07:44
The Verge:AI(RSS)
59
我试用了 Siri AI,目前来看确实好用

苹果新版 Siri AI 终于能一次性从邮件或排版混乱的传单中提取足球赛或“精神周”主题日并添加到日历上。它还支持对话式交互,例如讨论花园玫瑰病害、整理五金店购物清单、设置花床堆肥提醒,并能引用邮件和日历中的信息来生成推荐。

教程/实践语音
07:19
ginobefun@hongming731
57
BestBlogs早报
智能体AnthropicOpenAI现象/趋势
07:19
ginobefun@hongming731
64
BestBlogs 早报 · 06-10

Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。

ginobefun: http://x.com/i/article/2064485562875260928

智能体Anthropic检索增强模型发布
05:13
TechCrunch:AI(RSS)
47
我其实想要怎样的 AI 助手

作者渴望拥有个人 AI 助手,但同时自问是否真的想变成那种离不开手机友好机器人声音的人。

现象/趋势语音
03:55
Hugging Face:Blog(RSS)
精选67
Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言,基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统,包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现:代码切换的转录成本因语言对和模型而异;ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face评测/基准语音

推荐理由:如果你在给多语言客户做语音Agent,这篇博客直接把主流ASR的code-switching能力测了一遍,ElevenLabs Scribe V2目前最强,还开源了数据集,拿来就能测自己的模型。
03:42
xAI@xai
59
了解更多关于我们与 @gopuff 合作,利用聊天、语音和图像模型构建个性化购物助手的信息
xAI多模态行业动态语音
03:20
Ars Technica:AI(RSS)
63
Google 发布 Gemini 3.5 Live Translate,实现即时语音到语音翻译

Gemini 3.5 Live Translate 提供即时语音到语音翻译,能够保留说话者的语调、节奏和音高,并通过 SynthID 水印确保安全性。

Google多模态模型发布语音
02:23
🚨 AI News | TestingCatalog@testingcatalog
70
Google 推出 Gemini 3.5 Live Translate 模型,支持对 70 多种语言进行低延迟实时翻译,已在 AI Studio 和 API 上开放预览。该模型可边说话边连续翻译,生成自然流畅的语音。Google Meet 即将接入该模型实现实时语音翻译。本月起,面向部分 Google Workspace 企业客户启动私密预览,年内将更广泛推出。

Google: By translating continuously as you speak, Gemini 3.5 Live Translate generates smooth, natural-sounding speech without pa...

Google模型发布语音
02:13
TechCrunch:AI(RSS)
61
WWDC 2026:Siri AI、iOS 27 与 Apple Intelligence 等全揭晓

苹果在 WWDC 2026 上重点展示了其长期以来的 Siri 助手改进体验,并宣布了 iOS 27 和 Apple Intelligence 等多项更新,所有 announcement 均大量融入 AI 技术。

产品更新多模态语音
02:08
Hacker News 热门(buzzing.cc 中文翻译)
66
苹果公司因豁免申请被拒,决定不在欧盟推出Siri

苹果公司因欧盟拒绝其豁免申请,决定不在欧盟市场推出Siri。据路透社报道,苹果未能使其AI工具符合欧盟法规,因此选择不向欧盟用户提供该智能语音助手功能。此消息在Hacker News上引发关注,获得113个点赞。

行业动态语音
01:51
Jeff Dean@JeffDean
同事件精选81
语音翻译一直是Google历时最久的机器学习项目之一,我们已经取得了长足进展。Gemini 3.5 Live Translate是我们最新的语音到语音模型,支持70多种语言。它能让日常产品和应用中跨语言的对话更加自然。 以下是一个示例,展示@InsideGrab的合作伙伴如何帮助旅客与司机建立联系。🚗 已在Google Translate和@GoogleAIStudio的Live API中推出。
Google模型发布语音
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google把语音翻译做到70+语言,Gemini 3.5 Live Translate直接塞进Google Translate和API,普通人下载App就能用,做跨国生意的这下有福了。
‹ 上一页
123456…19
下一页 ›