AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 387 条
全部一手资讯X论文
标签「语音」清除
5月16日周六
18:25The Decoder:AI News(RSS)44OpenAI收购了以模仿名人而闻名的声音克隆初创公司Weights.gg
09:42IT之家(RSS)48OpenAI 低调收购声音克隆平台 Weights.gg,整合 AI 语音技术并应对版权争议
5月15日周五
18:42IT之家(RSS)45追觅推出 AI 录音名片 D・NOTE:支持一键录音后 AI 转写总结,899 元起
11:17公众号:腾讯混元39腾讯新闻AI电台来了!基于混元大模型打造
01:46HuggingFace Daily Papers(社区热门论文)71精选EVA-Bench:端到端语音智能体评估新框架
5月14日周四
14:46HuggingFace Daily Papers(社区热门论文)60Vividh-ASR:面向鲁棒印度语语音识别的复杂度分层基准与优化动态研究
14:02公众号:豆包(字节)38豆包输入法上新,可以在电脑上语音打字了
08:00HuggingFace Daily Papers(社区热门论文)50AuralSAM2:通过金字塔音视频特征提示赋能SAM2倾听
5月13日周三
23:39IT之家(RSS)50谷歌 Gboard 输入法新增 Gemini 驱动听写功能,可识别一句话中的多种语言
22:39IT之家(RSS)52vivo 公布 OriginOS 6 五月体验升级亮点:小 V 语音一句话修图、原子岛充电动画等
20:39IT之家(RSS)61大版本来袭:第一代小米 SU7 汽车 OTA 1.16 开推,新增语音控车、疲劳分心下应急停车辅助功能等
15:39IT之家(RSS)61谷歌安卓桌面版重构鼠标光标交互,让 AI 听懂"这个 / 那个"比划
12:16公众号:数字生命卡兹克47豆包输入法Mac版正式上线,所有人都该试试AI语音输入了。
07:39IT之家(RSS)45苹果 iOS 27 前瞻:相机 App 支持全面自定义且 Siri 迎来重大重构,Safari 和天气设计焕新
5月12日周二
21:40The Decoder:AI News(RSS)66Thinking Machines Lab发布首款模型,主张交互性才是OpenAI语音技术的误区
11:36IT之家(RSS)37鸿蒙智行 / AITO App 更新 3.0.1.300 版本,新增支持华为 HarmonyOS 6 小艺语音控车
5月11日周一
21:34IT之家(RSS)46哈曼发布 AI 赋能车载 K 歌平台 Sing Drive:支持实时人声消除,打破预授权曲库依赖
16:34IT之家(RSS)331099 元,吉利 Eva 车载机器人发售
10:00公众号:昆仑万维(天工)26当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由
08:00Thinking Machines Lab:官方博客(RSS)59精选Thinking Machines Lab发布Interaction Models研究预览
5月10日周日
22:33IT之家(RSS)40古尔曼:苹果 macOS 27 将进一步完善液态玻璃设计
5月9日周六
20:32IT之家(RSS)53光帆科技推出"行业首款带摄像头 AI 耳机",5 月 15 日发售
15:29IT之家(RSS)28微信 Win / Mac PC 版 4.1.9 已支持滚动长截图、发表情一键复制等功能
14:51公众号:阶跃星辰(Step)45阶跃语音模型位列 Artificial Analysis 评测榜中国第一、全球前三
10:29IT之家(RSS)34华为 Sound X5 智能音箱开售:全新悦彰音质、升级 AI 大模型,2199~2499 元
10:29IT之家(RSS)66阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime,支持情绪感知与人设自定义
10:19Hacker News 热门(buzzing.cc 中文翻译)50OpenAI 的 WebRTC 问题
09:47Simon Willison 博客38引用 Luke Curley
07:29IT之家(RSS)50苹果 CarPlay 接入马斯克的 Grok 模型,在车内和 AI 自然聊天
5月8日周五
22:09公众号:阶跃星辰(Step)50StepAudio 2.5 Realtime 上线!真人级实时语音对话能力,千万人设任你打造
16:16IT之家(RSS)27海信 Vidda G11 智能音频眼镜发布:6mic 空间拾音、待机 12 天,首发价 1299 元起
09:16IT之家(RSS)70OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力
08:16IT之家(RSS)50iOS 27 版苹果备忘录 App 前瞻:接入 AI 版 Siri 简化内容收集、高效梳理信息
07:16IT之家(RSS)53尺寸类似 AirTag:古尔曼称苹果正开发 AI 可穿戴设备,能和 iOS 27 版 Siri 语音交互
03:10The Decoder:AI News(RSS)70OpenAI发布新语音模型,为实时对话带来GPT-5级推理能力
01:18OpenAI:官网动态(RSS · 排除企业/客户案例)86精选通过 API 中的新模型推进语音智能
5月7日周四
21:16IT之家(RSS)18绿联 X8 耳夹式耳机发售:VPU 骨声纹降噪、11mm 单元,399 元
19:13OpenAI:官网动态(RSS · 排除企业/客户案例)22Parloa 打造客户愿意与之交谈的服务代理
15:16IT之家(RSS)72精选用嘴干活:阿里千问 PC 端上线 AI 语音输入功能
08:16IT之家(RSS)23漫步者 Lolli5 ANC 智能触控大圆屏耳机开售:50dB 降噪,539 元
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月16日
18:25
The Decoder:AI News(RSS)
44
OpenAI收购了以模仿名人而闻名的声音克隆初创公司Weights.gg

OpenAI已完成对小型初创公司Weights.gg的收购,该公司此前以提供泰勒·斯威夫特、唐纳德·特朗普等名人AI声音克隆服务而知名。约六人规模的团队现已加入OpenAI。不过,OpenAI明确表示暂无计划将此项技术作为独立产品向公众发布,此次收购主要着眼于团队与技术整合。

OpenAI行业动态语音
09:42
IT之家(RSS)
48
OpenAI 低调收购声音克隆平台 Weights.gg,整合 AI 语音技术并应对版权争议

OpenAI 于今年早些时候低调收购了AI声音克隆初创公司Weights.gg,获得了其全部知识产权和约六人团队。Weights.gg的平台允许用户创建AI语音翻唱和进行文本转语音,其社区模型库包含大量未经授权的名人声音模型。OpenAI自身已开发出仅需15秒音频即可克隆语音的Voice Engine技术,但因滥用担忧尚未广泛开放。公司正将语音技术整合进商业化产品,并调整业务以聚焦创收。此次收购也使其更深地卷入声音克隆技术引发的版权争议之中。

OpenAI行业动态语音
5月15日
18:42
IT之家(RSS)
45
追觅推出 AI 录音名片 D・NOTE:支持一键录音后 AI 转写总结,899 元起

追觅发布了一款名为 D·NOTE 的 AI 录音名片,主打一键录音、转写和总结功能。产品重30克,支持145种语言的在线秒速转写,并内置超过1800个中文模板以智能匹配总结。它还具备说话人识别功能,最大工作距离5米,最多可识别35人。此外,该设备支持NFC传输电子名片,内置电池提供最长30小时续航。产品提供8GB和64GB两个存储版本,首发价分别为899元和999元。

产品更新端侧语音
11:17
公众号:腾讯混元
39
腾讯新闻AI电台来了!基于混元大模型打造
产品更新语音
01:46
HuggingFace Daily Papers(社区热门论文)
精选71
EVA-Bench:端到端语音智能体评估新框架

EVA-Bench是一个端到端语音智能体评估框架,解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真,并提出了衡量任务完成度、音频保真度的EVA-A指标,以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集,采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现,无系统能在两项核心指标上同时超过0.5,峰值与可靠性能差距显著,且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。

Hugging Face论文/研究评测/基准语音

推荐理由:EVA-Bench 把语音代理评估从「能对话就行」推进到「对话质量+鲁棒性」的全维度打分,还开源了 213 个企业场景,做语音助手的团队该认真看看。
5月14日
14:46
HuggingFace Daily Papers(社区热门论文)
60
Vividh-ASR:面向鲁棒印度语语音识别的复杂度分层基准与优化动态研究

针对多语言ASR模型微调中出现的“录音室偏差”问题,本研究发布了Vividh-ASR基准,涵盖印地语和马拉雅拉姆语的四个语音复杂度层级。通过控制学习率时机与课程顺序的实验发现,早期大参数更新可显著降低整体词错误率,而由难到易的课程顺序能进一步提升自发语音识别效果。据此提出的反向多阶段微调方法,使2.44亿参数的Whisper模型性能达到或超过传统微调的7.69亿参数模型。表征分析表明,有效调度将适应过程集中于解码器,同时保持了编码器的预训练声学结构。基准与模型均已开源。

论文/研究语音
14:02
公众号:豆包(字节)
38
豆包输入法上新,可以在电脑上语音打字了
产品更新端侧语音
08:00
HuggingFace Daily Papers(社区热门论文)
50
AuralSAM2:通过金字塔音视频特征提示赋能SAM2倾听

针对SAM2在音频模态整合上的不足,本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征,生成稀疏和密集提示,并基于SAM2的特征金字塔在视觉层间传播音频线索,以强化跨模态影响。同时,引入音频引导对比损失函数,进一步对齐音频与视觉特征。实验表明,该方法在公开基准上显著提升了准确率,同时将对SAM2可提示分割交互效率的影响降至最低。

arXivGitHub多模态论文/研究
5月13日
23:39
IT之家(RSS)
50
谷歌 Gboard 输入法新增 Gemini 驱动听写功能,可识别一句话中的多种语言

谷歌在Android活动中为Gboard输入法推出由Gemini驱动的AI语音听写功能Rambler。它能自动删除“呃”“啊”等填充词,并理解即时修正。其核心亮点是支持“代码切换”,可在同一句话中无缝识别多种语言且保持上下文连贯。谷歌强调,该功能不存储语音录音,结合设备端与云端处理以保障隐私。Rambler初期将于夏季在三星Galaxy和谷歌Pixel手机上推出,未来将扩展至更多Android设备。

Google产品更新多模态语音
22:39
IT之家(RSS)
52
vivo 公布 OriginOS 6 五月体验升级亮点:小 V 语音一句话修图、原子岛充电动画等

vivo OriginOS 6 五月体验升级带来多项新功能。核心亮点是“小V修图”,用户可通过语音指令一句话完成照片编辑。相册功能大幅增强,新增多款色彩风格、可编辑水印、自定义集浏览页面布局以及文件夹日期分组视图。原子岛充电动画升级,可实时显示充电速度与电量。此外,小V写作新增剪切板快捷入口,竖屏锁定优化了旋转切换逻辑,智能车载支持切换手机版地图。其他升级还包括小V帮读入口、蓝心小V的问答样式与图文质量优化、新增多款原子组件模糊材质,以及网络与无障碍体验的改进。

产品更新端侧语音
20:39
IT之家(RSS)
61
大版本来袭:第一代小米 SU7 汽车 OTA 1.16 开推,新增语音控车、疲劳分心下应急停车辅助功能等

小米汽车开始向第一代SU7推送OTA 1.16大版本更新,旨在对齐新款车型的功能体验。本次更新重点升级了辅助驾驶与智能座舱:辅助驾驶新增语音控车、收费站通行辅助、侧向避让辅助及针对异形障碍物的前向防碰撞辅助等功能;特别增加了疲劳分心下的应急停车辅助,触发后将自动减速停车并禁用辅助驾驶30分钟。智能座舱方面,超级小爱新增“小爱陪伴”和“AI智控”功能。此外,还引入了车主管理模式。多数新功能仅支持SU7 Pro和Max车型。

智能体产品更新多模态语音
15:39
IT之家(RSS)
61
谷歌安卓桌面版重构鼠标光标交互,让 AI 听懂"这个 / 那个"比划

谷歌DeepMind发布了名为Magic Pointer的AI光标交互功能,旨在重构桌面端安卓系统的鼠标使用体验。其核心理念是让AI无缝融入用户当前工作流,通过识别光标位置和语音指令理解上下文,无需复制内容或输入完整提示词。该功能遵循四项原则:保持工作连续性、支持“边指边说”交互、理解“这个/那个”等自然指代、将屏幕像素转化为可操作实体。目前,谷歌已在AI Studio上线演示,并正将相关能力逐步集成至Chrome浏览器的Gemini中。

Google产品更新多模态语音
12:16
公众号:数字生命卡兹克
47
豆包输入法Mac版正式上线,所有人都该试试AI语音输入了。
产品更新端侧语音
07:39
IT之家(RSS)
45
苹果 iOS 27 前瞻:相机 App 支持全面自定义且 Siri 迎来重大重构,Safari 和天气设计焕新

据报道,苹果 iOS 27 将对相机 App 进行重大升级,支持用户完全自定义界面控件布局。Siri 将重构为全天候智能体,集成于灵动岛,并新增可切换第三方 AI 服务的系统搜索功能。Safari 浏览器将更新起始页设计,天气应用新增集成信息面板。此外,多个系统应用的底部标签栏将调整,主屏幕编辑新增撤销/重做功能。该系统预计于2026年6月9日WWDC正式发布。

产品更新搜索语音
5月12日
21:40
The Decoder:AI News(RSS)
66
Thinking Machines Lab发布首款模型,主张交互性才是OpenAI语音技术的误区

由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型,旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块,并行处理音频、视频和文本信息,专注于提升实时交互的流畅性与自然度。公司宣称,这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live,致力于推动语音助手向更自然、非问答式的对话体验演进,从而重新定义人机交互方式。

多模态模型发布语音
11:36
IT之家(RSS)
37
鸿蒙智行 / AITO App 更新 3.0.1.300 版本,新增支持华为 HarmonyOS 6 小艺语音控车

华为“鸿蒙智行”与“AITO”车控App于5月9日和12日更新至3.0.1.300版本,核心新增对HarmonyOS 6小艺语音控车的支持。此次更新扩展了语音控车功能,用户可通过小艺助手执行车辆解锁/上锁、打开/关闭后备箱以及针对纯电车型开启前备箱等指令,实现了更丰富的无接触控车方式。该功能此前已在HUAWEI WATCH 4系列手表上提供。

产品更新语音
5月11日
21:34
IT之家(RSS)
46
哈曼发布 AI 赋能车载 K 歌平台 Sing Drive:支持实时人声消除,打破预授权曲库依赖

哈曼中国发布AI赋能车载K歌平台Sing Drive。该平台原生集成于整车信息娱乐与音响系统,采用低时延AI技术,可对任意来源的音乐进行实时人声消除与分离,打破了对预授权卡拉OK曲库的依赖。其结合车规级麦克风架构与专属数字信号处理,旨在提供稳定、低延迟的高品质车内K歌体验。平台支持灵活配置,可覆盖从基础伴唱到具备同步歌词和AI技术的全功能卡拉OK系统。

产品更新端侧语音
16:34
IT之家(RSS)
33
1099 元,吉利 Eva 车载机器人发售

吉利银河life商城上架吉利Eva车载机器人,定价1099元并已开启预售。该产品采用圆角矩形设计,可安装于车机中控屏后方,通过小屏幕展示不同表情。它支持蓝牙BLE与WiFi双模双频连接,能与车机深度协同,一键触发上车欢迎、语音聆听等场景,并在充电、导航、座椅通风、开启智能驾驶时显示对应动画表情,还包含节日彩蛋。目前适配吉利银河星耀7的220km四驱星耀版和230km两驱探索+版两款车型。

产品更新语音
10:00
公众号:昆仑万维(天工)
26
当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由

Mureka正被企业用以替换Suno,一场AI音乐领域的迁移正在发生。背后涉及功能、成本或合规等方面的理由。

多模态现象/趋势语音
08:00
Thinking Machines Lab:官方博客(RSS)
精选59
Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由:Thinking Machines 把实时交互训进了模型本身,不再是外挂脚手架,微轮次架构和 benchmark 数据很硬,做语音/视频助手的可以认真看看,虽然还是研究预览,但方向值得盯着。
5月10日
22:33
IT之家(RSS)
40
古尔曼:苹果 macOS 27 将进一步完善液态玻璃设计

据彭博社记者马克・古尔曼透露,苹果计划在下一版macOS中进行小幅重新设计,以进一步完善液态玻璃设计语言,并优化Tahoe系统界面的细节。此次更新将微调系统全局透明度和阴影效果,旨在解决用户反馈的应用对比度不足问题。古尔曼指出,macOS 27版本将完整实现设计团队最初的液态玻璃构想。除界面优化外,新系统还将提升稳定性与运行效率,并进行代码精简,以提高设备性能与续航。新版Siri将是重点功能,依托AI平台升级,系统还将获得多项其他优化。

产品更新语音
5月9日
20:32
IT之家(RSS)
53
光帆科技推出"行业首款带摄像头 AI 耳机",5 月 15 日发售

光帆科技宣布将于5月15日发售“光帆全感AI耳机”,该产品被称作行业首款带摄像头的AI耳机。耳机主打“全感知、主动式、个性化”,能通过环境感知主动提供提醒与服务,用户还可为AI选择不同人设,使其成为具有陪伴感的随身助理。硬件方面,单耳重11克,采用开放式耳挂设计,双侧配备200万像素双目摄像头用于实时识别物体与场景。耳机盒集成4G网络,支持脱离手机独立使用。续航上,耳机通话可达9小时,音乐播放15小时,配合充电盒总续航最高为90小时。

产品更新多模态端侧语音
15:29
IT之家(RSS)
28
微信 Win / Mac PC 版 4.1.9 已支持滚动长截图、发表情一键复制等功能

微信发布了Windows和Mac平台4.1.9版本,核心更新包括电脑端新增语音消息发送功能,用户可通过点击麦克风图标或按住Alt键录制并发送最长60秒的语音。截图工具加入滚动长截图功能,用户可截取完整纵向长页面。此外,输入默认表情后按右方向键可快速复制表情以连续发送,合并转发的文本消息支持右键一键全文翻译,网页打印功能也新增了预览支持。

其他语音
14:51
公众号:阶跃星辰(Step)
45
阶跃语音模型位列 Artificial Analysis 评测榜中国第一、全球前三
评测/基准语音
10:29
IT之家(RSS)
34
华为 Sound X5 智能音箱开售:全新悦彰音质、升级 AI 大模型,2199~2499 元

华为Sound X5智能音箱正式开售,定价2199至2499元。新品主打全新“悦彰音质”,采用八单元三分频设计,支持36Hz低音。其核心升级在于搭载鸿蒙AI大模型,具备模糊语义理解和拟人连续对话能力。音箱支持鸿蒙智联全场景互联,提供智慧助眠、一碰传音、挥手控全屋等功能,并升级了可随声变化的幻彩灯效。共有鎏金、玄黑、云白三款配色。

产品更新语音
10:29
IT之家(RSS)
66
阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime,支持情绪感知与人设自定义

阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime,现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪,动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等,其能力基于超万个原生人设生成的百万级特征矩阵训练,并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升,可应对从闲聊到专业面试等多种场景。据2026年4月评测,其主观对话体验与语音问答基准得分均领先于同期竞品。

多模态模型发布评测/基准语音
10:19
Hacker News 热门(buzzing.cc 中文翻译)
50
OpenAI 的 WebRTC 问题

OpenAI的实时通信服务因依赖WebRTC协议而面临延迟问题。分析显示,其服务往返时间中位数达88毫秒,远超QUIC等现代协议的个位数毫秒水平。这一技术选择导致交互响应显著延迟,成为性能瓶颈。文章指出,优化或替换现有WebRTC架构可大幅提升实时体验,对AI语音交互等场景至关重要。

OpenAI现象/趋势语音
09:47
Simon Willison 博客
38
引用 Luke Curley

WebRTC 的设计会在网络状况不佳时主动降级甚至丢弃语音提示数据包,以保持低延迟。这导致在语音会议中常出现失真的音频,因为其核心设计优先考虑实时对话的流畅性,不允许等待或重传数据包。然而,对于需要高准确性的AI语音交互场景,用户宁愿多等待200毫秒以确保提示完整无误,因为不完整的提示会导致低质量的AI回复。Discord的实践表明,在浏览器中甚至无法实现WebRTC音频包的重传,其实现被硬编码为必须满足实时性要求。

OpenAI大佬观点语音
07:29
IT之家(RSS)
50
苹果 CarPlay 接入马斯克的 Grok 模型,在车内和 AI 自然聊天

苹果 CarPlay 在 iOS 26.4 系统更新中接入了马斯克旗下的 Grok AI 模型,用户通过 iPhone 连接车辆即可在车机中控屏进行语音对话。继 ChatGPT 和 Perplexity 之后,Grok 成为 CarPlay 生态的新成员,交互以语音为核心,支持查看最近对话、新建会话,并新增临时静音和切换语音功能,提升驾驶中的使用便利性。

xAI产品更新语音
5月8日
22:09
公众号:阶跃星辰(Step)
50
StepAudio 2.5 Realtime 上线!真人级实时语音对话能力,千万人设任你打造
产品更新语音
16:16
IT之家(RSS)
27
海信 Vidda G11 智能音频眼镜发布:6mic 空间拾音、待机 12 天,首发价 1299 元起

海信Vidda G11智能音频眼镜正式发布,首发价1299元起。产品主打轻量化设计,提供行业最轻的26.5克钛镜框和最细5.3毫米镜腿。音频方面首发搭载6麦克风空间拾音系统,配合自研AI算法,支持5米/秒抗风噪。续航表现突出,标称待机时间长达12天,实用续航47.2小时,并支持10分钟充电50%的快充功能。

产品更新语音
09:16
IT之家(RSS)
70
OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力

OpenAI 发布三款集成于Realtime API的实时语音模型,旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中,GPT-Realtime-2具备GPT-5级推理能力,可在对话中进行推理、调用工具并处理打断,音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言,每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录,每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。

OpenAI推理模型发布语音
08:16
IT之家(RSS)
50
iOS 27 版苹果备忘录 App 前瞻:接入 AI 版 Siri 简化内容收集、高效梳理信息

据报道,iOS 27系统将对Siri进行彻底重构,其底层将基于谷歌Gemini构建,交互模式将从指令式转变为类似ChatGPT的对话模式。新版Siri将与备忘录应用深度整合,用户可通过“把这个加到新备忘录”等语音指令,直接将AI生成的内容自动、完整地保存至备忘录,解决手动复制粘贴导致的流程繁琐和格式错乱问题。此外,Siri还能利用大语言模型能力,高效梳理信息并创建特定主题的备忘录。

产品更新语音
07:16
IT之家(RSS)
53
尺寸类似 AirTag:古尔曼称苹果正开发 AI 可穿戴设备,能和 iOS 27 版 Siri 语音交互

据彭博社记者马克·古尔曼爆料,苹果正在开发两款智能穿戴设备。一款是尺寸类似AirTag的吊坠配件,可夹在衣物或作为项链佩戴,配备常开摄像头和麦克风,依赖连接iPhone及iOS 27版Siri进行语音交互与数据处理,无屏幕和投影仪,项目仍处早期,可能于2027年发布。另一款是计划在2026年底或2027年初推出的智能眼镜,内置摄像头、扬声器和麦克风,支持拍照、通话及Siri通知,并与Apple Intelligence整合优化导航等功能,采用自主设计的塑料镜框,但第一代不配备AR显示功能。

端侧行业动态语音
03:10
The Decoder:AI News(RSS)
70
OpenAI发布新语音模型,为实时对话带来GPT-5级推理能力

OpenAI发布了三款新型语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中,GPT-Realtime-2具备与GPT-5相匹配的实时推理能力,旨在实现更流畅、智能的实时对话交互。GPT-Realtime-Translate支持超过70种语言的实时翻译,而GPT-Realtime-Whisper则专注于实时语音转写功能。这一系列模型标志着OpenAI在实时音频处理和交互领域的重要进展,有望显著提升跨语言沟通和语音应用的体验。

OpenAI推理模型发布语音
01:18
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选86
通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。

OpenAI多模态模型发布语音

推荐理由:语音模型不再只是‘听写’,开始能推理和翻译了,OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段,做语音产品的值得赶紧试试。
5月7日
21:16
IT之家(RSS)
18
绿联 X8 耳夹式耳机发售:VPU 骨声纹降噪、11mm 单元,399 元

绿联 X8 耳夹式蓝牙耳机现已发售,首发价399元。耳机采用专利C桥设计,内嵌钛镁合金记忆丝确保稳固佩戴。其搭载11mm双磁钛膜单元,支持Hi-Res/LDAC双金标认证与格莱美大师调音。核心亮点是首发VPU骨声纹降噪技术,结合4麦克风与2个VPU实现6麦通话降噪。此外,内置AI助手支持实时翻译与录音转写,配备蓝牙6.0与IP56防尘防水。电池续航方面,单次使用可达10小时,配合充电仓综合续航为46小时。

产品更新语音
19:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
22
Parloa 打造客户愿意与之交谈的服务代理

Parloa 推出基于 OpenAI 模型的语音驱动 AI 客服代理,具备可扩展性,支持企业设计、模拟并部署可靠的实时交互。该平台通过大语言模型技术,使客服系统能够处理自然语音对话,提升服务响应速度与准确性,帮助企业实现高效、个性化的客户沟通解决方案。

OpenAI行业动态语音
15:16
IT之家(RSS)
精选72
用嘴干活:阿里千问 PC 端上线 AI 语音输入功能

阿里千问在PC端上线AI语音输入功能,用户通过快捷键即可在各类桌面应用中直接使用。该功能不仅支持去除语气词、纠错和格式化整理口语内容,更能基于上下文智能回复,并可直接下达创作、问答、翻译等指令。其设计逻辑超越传统语音打字工具,旨在成为跨应用的AI任务调度中枢:用户通过按住快捷键启动语音输入模式,或双击切换至AI指令模式,可直接派发信息检索、文档生成等任务。该功能覆盖文档编辑、网页浏览、即时通讯等主流办公场景,无需切换客户端或打开额外窗口,目前所有用户可免费使用。

产品更新语音

推荐理由:阿里千问把语音输入做成了跨应用的AI任务调度中枢,按住说话就能直接发指令干活,对办公族来说是个真提效的小功能,值得装上试试。
08:16
IT之家(RSS)
23
漫步者 Lolli5 ANC 智能触控大圆屏耳机开售:50dB 降噪,539 元

漫步者 Lolli5 ANC 智能触控大圆屏耳机已上市,售价539元,提供沙滩白、礁石黑、落日橙三种配色。其最大亮点是充电盒配备智能触控屏,可显示时间并控制音乐、拍照。耳机支持50dB深度、5kHz宽度的ANC自适应降噪和3+3麦智能通话降噪,拥有双Hi-Res金标认证。采用13mm双复合LCP液晶振膜单元,支持蓝牙6.0、双设备连接和IP55级防尘防水。此外,还集成了豆包与DeepSeek双脑问答、会议录音及App实时互译等智能功能。

DeepSeek产品更新语音
‹ 上一页
1…5678910
下一页 ›