AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 386 条
全部一手资讯X论文
标签「语音」清除
5月7日周四
06:40OpenAI:官网动态(RSS · 排除企业/客户案例)72精选Uber 利用 OpenAI 帮助司机更智能地赚钱、乘客更快地叫车
5月6日周三
14:31Hacker News 热门(buzzing.cc 中文翻译)50Telus利用人工智能调整客服代表的口音
5月5日周二
05:56Hacker News 热门(buzzing.cc 中文翻译)65OpenAI 如何实现大规模低延迟语音 AI
02:59OpenAI:官网动态(RSS · 排除企业/客户案例)58精选OpenAI 如何大规模交付低延迟语音 AI
5月4日周一
08:00HuggingFace Daily Papers(社区热门论文)51全双工语音模型中的LWS:文本优先三通道范式
08:00HuggingFace Daily Papers(社区热门论文)66TTS-STT飞轮系统:合成实体密集音频弥补印度语言ASR在细分领域的性能差距
5月2日周六
20:20The Decoder:AI News(RSS)52xAI 新功能 Custom Voices 可将一分钟语音转化为可用声音克隆
10:11IT之家(RSS)52苹果 macOS 27 系统新功能前瞻:Siri 升级独立应用、新增触控界面,抛弃 Intel Mac
02:00OpenRouter:Announcements(RSS)44OpenRouter 上线语音合成与转录 API
02:00OpenRouter:Announcements(RSS)52OpenRouter 推出新音频API:语音合成与转录
02:00OpenRouter:Announcements(RSS)63精选面向语音与转录的全新 Audio API
5月1日周五
20:11IT之家(RSS)42安克首款神经网络存算一体 AI 音频芯片"ANKER Thus"5 月 22 日发布,同期推出旗舰耳机产品
11:20xAI:News(网页)60精选自定义语音与语音库
08:00HuggingFace Daily Papers(社区热门论文)56LASE:用于印度语系跨文字身份保护的语言对抗性说话人编码
01:14Hacker News 热门(buzzing.cc 中文翻译)28DataCenter.FM - 一款以"AI泡沫"之声为特色的背景噪音应用
4月30日周四
17:10IT之家(RSS)44钉钉 DingTalk A1 Pro"充电宝版录音卡"发售:内置 2980mAh 电池,1299 元
10:34IT之家(RSS)46三星 Galaxy Glasses 智能眼镜曝光:骁龙 AR1 芯片、1200 万像素相机、重约 50 克
08:00HuggingFace Daily Papers(社区热门论文)62MiniCPM-o 4.5:迈向实时全双工全模态交互
08:00Apple Machine Learning Research(RSS)44国际声学、语音与信号处理会议 (ICASSP) 2026
07:34IT之家(RSS)50消息称苹果已搁置研发 Vision Pro 头显,重心转向 Siri 和 AI 眼镜
4月29日周三
15:38HuggingFace Daily Papers(社区热门论文)59Step-Audio-R1.5 技术报告
11:33IT之家(RSS)48谷歌翻译 20 周年:最常见短语为"谢谢",新增发音练习功能
07:33IT之家(RSS)51苹果 AirPods 将迎史诗级加强,iOS 27 全面重构 Siri AI 语音交互
4月28日周二
22:39Hacker News 热门(buzzing.cc 中文翻译)70精选Microsoft VibeVoice:开源前沿语音人工智能
16:33IT之家(RSS)48企业微信灰度上线"记录面聊"功能:声纹识别技术分辨发言人并快速记录,AI 自动总结要点
08:00HuggingFace Daily Papers(社区热门论文)52PSP:一个面向印度语种TTS的、按音系维度划分的可解释口音基准
08:00HuggingFace Daily Papers(社区热门论文)57Praxy Voice:零商业数据成本,通过语音提示恢复与BUPS实现商业级印度语TTS
07:46Simon Willison 博客64微软开源语音转文本模型VibeVoice简介与实测
4月27日周一
22:22IT之家(RSS)27安克"AI 录音豆"智能录音硬件新增 64GB 存储空间版本,999 元
19:22公众号:阶跃星辰(Step)45阶跃与腾讯云达成战略合作,共同打造智能座舱 Agent 助手
4月24日周五
11:38公众号:阶跃星辰(Step)51阶跃 StepAudio 2.5 ASR 上线!500TPS 极速推理,30分钟语音"秒级转写"
08:08IT之家(RSS)60小米发布 MiMo-V2.5-TTS / ASR 语音大模型:通过自然语言调度声音表现
01:53公众号:小米 MiMo52MiMo-V2.5-TTS-Series + ASR 正式发布
4月23日周四
08:00HuggingFace Daily Papers(社区热门论文)45语音优先国家的偏好:印度语言TTS的大规模配对评估与偏好分析
4月22日周三
23:08IT之家(RSS)多邻国向免费用户开放高级语言学习内容:涵盖中英日韩等九种语言
09:07IT之家(RSS)彭博社:苹果 Siri 主管洛克威尔考虑离职,Vision Pro 功臣陷职业迷茫
01:11IT之家(RSS)特斯拉车机语音大模型服务在我国上海市完成备案
4月21日周二
21:11IT之家(RSS)大众汽车今年下半年将为中国市场车型引入 AI 语音助手功能,整合腾讯阿里百度等企业技术
20:11IT之家(RSS)苹果更换 CEO 原因首次曝光,希望特努斯带回乔布斯时代的决断力
17:11IT之家(RSS)微信鸿蒙版 App 获 8.0.17.16 邀测升级,听一听灰度 AI 写歌 / 翻唱功能
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月7日
06:40
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选72
Uber 利用 OpenAI 帮助司机更智能地赚钱、乘客更快地叫车

Uber 宣布在其全球实时交通服务平台中集成 OpenAI 技术,用于驱动 AI 助手与语音功能。新功能旨在帮助司机更智能地规划接单以提升收入,同时让乘客能够更快完成叫车流程。该技术将应用于优化实时供需匹配与用户体验。

OpenAI行业动态语音

推荐理由:Uber 把 OpenAI 的语音和助手能力搬进了打车场景,这是 AI 真正融入日常服务的一个信号,对做产品的人来说,落地路径比技术参数更重要。
5月6日
14:31
Hacker News 热门(buzzing.cc 中文翻译)
50
Telus利用人工智能调整客服代表的口音

加拿大电信公司Telus正在使用人工智能技术实时调整客服代表的语音口音。该系统旨在改善通话清晰度与客户体验,通过AI处理使客服代表的语音更易于被客户理解。这一举措引发了关于技术伦理、文化认同及员工自主权的讨论,部分人士担忧其可能隐含的偏见或对多元性的压制。目前该技术已在部分客服通话中进行测试与应用。

行业动态语音
5月5日
05:56
Hacker News 热门(buzzing.cc 中文翻译)
65
OpenAI 如何实现大规模低延迟语音 AI

OpenAI通过优化推理堆栈,将其语音AI模型Whisper的实时转录延迟从2.8秒大幅降低至232毫秒。核心改进包括引入流式编码器、改进的解码策略与缓存机制,并采用分块处理技术。这些优化使系统能在用户说话结束后的极短时间内完成转录,为大规模部署低延迟语音交互应用提供了关键技术支撑。

OpenAI教程/实践语音
02:59
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
OpenAI 如何大规模交付低延迟语音 AI

OpenAI 重建了其 WebRTC 技术栈,以支持实时语音 AI 服务。新系统实现了低延迟、全球规模扩展和无缝的对话轮转。此次重构旨在为 ChatGPT 的语音模式等产品提供更流畅、更自然的实时语音交互体验,解决了大规模部署时面临的延迟与稳定性挑战。

OpenAI教程/实践语音

推荐理由:OpenAI 把语音 AI 的低延迟秘诀摊开了,做实时语音产品的可以看看他们的 WebRTC 优化思路,虽然不太能直接抄,但方向值得参考。
5月4日
08:00
HuggingFace Daily Papers(社区热门论文)
51
全双工语音模型中的LWS:文本优先三通道范式

现有语音大模型仅支持口语回复,限制代码生成等文本能力。研究人员提出Listen-Write-Speak (LWS)范式,单个自回归LLM在共享因果注意力上下文中持续聆听用户音频,以可见自由文本作为主要输出,并并行生成实时语音。该行为通过Token Schema实现,无需修改架构,由两阶段数据流水线学习。LWS在Full-Duplex-Bench展现强全双工交互,VoiceBench AlpacaEval得4.72,写作-语音一致性92.6%,在URO-Bench上持续优于消融模型。代码与数据集已开源。

论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
66
TTS-STT飞轮系统:合成实体密集音频弥补印度语言ASR在细分领域的性能差距

针对数字、地址、品牌名等细分领域的印度语言自动语音识别,现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统,以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后,在泰卢固语测试集上的实体命中率提升至0.473,较最佳开源模型提升17倍,较商业系统提升3倍,同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效,并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。

arXivGitHub数据/训练论文/研究
5月2日
20:20
The Decoder:AI News(RSS)
52
xAI 新功能 Custom Voices 可将一分钟语音转化为可用声音克隆

xAI 为开发者推出“Custom Voices”功能,允许克隆用户声音用于AI应用。该功能基于近期发布的 Grok 语音转文本和文本转语音 API 构建,仅需一分钟的语音样本即可生成可用的声音克隆。此举扩展了 Grok 语音模型的应用场景,为开发者提供了定制化语音合成的新工具。

xAI产品更新语音
10:11
IT之家(RSS)
52
苹果 macOS 27 系统新功能前瞻:Siri 升级独立应用、新增触控界面,抛弃 Intel Mac

据报道,苹果将在WWDC 26发布macOS 27系统,首个开发者测试版于演讲后立即提供。主要新功能包括:Siri将升级为独立应用,支持查看会话历史,操作逻辑类似ChatGPT,个性化功能也将扩展至Mac;系统将为预计2027年初发布的触屏版MacBook Pro开发专属触控界面,优化手指交互体验;此外,该系统将专注于稳定性与性能改进。macOS 27将仅支持M1或更高芯片的Mac,彻底抛弃Intel平台,同时不再兼容使用AFP协议的旧存储设备如AirPort Time Capsule。

产品更新语音
02:00
OpenRouter:Announcements(RSS)
44
OpenRouter 上线语音合成与转录 API

OpenRouter 新增两个 API 端点,分别提供语音合成(text-to-speech)和音频转录(transcription)功能,用户可通过单一接口跨多个提供商调用。

产品更新语音
02:00
OpenRouter:Announcements(RSS)
52
OpenRouter 推出新音频API:语音合成与转录

OpenRouter 现已上线文本转语音和音频转录功能。两个新端点提供跨多家提供商的语音合成与音频转录能力,统一API接入。

产品更新语音
02:00
OpenRouter:Announcements(RSS)
精选63
面向语音与转录的全新 Audio API

OpenRouter 正式上线文本转语音和音频转录功能。平台通过两个新的 API 端点,集成了多家供应商的语音合成与音频转录服务。用户现在可以统一调用单一 API,便捷访问多提供商的高质量语音生成与语音转文本能力,无需再为不同服务商单独集成。这简化了开发流程,为应用添加语音交互与内容转录功能提供了更高效的一站式解决方案。

产品更新语音

推荐理由:OpenRouter把语音合成和转录也接进来了,以后做语音应用的开发者可以少对接几个API,这是把‘省事’写进DNA的典型更新。
5月1日
20:11
IT之家(RSS)
42
安克首款神经网络存算一体 AI 音频芯片"ANKER Thus"5 月 22 日发布,同期推出旗舰耳机产品

安克将于5月22日发布其首款神经网络存算一体AI音频芯片“ANKER Thus”。该芯片采用CPU与存储合一的架构,旨在提升算力,以实现端侧实时音频AI功能。同期,安克将推出搭载此芯片的旗舰耳机产品。根据海报信息,该耳机为入耳式设计,充电盒外观圆润,且正面可能配备一块屏幕,具体规格尚未公布。

产品更新端侧语音
11:20
xAI:News(网页)
精选60
自定义语音与语音库

xAI于2026年4月30日推出自定义语音和语音库功能。用户可通过约1分钟录音快速克隆声音,并在Grok文本转语音及语音代理API中即时使用,整个过程仅需2分钟。语音库提供集中管理平台,内置语音已超80种,支持28种语言。为确保安全,系统采用两阶段验证,包括实时转录匹配和说话人嵌入确认,以防止未经授权的克隆。这些功能适用于品牌代理、内容创作、无障碍辅助、多语言团队及游戏娱乐等多种场景,且使用自定义语音无需额外费用。

xAI产品更新语音

推荐理由:xAI 这波‘声音克隆+管理’的更新很实用,安全验证做得细,创作品类和品牌方应该会喜欢,对开发者来说是个加分项,但不是那种能改变格局的大招。
08:00
HuggingFace Daily Papers(社区热门论文)
56
LASE:用于印度语系跨文字身份保护的语言对抗性说话人编码

研究提出LASE(语言对抗性说话人编码器),以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头,结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练,使编码消除语言信息的同时保留说话人特征。实验表明,在1118个跨文字语音对上,LASE将身份漂移降至接近零,并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中,LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。

Hugging Face开源生态论文/研究语音
01:14
Hacker News 热门(buzzing.cc 中文翻译)
28
DataCenter.FM - 一款以"AI泡沫"之声为特色的背景噪音应用

DataCenter.FM是一款以“AI泡沫”之声为特色的背景噪音应用。该应用将数据中心服务器风扇的持续嗡鸣、硬盘读写声以及网络设备指示灯闪烁的轻微滴答声混合,生成了模拟AI热潮下数据中心繁忙运转的环境音。这款应用在Hacker News上获得了103个投票,反映了科技社区对当前AI投资与基础设施扩张热潮的一种趣味性听觉呈现。

产品更新语音
4月30日
17:10
IT之家(RSS)
44
钉钉 DingTalk A1 Pro"充电宝版录音卡"发售:内置 2980mAh 电池,1299 元

钉钉正式发售DingTalk A1 Pro“充电宝版录音卡”,定价1299元。该产品采用卡片式设计,厚度仅6.4mm,内置行业首发的MEMS指向麦克风,拾音距离可达10米。其配备2980mAh电池,支持连续录音180小时、待机180天,并可作为磁吸移动电源为手机充电。购买用户可获6个月专属权益,每月享有1500分钟语音转文字服务。

产品更新语音
10:34
IT之家(RSS)
46
三星 Galaxy Glasses 智能眼镜曝光:骁龙 AR1 芯片、1200 万像素相机、重约 50 克

三星智能眼镜 Galaxy Glasses 产品信息近日曝光。该眼镜外观类似太阳镜,重量约50克,搭载高通骁龙AR1处理器和1200万像素索尼IMX681传感器,支持Wi-Fi与蓝牙5.3,内置155mAh电池。设备一侧设有摄像头,另一侧有LED指示灯,并集成麦克风、扬声器及触控区,支持快速配对与电量查询。据悉,它未配备内置显示屏,主打音频与AI体验,预计运行Android XR系统并集成Gemini AI助手,可通过语音唤醒。

产品更新端侧语音
08:00
HuggingFace Daily Papers(社区热门论文)
62
MiniCPM-o 4.5:迈向实时全双工全模态交互

当前多模态大语言模型在交互范式上存在瓶颈,感知与响应分离且缺乏主动性。MiniCPM-o 4.5 通过 Omni-Flow 统一流式框架,将多模态输入输出对齐到共享时间轴,实现实时全双工全模态交互,支持同时感知与响应,并能基于对动态场景的连续理解主动发出提醒或评论。该模型参数量为 90 亿,在视觉语言能力上接近 Gemini 2.5 Flash,在全模态理解上超越 Qwen3-Omni-30B-A3B,且语音生成更优、计算效率显著更高。得益于高效的架构设计和推理优化,模型可在内存小于 12GB 的边缘设备上实现实时全双工全模态交互。

多模态模型发布端侧论文/研究
08:00
Apple Machine Learning Research(RSS)
44
国际声学、语音与信号处理会议 (ICASSP) 2026

苹果公司将于5月4日至8日在西班牙巴塞罗那举行的ICASSP 2026上展示其最新研究成果,并再次赞助该会议。本届会议汇聚了专注于信号处理及其应用的科学与工业研究界人士。苹果的参与凸显了其在相关前沿技术领域的持续投入。

行业动态语音
07:34
IT之家(RSS)
50
消息称苹果已搁置研发 Vision Pro 头显,重心转向 Siri 和 AI 眼镜

据报道,苹果公司已内部搁置新款Vision Pro头显的研发,原团队重心转向Siri和AI智能眼镜项目。Vision Pro自发布以来市场反应冷淡,总销量约60万台且退货比例异常偏高。尽管在2025年10月其升级至M5芯片并改进了头带,但3499美元的高价和超过1.3磅的机身重量仍影响佩戴体验,未能扭转需求。苹果已停止新款硬件开发工作,但会继续维护和更新visionOS系统。

行业动态语音
4月29日
15:38
HuggingFace Daily Papers(社区热门论文)
59
Step-Audio-R1.5 技术报告

当前大型音频语言模型普遍依赖基于验证奖励的强化学习范式来驱动听觉推理,但这陷入了“可验证奖励陷阱”——模型为追求孤立文本标签的正确性,牺牲了声学细微差别和对话自然度,导致交互机械、沉浸感差。Step-Audio-R1.5 通过转向基于人类反馈的强化学习实现了范式突破。评估表明,它在保持强大分析推理能力的同时,显著提升了交互体验,特别是在长轮对话中改善了韵律自然性与情感连续性,重新定义了深度沉浸式语音对话的边界。

推理模型发布语音
11:33
IT之家(RSS)
48
谷歌翻译 20 周年:最常见短语为"谢谢",新增发音练习功能

谷歌翻译迎来20周年,目前支持近250种语言和逾6万个语言对,覆盖全球约95%人口。官方推出发音练习功能,在安卓版应用中利用AI分析用户语音并提供即时反馈,帮助改善发音,该功能已在美国和印度上线,支持英语、西班牙语和印地语。数据显示,谷歌翻译最常用短语为“谢谢”,其他热门查询包括“你好吗?”、“我爱你”、“你好”和“请”。

Google产品更新语音
07:33
IT之家(RSS)
51
苹果 AirPods 将迎史诗级加强,iOS 27 全面重构 Siri AI 语音交互

据报道,苹果将在 iOS 27 系统中全面重构 Siri,旨在通过深度集成将其打造为用户的全天候智能伴侣,显著增强 AirPods 的交互体验。新版 Siri 将采用类似 ChatGPT 的对话式交互,利用大语言模型理解上下文与用户意图,并能深度控制系统及应用,自动执行多步骤任务,同时支持接入第三方 AI 平台。此次升级致力于提供无缝、连续的对话体验,解决当前 Siri 与第三方 AI 交互生硬、割裂的问题,让用户通过 AirPods 即可便捷唤醒和使用更智能的语音助手。

产品更新语音
4月28日
22:39
Hacker News 热门(buzzing.cc 中文翻译)
精选70
Microsoft VibeVoice:开源前沿语音人工智能

微软开源了前沿语音人工智能项目VibeVoice,该项目已在GitHub上发布。VibeVoice能够生成高度自然、富有表现力的语音,支持多种语言和情感语调,显著提升了合成语音的真实感与感染力。其开源策略旨在推动语音AI领域的协作与创新,降低开发门槛。该项目在技术社区获得关注,在Hacker News上获得了103个投票点数。

Microsoft开源/仓库语音

推荐理由:微软把前沿语音模型直接开源放 GitHub,对做语音产品的团队来说是真金白银的基建降本,不用再从零训一个了。
16:33
IT之家(RSS)
48
企业微信灰度上线"记录面聊"功能:声纹识别技术分辨发言人并快速记录,AI 自动总结要点

企业微信灰度上线“记录面聊”功能,该功能利用声纹识别技术自动分辨不同发言人并快速记录讨论内容,AI会在讨论后自动总结要点、列出待办事项并@对应负责人,记录对所有参与同事公开共享。此次更新随企业微信5.0.8版本一同发布,该版本还新增了智能表格、智能文档和“贴表情”快速回复等功能。智能表格可打通微信生态数据自动汇总,并加入AI字段“技能卡片”;智能文档支持轻量化排版并一键发布为“轻网页”。

智能体产品更新语音
08:00
HuggingFace Daily Papers(社区热门论文)
52
PSP:一个面向印度语种TTS的、按音系维度划分的可解释口音基准

研究团队提出PSP(音素替换剖面),一种用于量化评估印度语种TTS系统口音的可解释基准方法。PSP将口音分解为六个互补维度:卷舌音坍缩率、送气音保真度、元音长度保真度、泰米尔语卷舌近音保真度、Frèchet音频距离以及韵律特征散度。通过在印地语、泰卢固语和泰米尔语上测试五个TTS系统,研究发现:卷舌音错误率随音系难度递增;PSP评估结果与传统可懂度指标排序存在差异;没有单一系统在所有维度上均表现最优。团队同时开源了包括母语参考中心向量、评分代码在内的一系列资源。

论文/研究评测/基准语音
08:00
HuggingFace Daily Papers(社区热门论文)
57
Praxy Voice:零商业数据成本,通过语音提示恢复与BUPS实现商业级印度语TTS

Praxy Voice提出一种无需商业训练数据、不重新训练声学解码器,即可将非印度语系基础TTS模型提升至商业级印度语输出质量的方法。其结合三项技术:BUPS统一音素空间将七种印度文字罗马化;仅在文本标记预测器上训练LoRA适配器;以及通过同语言参考音频与特定采样配置实现语音提示恢复。在泰卢固语、泰米尔语和印地语的评估中,该系统在音韵指标上达到或略微超越商业基线。针对语码混合场景,额外引入IndicF5分支,显著降低了混合语句的错误率。项目已开源相关资源。

开源生态论文/研究语音
07:46
Simon Willison 博客
64
微软开源语音转文本模型VibeVoice简介与实测

微软于2026年1月发布开源语音转文本模型VibeVoice,采用MIT许可证并内置说话人日志功能。社区提供的4位量化MLX版本约5.71GB。实测在128GB内存的M5 Max MacBook Pro上,使用mlx-audio工具处理一段60分钟音频耗时约8分45秒,峰值内存占用达30.44GB。模型默认支持最长25分钟音频,通过调整参数可处理至多1小时音频,输出为带时间戳和说话人ID的JSON格式,便于用Datasette Lite浏览分析。

Microsoft开源/仓库教程/实践语音
4月27日
22:22
IT之家(RSS)
27
安克"AI 录音豆"智能录音硬件新增 64GB 存储空间版本,999 元

安克与飞书合作推出的“AI录音豆”智能录音硬件新增64GB存储版本,定价999元。该产品仅重10克,搭配充电舱总重约48克,采用豆状设计,内置双MEMS麦克风阵列,支持蓝牙与Wi-Fi传输。其主打无感佩戴和随时录音,可通过衣领夹或磁吸配件随身固定,单次续航8小时,配合充电盒可达32小时,适用于会议、拜访等移动场景。

产品更新端侧语音
19:22
公众号:阶跃星辰(Step)
45
阶跃与腾讯云达成战略合作,共同打造智能座舱 Agent 助手

近日,阶跃与腾讯云达成战略合作,双方将围绕智能座舱 Agent 展开深度共创,打造全新的智能座舱 Agent 助手。该助手以语音为入口,实现免唤醒、连续对话、情绪识别的超自然交互,并能基于用户情绪、驾驶状态、环境和历史信息秒懂意图,精准推荐腾讯系音乐、视频、地图等内容与应用生态。同时,产品打通腾讯在支付、地图、出行服务等领域的生态接口,从需求直达交易闭环,为用户提供一站式服务。

智能体行业动态语音
4月24日
11:38
公众号:阶跃星辰(Step)
51
阶跃 StepAudio 2.5 ASR 上线!500TPS 极速推理,30分钟语音"秒级转写"
产品更新语音
08:08
IT之家(RSS)
60
小米发布 MiMo-V2.5-TTS / ASR 语音大模型:通过自然语言调度声音表现

小米发布全链路语音大模型系列MiMo-V2.5,包含TTS(语音合成)与ASR(语音识别)两大核心。TTS系列包含三款模型:基础版内置多款音色并支持精细控制;VoiceDesign版可一句话生成新音色;VoiceClone版能通过少量样本高保真复刻音色。三者均支持通过自然语言指令和音频标签精细调度声音表现,已在小米MiMo开放平台限时免费。ASR模型已正式开源,在中英双语、方言、强噪音及多人对话等复杂场景下的识别性能达到业界领先水平。

开源生态模型发布语音
01:53
公众号:小米 MiMo
52
MiMo-V2.5-TTS-Series + ASR 正式发布
模型发布语音
4月23日
08:00
HuggingFace Daily Papers(社区热门论文)
45
语音优先国家的偏好:印度语言TTS的大规模配对评估与偏好分析

本研究提出一个结合语言控制与感知标注的多语言TTS受控多维配对评估框架。针对10种印度语言的5000余条原生及语码混合句子,对7个前沿TTS系统进行了评估,收集了超过1900名母语评分者提供的12万对以上比较数据。评分者除整体偏好外,还从可懂度、表现力、音质、生动性、噪声和幻觉六个感知维度进行判断。研究通过Bradley-Terry模型构建多语言排行榜,利用SHAP分析解读人类偏好,并分析了排行榜的可靠性及各模型在不同感知维度上的优势与权衡。

论文/研究评测/基准语音
4月22日
23:08
IT之家(RSS)
多邻国向免费用户开放高级语言学习内容:涵盖中英日韩等九种语言

多邻国向免费用户开放此前仅限付费订阅的高级语言学习内容,涵盖中英日韩等九种语言。该内容对应CEFR B2水平(Duolingo Score约129分),包含"高级故事"和播客式音频DuoRadio模块,帮助用户在真实语境中训练复杂情境表达,支持网页及移动端访问。用户可借此提升求职面试、海外留学等场景的语言能力,分数还可直接添加至LinkedIn档案。

产品更新语音
09:07
IT之家(RSS)
彭博社:苹果 Siri 主管洛克威尔考虑离职,Vision Pro 功臣陷职业迷茫

苹果Siri改造负责人迈克·洛克威尔考虑离职或转任顾问。这位Vision Pro功臣因接管AI版Siri后需向软件主管费德里吉汇报而心生落差,加之Vision Pro市场表现不佳,职业前景不明朗。尽管萌生去意,预计仍将完成Siri升级项目。与此同时,硬件高管Kate Bergeron也因晋升受阻而沮丧。苹果面临特努斯接任CEO前的核心团队稳定难题。

行业动态语音
01:11
IT之家(RSS)
特斯拉车机语音大模型服务在我国上海市完成备案

特斯拉车机语音大模型服务于4月20日在上海市完成备案,备案单位为特斯拉(上海)有限公司。至此,上海市累计已完成158款生成式人工智能服务备案。根据规定,已上线的生成式人工智能应用需在显著位置公示备案情况并添加生成合成内容标识。此前,特斯拉xBot客户服务已于去年11月成为全国首批获批上线的外企大模型产品。

政策/监管语音
4月21日
21:11
IT之家(RSS)
大众汽车今年下半年将为中国市场车型引入 AI 语音助手功能,整合腾讯阿里百度等企业技术

大众汽车将于今年下半年为中国市场车型引入AI语音助手,整合腾讯、阿里巴巴、百度等技术,采用本地化大语言模型并在车机端完成运算,无需依赖云端。与此同时,大众与小鹏汽车联合开发的首款车型"与众08"已正式上市,售价22.99万-28.99万元,搭载800伏高压超快充平台、高通8295P芯片,具备1500TOPs智驾算力,CLTC续航最高超700公里。

端侧行业动态语音
20:11
IT之家(RSS)
苹果更换 CEO 原因首次曝光,希望特努斯带回乔布斯时代的决断力

苹果公司宣布,蒂姆·库克将于2026年9月1日起转任董事会执行董事长,硬件工程高级副总裁约翰·特努斯接任首席执行官。据彭博社透露,此次换帅意在借助特努斯的年龄优势,重拾乔布斯时代的决断力,推动苹果重返产品创新前沿。特努斯将集中核心决策权,并主导首款可折叠iPhone发布及Siri革新。本月他已对硬件工程部门进行AI导向的改革,以加速产品开发与质量提升。

行业动态语音
17:11
IT之家(RSS)
微信鸿蒙版 App 获 8.0.17.16 邀测升级,听一听灰度 AI 写歌 / 翻唱功能

微信鸿蒙版App推送8.0.17.16邀测更新,测试期为2026年4月20日至5月19日。新版本支持视频号注册及资料修改,视频播放新增自动旋转功能,"听一听"模块可分享歌曲至状态并跳转QQ音乐,同时灰度测试AI写歌与AI翻唱功能。自去年1月登陆鸿蒙应用市场以来,该应用安装量已突破5000万次。

产品更新多模态语音
‹ 上一页
1…678910
下一页 ›