AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
5月5日周二
08:14ginobefun46#BestBlogs 早报 2026-05-05
07:27xAI66精选Grok语音API上线情感化声音克隆功能
07:19Artificial Analysis14Artificial Analysis亮相英伟达语音AI交流会
06:57xAI79精选语音克隆技术上线 真假难辨
05:56Hacker News 热门(buzzing.cc 中文翻译)65OpenAI 如何实现大规模低延迟语音 AI
02:59OpenAI:官网动态(RSS · 排除企业/客户案例)58精选OpenAI 如何大规模交付低延迟语音 AI
5月4日周一
08:00HuggingFace Daily Papers(社区热门论文)51全双工语音模型中的LWS:文本优先三通道范式
08:00HuggingFace Daily Papers(社区热门论文)66TTS-STT飞轮系统:合成实体密集音频弥补印度语言ASR在细分领域的性能差距
5月3日周日
08:51OpenClaw🦞56OpenClaw发布新版 增强插件与通信稳定性
5月2日周六
20:45Chubby♨️34OpenAI新语音模型或更自然流畅
20:20The Decoder:AI News(RSS)52xAI 新功能 Custom Voices 可将一分钟语音转化为可用声音克隆
15:41Elon Musk39Grok Voice语音助手现用于星链系统
15:20TestingCatalog News 🗞53xAI在美国推出语音克隆功能
13:11阿绎 AYi55xAI推出声音克隆:从工具到数字身份的转变
10:11IT之家(RSS)52苹果 macOS 27 系统新功能前瞻:Siri 升级独立应用、新增触控界面,抛弃 Intel Mac
07:49xAI67精选xAI语音克隆API正式上线
03:48TestingCatalog News 🗞40OpenAI为ChatGPT开发自定义词典功能
02:00OpenRouter:Announcements(RSS)44OpenRouter 上线语音合成与转录 API
02:00OpenRouter:Announcements(RSS)52OpenRouter 推出新音频API:语音合成与转录
02:00OpenRouter:Announcements(RSS)63精选面向语音与转录的全新 Audio API
5月1日周五
23:48Suno26探索多元音乐风格,AI助力个性演唱
20:11IT之家(RSS)42安克首款神经网络存算一体 AI 音频芯片"ANKER Thus"5 月 22 日发布,同期推出旗舰耳机产品
16:40Rohan Paul54LinkedIn联合创始人倡导AI全面分析会议记录
11:20xAI:News(网页)60精选自定义语音与语音库
08:00HuggingFace Daily Papers(社区热门论文)56LASE:用于印度语系跨文字身份保护的语言对抗性说话人编码
07:14Artificial Analysis54Suno发布V5.5音乐生成模型,登顶双榜并推出个性化新功能
01:14Hacker News 热门(buzzing.cc 中文翻译)28DataCenter.FM - 一款以"AI泡沫"之声为特色的背景噪音应用
4月30日周四
17:10IT之家(RSS)44钉钉 DingTalk A1 Pro"充电宝版录音卡"发售:内置 2980mAh 电池,1299 元
10:34IT之家(RSS)46三星 Galaxy Glasses 智能眼镜曝光:骁龙 AR1 芯片、1200 万像素相机、重约 50 克
08:00HuggingFace Daily Papers(社区热门论文)62MiniCPM-o 4.5:迈向实时全双工全模态交互
08:00Apple Machine Learning Research(RSS)44国际声学、语音与信号处理会议 (ICASSP) 2026
07:34IT之家(RSS)50消息称苹果已搁置研发 Vision Pro 头显,重心转向 Siri 和 AI 眼镜
02:21Suno36多声线演绎多元曲风,无需录音棚
4月29日周三
15:38HuggingFace Daily Papers(社区热门论文)59Step-Audio-R1.5 技术报告
12:38ginobefun57玩转 Gemini 3.1 TTS:音频标签与提示词技巧指南
11:41小互57TRAE内置语音功能上线,支持语音命令与技能识别
11:33IT之家(RSS)48谷歌翻译 20 周年:最常见短语为"谢谢",新增发音练习功能
10:30OpenRouter38音频输入新榜:Gemini包揽前七
08:10宝玉62微软开源VibeVoice-ASR语音识别模型,支持长音频与说话人分离
07:33IT之家(RSS)51苹果 AirPods 将迎史诗级加强,iOS 27 全面重构 Siri AI 语音交互
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月5日
08:14
ginobefun@hongming731
46
#BestBlogs 早报 2026-05-05

本期早报聚焦AI对软件开发的变革。Anthropic Claude Code创始人宣称“编程已被解决”,软件创作将交由AI Agent。OpenAI罕见公开其支撑9亿周活语音服务的WebRTC Relay重构技术细节。同时有观点指出,企业应用AI失败的核心原因在于自身无法清晰定义需求。此外,内容还涵盖了Supabase Skills、规范驱动开发等工程实践与一篇AI主题科幻短篇。

智能体AnthropicOpenAI行业动态
07:27
xAI@xai
精选66
两种声音。一种来自人类。一种来自AI。你能猜出哪个是AI克隆的吗?👇 具备丰富自然情感的语音克隆功能,现已在Grok Voice API上线。 http://x.ai/news/grok-custom-voices
xAI产品更新语音

推荐理由:Grok 的语音克隆带着自然情绪上线 API,不只是复读机,而是带感情的合成。想给应用加个有人味的 AI 语音,开发者可以试试这套新接口。
07:19
Artificial Analysis@ArtificialAnlys
14
Artificial Analysis 将于本周四在旧金山参加 @nvidia 的 Speech AI 交流会 其他优秀的 Speech AI 社区成员也将加入我们,包括 @pipecat_ai、@ServiceNow 和 @GradiumAI。来打个招呼吧! https://luma.com/SpeechAImeetup?tk=gndhHQ
行业动态语音
06:57
xAI@xai
精选79
两种声音。一种来自人类。一种来自AI。你能猜出哪个是AI克隆的吗?👇 具备丰富自然情感的声音克隆功能,现已在Grok Voice API上线。 http://x.ai/news/grok-custom-voices
xAI产品更新语音

推荐理由:Grok Voice API 终于支持声音克隆,关键是能带自然情感,做语音产品的开发者可以直接接入了,这是 xAI 在语音交互上的一次重要补齐。
05:56
Hacker News 热门(buzzing.cc 中文翻译)
65
OpenAI 如何实现大规模低延迟语音 AI

OpenAI通过优化推理堆栈,将其语音AI模型Whisper的实时转录延迟从2.8秒大幅降低至232毫秒。核心改进包括引入流式编码器、改进的解码策略与缓存机制,并采用分块处理技术。这些优化使系统能在用户说话结束后的极短时间内完成转录,为大规模部署低延迟语音交互应用提供了关键技术支撑。

OpenAI教程/实践语音
02:59
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
OpenAI 如何大规模交付低延迟语音 AI

OpenAI 重建了其 WebRTC 技术栈,以支持实时语音 AI 服务。新系统实现了低延迟、全球规模扩展和无缝的对话轮转。此次重构旨在为 ChatGPT 的语音模式等产品提供更流畅、更自然的实时语音交互体验,解决了大规模部署时面临的延迟与稳定性挑战。

OpenAI教程/实践语音

推荐理由:OpenAI 把语音 AI 的低延迟秘诀摊开了,做实时语音产品的可以看看他们的 WebRTC 优化思路,虽然不太能直接抄,但方向值得参考。
5月4日
08:00
HuggingFace Daily Papers(社区热门论文)
51
全双工语音模型中的LWS:文本优先三通道范式

现有语音大模型仅支持口语回复,限制代码生成等文本能力。研究人员提出Listen-Write-Speak (LWS)范式,单个自回归LLM在共享因果注意力上下文中持续聆听用户音频,以可见自由文本作为主要输出,并并行生成实时语音。该行为通过Token Schema实现,无需修改架构,由两阶段数据流水线学习。LWS在Full-Duplex-Bench展现强全双工交互,VoiceBench AlpacaEval得4.72,写作-语音一致性92.6%,在URO-Bench上持续优于消融模型。代码与数据集已开源。

论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
66
TTS-STT飞轮系统:合成实体密集音频弥补印度语言ASR在细分领域的性能差距

针对数字、地址、品牌名等细分领域的印度语言自动语音识别,现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统,以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后,在泰卢固语测试集上的实体命中率提升至0.473,较最佳开源模型提升17倍,较商业系统提升3倍,同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效,并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。

arXivGitHub数据/训练论文/研究
5月3日
08:51
OpenClaw🦞@openclaw
56
OpenClaw 2026.5.2 🦞 🧠 xAI Grok 4.3 🔌 插件安装/更新更稳定 ⚡ 网关 + 智能体关键路径更精简 💬 Discord、Slack、Telegram、WhatsApp 问题修复 🎙️ 文本转语音、实时功能、网页搜索、语音通话优化 减少戏剧性,增加运行时间。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.2
智能体xAI产品更新语音
5月2日
20:45
Chubby♨️@kimmonismus
34
OpenAI 确认推出新的语音模型?据传它在与用户对话时(延迟、打断)将显著更加自然。

Atty Eleti: a cambrian explosion of creation is upon us

OpenAI行业动态语音
20:20
The Decoder:AI News(RSS)
52
xAI 新功能 Custom Voices 可将一分钟语音转化为可用声音克隆

xAI 为开发者推出“Custom Voices”功能,允许克隆用户声音用于AI应用。该功能基于近期发布的 Grok 语音转文本和文本转语音 API 构建,仅需一分钟的语音样本即可生成可用的声音克隆。此举扩展了 Grok 语音模型的应用场景,为开发者提供了定制化语音合成的新工具。

xAI产品更新语音
15:41
Elon Musk@elonmusk
39
Grok Voice 目前正被 Starlink 使用 【引用 @XFreeze】:Grok Voice 在 τ-voice 基准测试中占据绝对优势 Grok 得分为 67.3%,而 Gemini 为 43.8%,GPT Realtime 为 35.3% 这遥遥领先于竞争对手,优势巨大 目前最优秀的实时推理语音助手

X Freeze: Grok Voice brutally dominates the top of the τ-voice Bench Grok scores 67.3%, while Gemini sits at 43.8% and GPT Realtim...

xAI评测/基准语音
15:20
TestingCatalog News 🗞@testingcatalog
53
XAI 🚨:语音克隆功能现已在美国的xAI控制台上线。 > 在不到2分钟内创建自定义语音,或从我们的库中选择超过28种语言的80多种语音,为您的语音助手、有声读物、视频游戏角色等进行个性化设置。 这也意味着我们很快就能在Grok上看到自定义语音了。希望它们不会仅限于美国地区。
xAI产品更新语音
13:11
阿绎 AYi@AYi_AInotes
55
xAI推出声音克隆:从工具到数字身份的转变

xAI通过Grok API上线声音克隆功能,用户录制一分钟即可快速获得个人声音模型,并免费用于语音代理。与ElevenLabs提供“生成好听声音”的定位不同,xAI聚焦于“生成你的声音”,将声音视为数字身份证,强调其身份属性。安全上要求本人实时录制并验证短语,以防滥用。未来,结合Grok的推理能力,可能诞生能像用户一样思考和说话的AI代理。零门槛技术将推动有声书、游戏配音等应用,但也加剧了深假与诈骗风险,标志着声音正从工具转向身份核心。

xAI: Voice Cloning is now live via the xAI API! Create a custom voice in less than 2 minutes or select from our library of 80...

xAI大佬观点语音
10:11
IT之家(RSS)
52
苹果 macOS 27 系统新功能前瞻:Siri 升级独立应用、新增触控界面,抛弃 Intel Mac

据报道,苹果将在WWDC 26发布macOS 27系统,首个开发者测试版于演讲后立即提供。主要新功能包括:Siri将升级为独立应用,支持查看会话历史,操作逻辑类似ChatGPT,个性化功能也将扩展至Mac;系统将为预计2027年初发布的触屏版MacBook Pro开发专属触控界面,优化手指交互体验;此外,该系统将专注于稳定性与性能改进。macOS 27将仅支持M1或更高芯片的Mac,彻底抛弃Intel平台,同时不再兼容使用AFP协议的旧存储设备如AirPort Time Capsule。

产品更新语音
07:49
xAI@xai
精选67
语音克隆功能现已通过 xAI API 上线! 不到2分钟即可创建自定义语音,或从我们涵盖28种语言的80多种语音库中选择,为您的语音助手、有声读物、视频游戏角色等注入个性化色彩。 http://x.ai/news/grok-custom-voices
xAI产品更新语音

推荐理由:xAI 正式下场语音克隆,2 分钟克隆加 80 多种声音库,API 直接可调,做语音 agent 和有声书的团队得多关注一下,这对 ElevenLabs 们是个不大不小的冲击。
03:48
TestingCatalog News 🗞@testingcatalog
40
OpenAI正在为Codex和ChatGPT开发自定义词典功能。 用户将能够添加自己的常用短语和缩写,以便在语音听写时正确识别。 作为重度语音听写用户,这是让我愿意付费购买独立AI语音听写应用的主要功能。 万能应用👀

Tibor Blaho: Small but useful new feature in the works in ChatGPT web app - "Custom dictionary" ("Add names or terms you want dictati...

OpenAI产品更新语音
02:00
OpenRouter:Announcements(RSS)
44
OpenRouter 上线语音合成与转录 API

OpenRouter 新增两个 API 端点,分别提供语音合成(text-to-speech)和音频转录(transcription)功能,用户可通过单一接口跨多个提供商调用。

产品更新语音
02:00
OpenRouter:Announcements(RSS)
52
OpenRouter 推出新音频API:语音合成与转录

OpenRouter 现已上线文本转语音和音频转录功能。两个新端点提供跨多家提供商的语音合成与音频转录能力,统一API接入。

产品更新语音
02:00
OpenRouter:Announcements(RSS)
精选63
面向语音与转录的全新 Audio API

OpenRouter 正式上线文本转语音和音频转录功能。平台通过两个新的 API 端点,集成了多家供应商的语音合成与音频转录服务。用户现在可以统一调用单一 API,便捷访问多提供商的高质量语音生成与语音转文本能力,无需再为不同服务商单独集成。这简化了开发流程,为应用添加语音交互与内容转录功能提供了更高效的一站式解决方案。

产品更新语音

推荐理由:OpenRouter把语音合成和转录也接进来了,以后做语音应用的开发者可以少对接几个API,这是把‘省事’写进DNA的典型更新。
5月1日
23:48
Suno@suno
26
@jadynviolet 使用 Voices 探索 R&B、Drum and Bass 和 Reggaeton,全部以他自己的声音呈现。 你想听到自己演绎哪些音乐类型? 通过 Voices 发现可能,无需录音室。
产品更新语音
20:11
IT之家(RSS)
42
安克首款神经网络存算一体 AI 音频芯片"ANKER Thus"5 月 22 日发布,同期推出旗舰耳机产品

安克将于5月22日发布其首款神经网络存算一体AI音频芯片“ANKER Thus”。该芯片采用CPU与存储合一的架构,旨在提升算力,以实现端侧实时音频AI功能。同期,安克将推出搭载此芯片的旗舰耳机产品。根据海报信息,该耳机为入耳式设计,充电盒外观圆润,且正面可能配备一块屏幕,具体规格尚未公布。

产品更新端侧语音
16:40
Rohan Paul@rohanpaul_ai
54
LinkedIn联合创始人倡导AI全面分析会议记录

LinkedIn联合创始人Reid Hoffman提出,每个组织都应记录所有会议,并利用AI对录音进行分析,其用途远超文字转录。AI能够自动识别会议中提及的关键待办事项,例如提醒与会者通知特定同事、获取上级批准或协调其他团队的工作。他强调,此类自动跟进与协调的技术已经成熟,可供企业立即部署使用。

大佬观点语音
11:20
xAI:News(网页)
精选60
自定义语音与语音库

xAI于2026年4月30日推出自定义语音和语音库功能。用户可通过约1分钟录音快速克隆声音,并在Grok文本转语音及语音代理API中即时使用,整个过程仅需2分钟。语音库提供集中管理平台,内置语音已超80种,支持28种语言。为确保安全,系统采用两阶段验证,包括实时转录匹配和说话人嵌入确认,以防止未经授权的克隆。这些功能适用于品牌代理、内容创作、无障碍辅助、多语言团队及游戏娱乐等多种场景,且使用自定义语音无需额外费用。

xAI产品更新语音

推荐理由:xAI 这波‘声音克隆+管理’的更新很实用,安全验证做得细,创作品类和品牌方应该会喜欢,对开发者来说是个加分项,但不是那种能改变格局的大招。
08:00
HuggingFace Daily Papers(社区热门论文)
56
LASE:用于印度语系跨文字身份保护的语言对抗性说话人编码

研究提出LASE(语言对抗性说话人编码器),以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头,结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练,使编码消除语言信息的同时保留说话人特征。实验表明,在1118个跨文字语音对上,LASE将身份漂移降至接近零,并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中,LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。

Hugging Face开源生态论文/研究语音
07:14
Artificial Analysis@ArtificialAnlys
54
Suno发布V5.5音乐生成模型,登顶双榜并推出个性化新功能

Suno公司最新发布的音乐生成模型V5.5,在Artificial Analysis的器乐和人声排行榜上均位列第一,性能较前代V5模型有显著提升。本次更新重点聚焦个性化与身份特征,推出了三项新功能:用户可通过上传人声样本生成定制演唱音色;可个性化定制最多三个反映自身风格的模型版本;系统还能学习用户偏好的音乐流派、情绪和风格,以提供个性化推荐。该模型已通过Suno平台向Pro和Premier订阅用户开放,年费订阅起价为每月8美元(约含500首歌曲生成额度),且包含商业使用权。

模型发布语音
01:14
Hacker News 热门(buzzing.cc 中文翻译)
28
DataCenter.FM - 一款以"AI泡沫"之声为特色的背景噪音应用

DataCenter.FM是一款以“AI泡沫”之声为特色的背景噪音应用。该应用将数据中心服务器风扇的持续嗡鸣、硬盘读写声以及网络设备指示灯闪烁的轻微滴答声混合,生成了模拟AI热潮下数据中心繁忙运转的环境音。这款应用在Hacker News上获得了103个投票,反映了科技社区对当前AI投资与基础设施扩张热潮的一种趣味性听觉呈现。

产品更新语音
4月30日
17:10
IT之家(RSS)
44
钉钉 DingTalk A1 Pro"充电宝版录音卡"发售:内置 2980mAh 电池,1299 元

钉钉正式发售DingTalk A1 Pro“充电宝版录音卡”,定价1299元。该产品采用卡片式设计,厚度仅6.4mm,内置行业首发的MEMS指向麦克风,拾音距离可达10米。其配备2980mAh电池,支持连续录音180小时、待机180天,并可作为磁吸移动电源为手机充电。购买用户可获6个月专属权益,每月享有1500分钟语音转文字服务。

产品更新语音
10:34
IT之家(RSS)
46
三星 Galaxy Glasses 智能眼镜曝光:骁龙 AR1 芯片、1200 万像素相机、重约 50 克

三星智能眼镜 Galaxy Glasses 产品信息近日曝光。该眼镜外观类似太阳镜,重量约50克,搭载高通骁龙AR1处理器和1200万像素索尼IMX681传感器,支持Wi-Fi与蓝牙5.3,内置155mAh电池。设备一侧设有摄像头,另一侧有LED指示灯,并集成麦克风、扬声器及触控区,支持快速配对与电量查询。据悉,它未配备内置显示屏,主打音频与AI体验,预计运行Android XR系统并集成Gemini AI助手,可通过语音唤醒。

产品更新端侧语音
08:00
HuggingFace Daily Papers(社区热门论文)
62
MiniCPM-o 4.5:迈向实时全双工全模态交互

当前多模态大语言模型在交互范式上存在瓶颈,感知与响应分离且缺乏主动性。MiniCPM-o 4.5 通过 Omni-Flow 统一流式框架,将多模态输入输出对齐到共享时间轴,实现实时全双工全模态交互,支持同时感知与响应,并能基于对动态场景的连续理解主动发出提醒或评论。该模型参数量为 90 亿,在视觉语言能力上接近 Gemini 2.5 Flash,在全模态理解上超越 Qwen3-Omni-30B-A3B,且语音生成更优、计算效率显著更高。得益于高效的架构设计和推理优化,模型可在内存小于 12GB 的边缘设备上实现实时全双工全模态交互。

多模态模型发布端侧论文/研究
08:00
Apple Machine Learning Research(RSS)
44
国际声学、语音与信号处理会议 (ICASSP) 2026

苹果公司将于5月4日至8日在西班牙巴塞罗那举行的ICASSP 2026上展示其最新研究成果,并再次赞助该会议。本届会议汇聚了专注于信号处理及其应用的科学与工业研究界人士。苹果的参与凸显了其在相关前沿技术领域的持续投入。

行业动态语音
07:34
IT之家(RSS)
50
消息称苹果已搁置研发 Vision Pro 头显,重心转向 Siri 和 AI 眼镜

据报道,苹果公司已内部搁置新款Vision Pro头显的研发,原团队重心转向Siri和AI智能眼镜项目。Vision Pro自发布以来市场反应冷淡,总销量约60万台且退货比例异常偏高。尽管在2025年10月其升级至M5芯片并改进了头带,但3499美元的高价和超过1.3磅的机身重量仍影响佩戴体验,未能扭转需求。苹果已停止新款硬件开发工作,但会继续维护和更新visionOS系统。

行业动态语音
02:21
Suno@suno
36
@sofiadangelo27 使用 Voices 探索沙漠摇滚、嘻哈和舞曲,全部用她自己的声音演绎。 你想听到自己演绎哪些音乐类型? 用 Voices 发现可能,无需录音室。
产品更新语音
4月29日
15:38
HuggingFace Daily Papers(社区热门论文)
59
Step-Audio-R1.5 技术报告

当前大型音频语言模型普遍依赖基于验证奖励的强化学习范式来驱动听觉推理,但这陷入了“可验证奖励陷阱”——模型为追求孤立文本标签的正确性,牺牲了声学细微差别和对话自然度,导致交互机械、沉浸感差。Step-Audio-R1.5 通过转向基于人类反馈的强化学习实现了范式突破。评估表明,它在保持强大分析推理能力的同时,显著提升了交互体验,特别是在长轮对话中改善了韵律自然性与情感连续性,重新定义了深度沉浸式语音对话的边界。

推理模型发布语音
12:38
ginobefun@hongming731
57
Google AI推出的Gemini 3.1 TTS模型新增音频标签功能,开发者可通过方括号内的标签直观控制语音风格、语速和表达。关键使用技巧包括:标签需用方括号包裹并置于期望转换点,避免直接相邻;使用【slow】、【fast】控制语速,【short pause】制造戏剧停顿;还能通过【cackles】、【whispers】等标签精细操控发声。这些提示词技巧适用于构建语言学习工具、互动播客应用或自适应客服等多种场景,赋能开发者高效利用模型进行音频创作。

Google AI: Last week, we launched Gemini 3.1 TTS, our latest and best text-to-speech model. This new model introduces [awe] audio t...

Google教程/实践语音
11:41
小互@xiaohu
57
TRAE内置语音功能上线,支持语音命令与技能识别

TRAE推出内置语音功能,支持直接语音输入,并能将包含大量语气词的即兴口语转录为结构化文字。其核心亮点在于能够识别语音命令和技能,用户可通过语音直接操作输入框等功能。此外,TRAE还与Insta360合作推出了联名Mic Air无线麦克风。这一功能体现了“用嘴写代码、用嘴办公”的交互趋势,初步用户体验反馈积极。

产品更新编码语音
11:33
IT之家(RSS)
48
谷歌翻译 20 周年:最常见短语为"谢谢",新增发音练习功能

谷歌翻译迎来20周年,目前支持近250种语言和逾6万个语言对,覆盖全球约95%人口。官方推出发音练习功能,在安卓版应用中利用AI分析用户语音并提供即时反馈,帮助改善发音,该功能已在美国和印度上线,支持英语、西班牙语和印地语。数据显示,谷歌翻译最常用短语为“谢谢”,其他热门查询包括“你好吗?”、“我爱你”、“你好”和“请”。

Google产品更新语音
10:30
OpenRouter@OpenRouter
38
新的公开排名:音频输入功能! @GoogleDeepMind 的 Gemini 模型本周包揽前 7 名(!!),其中 Gemini 3 和 2.5 Flash 模型处理了 >50% 的提示词。
DeepMind产品更新评测/基准语音
08:10
宝玉@dotey
62
微软开源VibeVoice-ASR语音识别模型,支持长音频与说话人分离

微软开源的VibeVoice-ASR是一个9B参数语音转文字模型,采用MIT协议。其核心优势在于单次可处理长达60分钟的连续音频,并直接输出带说话人、时间戳的结构化文本,原生支持50多种语言及中英混说。实测在128GB内存的MacBook Pro上,其4-bit量化版转录一小时音频约需9分钟,但预填充阶段内存峰值达61.5GB,要求设备内存至少64GB。模型存在单次60分钟时长限制,且对录音环境变化敏感,但为播客、会议等长音频转录提供了简化流程。

Simon Willison: Microsoft's MIT licensed VibeVoice speech-to-text model (think Whisper with speaker diarization) is really good - my not...

Microsoft开源生态教程/实践语音
07:33
IT之家(RSS)
51
苹果 AirPods 将迎史诗级加强,iOS 27 全面重构 Siri AI 语音交互

据报道,苹果将在 iOS 27 系统中全面重构 Siri,旨在通过深度集成将其打造为用户的全天候智能伴侣,显著增强 AirPods 的交互体验。新版 Siri 将采用类似 ChatGPT 的对话式交互,利用大语言模型理解上下文与用户意图,并能深度控制系统及应用,自动执行多步骤任务,同时支持接入第三方 AI 平台。此次升级致力于提供无缝、连续的对话体验,解决当前 Siri 与第三方 AI 交互生硬、割裂的问题,让用户通过 AirPods 即可便捷唤醒和使用更智能的语音助手。

产品更新语音
‹ 上一页
1…1314151617…19
下一页 ›