AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
4月28日周二
22:39Hacker News 热门(buzzing.cc 中文翻译)70精选Microsoft VibeVoice:开源前沿语音人工智能
22:08TestingCatalog News 🗞53ElevenLabs发布Agent Templates,加速AI智能体在多个场景的启动
16:33IT之家(RSS)48企业微信灰度上线"记录面聊"功能:声纹识别技术分辨发言人并快速记录,AI 自动总结要点
10:38阿绎 AYi69OpenAI开源语音控制组件,开启自然语音交互新范式
08:00HuggingFace Daily Papers(社区热门论文)52PSP:一个面向印度语种TTS的、按音系维度划分的可解释口音基准
08:00HuggingFace Daily Papers(社区热门论文)57Praxy Voice:零商业数据成本,通过语音提示恢复与BUPS实现商业级印度语TTS
07:46Simon Willison 博客64微软开源语音转文本模型VibeVoice简介与实测
05:05OpenAI Developers55GPT实时1.5支持语音交互应用开发
4月27日周一
22:22IT之家(RSS)27安克"AI 录音豆"智能录音硬件新增 64GB 存储空间版本,999 元
19:22公众号:阶跃星辰(Step)45阶跃与腾讯云达成战略合作,共同打造智能座舱 Agent 助手
4月26日周日
06:21Berryxia.AI39ChatGPT 桌面版现在也支持语音输入,还没有测试中文支持的效果如何。
05:51TestingCatalog News 🗞49Gemini iOS新增语音听写功能
4月25日周六
20:27凡人小北64OpenAI推出全局语音输入功能,冲击第三方工具市场
16:05阿绎 AYi61OpenAI推出桌面语音输入功能,冲击第三方工具市场
4月24日周五
11:38公众号:阶跃星辰(Step)51阶跃 StepAudio 2.5 ASR 上线!500TPS 极速推理,30分钟语音"秒级转写"
08:08IT之家(RSS)60小米发布 MiMo-V2.5-TTS / ASR 语音大模型:通过自然语言调度声音表现
01:53公众号:小米 MiMo52MiMo-V2.5-TTS-Series + ASR 正式发布
4月23日周四
08:00HuggingFace Daily Papers(社区热门论文)45语音优先国家的偏好:印度语言TTS的大规模配对评估与偏好分析
4月22日周三
23:08IT之家(RSS)多邻国向免费用户开放高级语言学习内容:涵盖中英日韩等九种语言
22:17TestingCatalog News 🗞AI/ML API 正在针对完整的 MiniMax 模型家族开展限时促销,涵盖 M2.7、Music 2.6、TTS 和 Video。 所有模型现已在 Playground 和 API 中开放测试。 Music 免费 7 天。TTS 和 Video 30% 折扣。LLMs 10% 折扣。
09:07IT之家(RSS)彭博社:苹果 Siri 主管洛克威尔考虑离职,Vision Pro 功臣陷职业迷茫
01:11IT之家(RSS)特斯拉车机语音大模型服务在我国上海市完成备案
4月21日周二
21:11IT之家(RSS)大众汽车今年下半年将为中国市场车型引入 AI 语音助手功能,整合腾讯阿里百度等企业技术
20:11IT之家(RSS)苹果更换 CEO 原因首次曝光,希望特努斯带回乔布斯时代的决断力
17:11IT之家(RSS)微信鸿蒙版 App 获 8.0.17.16 邀测升级,听一听灰度 AI 写歌 / 翻唱功能
15:11IT之家(RSS)华为 FreeClip 2 / FreeBuds Pro 5 耳机开推鸿蒙 6.1:优化全场景体验、Pro 新增 AI 键功能
13:11IT之家(RSS)影石 Insta360 预告无线麦克风 Mic Pro:配 E-Ink 屏、搭载 AI 降噪
09:10IT之家(RSS)音乐流媒体平台 Deezer 日收近 7.5 万首 AI 歌曲,占投稿量 44%
08:00HuggingFace Daily Papers(社区热门论文)Tadabur:大规模古兰经音频数据集
01:38Hacker News 热门(buzzing.cc 中文翻译)Deezer表示,其平台每天上传的歌曲中,有44%是由人工智能生成的
4月20日周一
23:10IT之家(RSS)消息称苹果 iOS 27 抛弃 iPhone 11 / Pro / Max 及 SE 2 等手机
21:59IT之家(RSS)WIKO 情感陪伴 AI 电子宠物"智能憨憨"蜂窝版上市:华为小艺大模型加持,预售价 499 元
17:02IT之家(RSS)"何刚同款"华为 AI 眼镜发布,2499/2899 元
14:01公众号:通义实验室(千问)38敢不敢用家乡话测试这个 AI?
4月19日周日
08:00HuggingFace Daily Papers(社区热门论文)MoVE:基于发声专家混合架构在语音到语音翻译中还原哭笑等非语言情感
4月18日周六
11:32DogeDesignerGrok 新的语音转文字和文字转语音 API 极其出色,且是业内最便宜的。🔥
11:02DogeDesignerGrok 的文本转语音真的很棒。听起来非常像真人。 你可以在这里免费试用: http://console.x.ai/playground/voice/text-to-speech
10:32DogeDesignerGrok Text-to-Speech 刚刚改变了游戏规则。 每100万字符4.20美元,而其他家收费高达50美元。它现在是最便宜的 Text-to-Speech API,遥遥领先。 Grok: $4.20 OpenAI: $30 InWorld AI: $40 Cartesia: $46.70 ElevenLabs: $50
4月17日周五
08:00HuggingFace Daily Papers(社区热门论文)良性微调打破音频大语言模型的安全对齐
08:00HuggingFace Daily Papers(社区热门论文)MTR-DuplexBench:面向全双工语音语言模型多轮对话的综合评估基准
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月28日
22:39
Hacker News 热门(buzzing.cc 中文翻译)
精选70
Microsoft VibeVoice:开源前沿语音人工智能

微软开源了前沿语音人工智能项目VibeVoice,该项目已在GitHub上发布。VibeVoice能够生成高度自然、富有表现力的语音,支持多种语言和情感语调,显著提升了合成语音的真实感与感染力。其开源策略旨在推动语音AI领域的协作与创新,降低开发门槛。该项目在技术社区获得关注,在Hacker News上获得了103个投票点数。

Microsoft开源/仓库语音

推荐理由:微软把前沿语音模型直接开源放 GitHub,对做语音产品的团队来说是真金白银的基建降本,不用再从零训一个了。
22:08
TestingCatalog News 🗞@testingcatalog
53
ElevenLabs近日推出Agent Templates,旨在加速AI智能体在客户支持、教育和行政等用例的启动过程。这些模板是预配置的ElevenAgents,为用户提供了构建对话式智能体的快速起点。用户无需从零开始繁琐配置,只需选择与自身业务场景匹配的模板,自定义相关细节,即可快速部署。据官方介绍,这些模板可在企业的支持、销售和运营等多个环节广泛部署,每增加一个用例,其价值便得到叠加和增强。目前平台提供超过50个模板,内含预定义的提示词、工作流程和集成方案,极大地简化了实施流程。

ElevenLabs: Introducing Agent Templates - pre-configured ElevenAgents you can deploy across your business. The best teams run agents...

智能体产品更新语音
16:33
IT之家(RSS)
48
企业微信灰度上线"记录面聊"功能:声纹识别技术分辨发言人并快速记录,AI 自动总结要点

企业微信灰度上线“记录面聊”功能,该功能利用声纹识别技术自动分辨不同发言人并快速记录讨论内容,AI会在讨论后自动总结要点、列出待办事项并@对应负责人,记录对所有参与同事公开共享。此次更新随企业微信5.0.8版本一同发布,该版本还新增了智能表格、智能文档和“贴表情”快速回复等功能。智能表格可打通微信生态数据自动汇总,并加入AI字段“技能卡片”;智能文档支持轻量化排版并一键发布为“轻网页”。

智能体产品更新语音
10:38
阿绎 AYi@AYi_AInotes
69
OpenAI开源语音控制组件,开启自然语音交互新范式

OpenAI开源了gpt-realtime-1.5的官方语音控制组件,允许用户直接用自然语音控制应用UI状态,而非仅进行语音转文本。该组件是一个完整的React参考实现,开发者可快速集成。其核心在于工具由应用预定义,模型只能调用这些受限动作,确保了安全可控。这标志着语音正从输入层升级为顶层控制层,为设计、驾驶等双手操作场景提供了新的交互可能,是交互范式的重要转折。

OpenAI Developers: You can build interactive applications with gpt-realtime-1.5, so users can control app state more naturally with voice. ...

MCP/工具OpenAI开源/仓库语音
08:00
HuggingFace Daily Papers(社区热门论文)
52
PSP:一个面向印度语种TTS的、按音系维度划分的可解释口音基准

研究团队提出PSP(音素替换剖面),一种用于量化评估印度语种TTS系统口音的可解释基准方法。PSP将口音分解为六个互补维度:卷舌音坍缩率、送气音保真度、元音长度保真度、泰米尔语卷舌近音保真度、Frèchet音频距离以及韵律特征散度。通过在印地语、泰卢固语和泰米尔语上测试五个TTS系统,研究发现:卷舌音错误率随音系难度递增;PSP评估结果与传统可懂度指标排序存在差异;没有单一系统在所有维度上均表现最优。团队同时开源了包括母语参考中心向量、评分代码在内的一系列资源。

论文/研究评测/基准语音
08:00
HuggingFace Daily Papers(社区热门论文)
57
Praxy Voice:零商业数据成本,通过语音提示恢复与BUPS实现商业级印度语TTS

Praxy Voice提出一种无需商业训练数据、不重新训练声学解码器,即可将非印度语系基础TTS模型提升至商业级印度语输出质量的方法。其结合三项技术:BUPS统一音素空间将七种印度文字罗马化;仅在文本标记预测器上训练LoRA适配器;以及通过同语言参考音频与特定采样配置实现语音提示恢复。在泰卢固语、泰米尔语和印地语的评估中,该系统在音韵指标上达到或略微超越商业基线。针对语码混合场景,额外引入IndicF5分支,显著降低了混合语句的错误率。项目已开源相关资源。

开源生态论文/研究语音
07:46
Simon Willison 博客
64
微软开源语音转文本模型VibeVoice简介与实测

微软于2026年1月发布开源语音转文本模型VibeVoice,采用MIT许可证并内置说话人日志功能。社区提供的4位量化MLX版本约5.71GB。实测在128GB内存的M5 Max MacBook Pro上,使用mlx-audio工具处理一段60分钟音频耗时约8分45秒,峰值内存占用达30.44GB。模型默认支持最长25分钟音频,通过调整参数可处理至多1小时音频,输出为带时间戳和说话人ID的JSON格式,便于用Datasette Lite浏览分析。

Microsoft开源/仓库教程/实践语音
05:05
OpenAI Developers@OpenAIDevs
55
你可以用gpt-realtime-1.5构建交互式应用,让用户通过语音更自然地控制应用状态。 嗨,Chappy 👋
OpenAI产品更新语音
4月27日
22:22
IT之家(RSS)
27
安克"AI 录音豆"智能录音硬件新增 64GB 存储空间版本,999 元

安克与飞书合作推出的“AI录音豆”智能录音硬件新增64GB存储版本,定价999元。该产品仅重10克,搭配充电舱总重约48克,采用豆状设计,内置双MEMS麦克风阵列,支持蓝牙与Wi-Fi传输。其主打无感佩戴和随时录音,可通过衣领夹或磁吸配件随身固定,单次续航8小时,配合充电盒可达32小时,适用于会议、拜访等移动场景。

产品更新端侧语音
19:22
公众号:阶跃星辰(Step)
45
阶跃与腾讯云达成战略合作,共同打造智能座舱 Agent 助手

近日,阶跃与腾讯云达成战略合作,双方将围绕智能座舱 Agent 展开深度共创,打造全新的智能座舱 Agent 助手。该助手以语音为入口,实现免唤醒、连续对话、情绪识别的超自然交互,并能基于用户情绪、驾驶状态、环境和历史信息秒懂意图,精准推荐腾讯系音乐、视频、地图等内容与应用生态。同时,产品打通腾讯在支付、地图、出行服务等领域的生态接口,从需求直达交易闭环,为用户提供一站式服务。

智能体行业动态语音
4月26日
06:21
Berryxia.AI@berryxia
39
ChatGPT 桌面版现在也支持语音输入,还没有测试中文支持的效果如何。
产品更新语音
05:51
TestingCatalog News 🗞@testingcatalog
49
我赶紧测试了这个功能 👀 Gemini for iOS 新增了带有波形动画和恰当控制的语音听写功能。 在 Gemini 上,如果你使用了听写来输入提示,它会自动触发朗读功能。这并非全新功能,但现在它确实很实用。 效果非常棒 🔥

Paul J Lipsky: Transcription on the Gemini iOS app is finally usable! Thank you @joshwoodward

产品更新语音
4月25日
20:27
凡人小北@frxiaobei
64
OpenAI为ChatGPT订阅用户推出系统级全局语音输入功能,用户设置热键后即可在桌面任意应用的文本框中进行语音输入并实时转为文字,无需切换应用或额外付费。该功能直接替代了Wispr Flow、Superwhisper等第三方工具的核心服务,使其市场受到冲击。评论指出,此举是OpenAI将Codex转化为"AI操作系统"的战略步骤,旨在将AI深度嵌入用户日常操作流程,未来竞争重点将从语音模型优劣转向AI与工作流的整合程度。

阿绎 AYi: 卧槽,OpenAI Codex团队刚放了个大招, 直接把所有第三方语音输入工具干懵了, 所有ChatGPT订阅用户,现在可以在桌面任何地方直接语音输入, 不用切App,不用额外花钱,设置一个热键,按住说话,松开文字直接进任何文本框,记事本,...

OpenAI产品更新语音
16:05
阿绎 AYi@AYi_AInotes
61
OpenAI推出桌面语音输入功能,冲击第三方工具市场

OpenAI为ChatGPT订阅用户推出系统级语音输入功能,用户设置热键即可在桌面任何应用(如记事本、VS Code)中直接语音输入并转为文字。此举直接冲击Wispr Flow等付费第三方工具,用户无需额外付费,体现OpenAI将AI嵌入操作系统的战略,推动AI与工作流集成。

阿绎 AYi: 这周要发的GPT-5.5可能是人类离 AGI 最近的一次尝试🚀 Greg Brockman 是 OpenAI 的联合创始人兼现任 President(总裁),也是 OpenAI 内部公认的builder-in-chief, 看完他的这段采...

OpenAI产品更新语音
4月24日
11:38
公众号:阶跃星辰(Step)
51
阶跃 StepAudio 2.5 ASR 上线!500TPS 极速推理,30分钟语音"秒级转写"
产品更新语音
08:08
IT之家(RSS)
60
小米发布 MiMo-V2.5-TTS / ASR 语音大模型:通过自然语言调度声音表现

小米发布全链路语音大模型系列MiMo-V2.5,包含TTS(语音合成)与ASR(语音识别)两大核心。TTS系列包含三款模型:基础版内置多款音色并支持精细控制;VoiceDesign版可一句话生成新音色;VoiceClone版能通过少量样本高保真复刻音色。三者均支持通过自然语言指令和音频标签精细调度声音表现,已在小米MiMo开放平台限时免费。ASR模型已正式开源,在中英双语、方言、强噪音及多人对话等复杂场景下的识别性能达到业界领先水平。

开源生态模型发布语音
01:53
公众号:小米 MiMo
52
MiMo-V2.5-TTS-Series + ASR 正式发布
模型发布语音
4月23日
08:00
HuggingFace Daily Papers(社区热门论文)
45
语音优先国家的偏好:印度语言TTS的大规模配对评估与偏好分析

本研究提出一个结合语言控制与感知标注的多语言TTS受控多维配对评估框架。针对10种印度语言的5000余条原生及语码混合句子,对7个前沿TTS系统进行了评估,收集了超过1900名母语评分者提供的12万对以上比较数据。评分者除整体偏好外,还从可懂度、表现力、音质、生动性、噪声和幻觉六个感知维度进行判断。研究通过Bradley-Terry模型构建多语言排行榜,利用SHAP分析解读人类偏好,并分析了排行榜的可靠性及各模型在不同感知维度上的优势与权衡。

论文/研究评测/基准语音
4月22日
23:08
IT之家(RSS)
多邻国向免费用户开放高级语言学习内容:涵盖中英日韩等九种语言

多邻国向免费用户开放此前仅限付费订阅的高级语言学习内容,涵盖中英日韩等九种语言。该内容对应CEFR B2水平(Duolingo Score约129分),包含"高级故事"和播客式音频DuoRadio模块,帮助用户在真实语境中训练复杂情境表达,支持网页及移动端访问。用户可借此提升求职面试、海外留学等场景的语言能力,分数还可直接添加至LinkedIn档案。

产品更新语音
22:17
TestingCatalog News 🗞@testingcatalog
AI/ML API 正在针对完整的 MiniMax 模型家族开展限时促销,涵盖 M2.7、Music 2.6、TTS 和 Video。 所有模型现已在 Playground 和 API 中开放测试。 Music 免费 7 天。TTS 和 Video 30% 折扣。LLMs 10% 折扣。

AI/ML API: Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...

产品更新视频语音
09:07
IT之家(RSS)
彭博社:苹果 Siri 主管洛克威尔考虑离职,Vision Pro 功臣陷职业迷茫

苹果Siri改造负责人迈克·洛克威尔考虑离职或转任顾问。这位Vision Pro功臣因接管AI版Siri后需向软件主管费德里吉汇报而心生落差,加之Vision Pro市场表现不佳,职业前景不明朗。尽管萌生去意,预计仍将完成Siri升级项目。与此同时,硬件高管Kate Bergeron也因晋升受阻而沮丧。苹果面临特努斯接任CEO前的核心团队稳定难题。

行业动态语音
01:11
IT之家(RSS)
特斯拉车机语音大模型服务在我国上海市完成备案

特斯拉车机语音大模型服务于4月20日在上海市完成备案,备案单位为特斯拉(上海)有限公司。至此,上海市累计已完成158款生成式人工智能服务备案。根据规定,已上线的生成式人工智能应用需在显著位置公示备案情况并添加生成合成内容标识。此前,特斯拉xBot客户服务已于去年11月成为全国首批获批上线的外企大模型产品。

政策/监管语音
4月21日
21:11
IT之家(RSS)
大众汽车今年下半年将为中国市场车型引入 AI 语音助手功能,整合腾讯阿里百度等企业技术

大众汽车将于今年下半年为中国市场车型引入AI语音助手,整合腾讯、阿里巴巴、百度等技术,采用本地化大语言模型并在车机端完成运算,无需依赖云端。与此同时,大众与小鹏汽车联合开发的首款车型"与众08"已正式上市,售价22.99万-28.99万元,搭载800伏高压超快充平台、高通8295P芯片,具备1500TOPs智驾算力,CLTC续航最高超700公里。

端侧行业动态语音
20:11
IT之家(RSS)
苹果更换 CEO 原因首次曝光,希望特努斯带回乔布斯时代的决断力

苹果公司宣布,蒂姆·库克将于2026年9月1日起转任董事会执行董事长,硬件工程高级副总裁约翰·特努斯接任首席执行官。据彭博社透露,此次换帅意在借助特努斯的年龄优势,重拾乔布斯时代的决断力,推动苹果重返产品创新前沿。特努斯将集中核心决策权,并主导首款可折叠iPhone发布及Siri革新。本月他已对硬件工程部门进行AI导向的改革,以加速产品开发与质量提升。

行业动态语音
17:11
IT之家(RSS)
微信鸿蒙版 App 获 8.0.17.16 邀测升级,听一听灰度 AI 写歌 / 翻唱功能

微信鸿蒙版App推送8.0.17.16邀测更新,测试期为2026年4月20日至5月19日。新版本支持视频号注册及资料修改,视频播放新增自动旋转功能,"听一听"模块可分享歌曲至状态并跳转QQ音乐,同时灰度测试AI写歌与AI翻唱功能。自去年1月登陆鸿蒙应用市场以来,该应用安装量已突破5000万次。

产品更新多模态语音
15:11
IT之家(RSS)
华为 FreeClip 2 / FreeBuds Pro 5 耳机开推鸿蒙 6.1:优化全场景体验、Pro 新增 AI 键功能

华为 FreeClip 2 和 FreeBuds Pro 5 耳机已开启鸿蒙 HarmonyOS 6.1 版本推送,版本号分别为 6.1.0.276 和 6.1.0.272。FreeClip 2 主要优化翻译速度、小艺连续对话效果及来电铃声体验;FreeBuds Pro 5 新增 AI 键智能体交互功能,支持按住说、松手答的操作方式,并新增耳机独立空间音频功能。升级需确保两只耳机及耳机盒电量均大于 20%。

智能体产品更新语音
13:11
IT之家(RSS)
影石 Insta360 预告无线麦克风 Mic Pro:配 E-Ink 屏、搭载 AI 降噪

影石 Insta360 在 NAB 2026 展会上预告新款无线麦克风 Mic Pro,其正面配备圆形彩色 E-Ink 电子墨水屏,支持自定义显示品牌 Logo、照片或艺术图案。该设备内置三麦克风阵列与专用 AI 处理器,实现专业级降噪录音。Mic Pro 支持直连 Insta360 相机传输音频,无需接收器,同时发射器具备机内录音功能,可作为独立录音设备使用。

产品更新语音
09:10
IT之家(RSS)
音乐流媒体平台 Deezer 日收近 7.5 万首 AI 歌曲,占投稿量 44%

音乐流媒体平台Deezer披露,其每日接收约7.5万首AI生成歌曲投稿,占日上传总量的44%,较2025年1月推出检测工具时的1万首激增。尽管投稿量攀升,AI歌曲播放量仅占总量的1%至3%,因平台持续将其排除在推荐算法外。作为目前唯一标注AI曲目的流媒体服务,Deezer已取消该类音乐收益分成并停止存储高分辨率版本,同时开始向第三方授权其AI检测技术,可识别Udio、Suno等工具生成的作品。

现象/趋势语音
08:00
HuggingFace Daily Papers(社区热门论文)
Tadabur:大规模古兰经音频数据集

研究团队发布Tadabur大规模古兰经音频数据集,收录逾1400小时朗诵音频,涵盖600余位不同朗诵者在多样化录音条件下的演绎。该数据集在朗诵风格、声音特征方面具有显著差异性,大幅扩展了现有古兰经语音数据的规模与变异性,旨在为相关研究提供全面资源并推动标准化基准建立。

数据/训练论文/研究语音
01:38
Hacker News 热门(buzzing.cc 中文翻译)
Deezer表示,其平台每天上传的歌曲中,有44%是由人工智能生成的

音乐流媒体平台Deezer最新数据显示,其平台每日上传的歌曲中高达44%由人工智能生成。这一比例揭示了AI音乐创作在流媒体分发领域的渗透率已接近半数,反映出生成式AI技术对传统音乐产业的冲击正加速显现。该统计数据来自Deezer官方披露,凸显了AI生成内容在音乐平台中的快速增长态势。

现象/趋势语音
4月20日
23:10
IT之家(RSS)
消息称苹果 iOS 27 抛弃 iPhone 11 / Pro / Max 及 SE 2 等手机

iOS 27将终止支持iPhone 11/Pro/Max及iPhone SE 2,iPhone 12仍可升级。新系统聚焦稳定性与AI功能,新增主屏幕撤销/重做快捷开关、液态玻璃效果精细调节滑块,以及集成于灵动岛、带发光效果的Siri新界面。Visual Intelligence将支持扫描食品营养标签和识别印刷品联系方式,钱包应用与Safari浏览器也将迎来改进。

产品更新端侧语音
21:59
IT之家(RSS)
WIKO 情感陪伴 AI 电子宠物"智能憨憨"蜂窝版上市:华为小艺大模型加持,预售价 499 元

WIKO情感陪伴AI电子宠物"智能憨憨"蜂窝版正式发布,支持Wi-Fi与蜂窝网络双模连接,预售价499元,将于4月25日开售。相比2025年11月上市的普通版(399元),蜂窝版最大升级在于新增移动网络支持。该产品内置华为小艺大模型,适配鸿蒙5及以上系统,支持自然对话及摸头、摇晃等动作交互。

产品更新端侧语音
17:02
IT之家(RSS)
"何刚同款"华为 AI 眼镜发布,2499/2899 元

华为AI眼镜正式发布,提供钛银灰、流光银、摩登黑三款配色及圆形、方形两种镜框,售价2499元起,将于4月25日开售。产品采用轻量化设计,镜架仅重35.5克,镜腿薄至6.25毫米,基于超30万亚洲头形数据构建平衡架构。内置自研AI芯片,支持语音唤醒、AI交互、第一人称视角拍摄及支付宝支付等功能,综合续航达12小时,支持连续8小时通话或9小时音乐播放。

产品更新端侧语音
14:01
公众号:通义实验室(千问)
38
敢不敢用家乡话测试这个 AI?
产品更新语音
4月19日
08:00
HuggingFace Daily Papers(社区热门论文)
MoVE:基于发声专家混合架构在语音到语音翻译中还原哭笑等非语言情感

现有语音到语音翻译系统常剥离笑声、哭声等非语言发声,严重限制实用性。研究团队提出MoVE架构,采用Mixture-of-LoRA-Experts设计和软加权路由器捕捉混合情感状态,仅需30分钟精选数据即可训练。在英汉翻译任务中,MoVE在76%的情况下成功重现目标非语言发声,显著优于现有系统最高14%的保留率,并获得最高的人类评分自然度与情感保真度。

arXiv论文/研究语音
4月18日
11:32
DogeDesigner@cb_doge
Grok 新的语音转文字和文字转语音 API 极其出色,且是业内最便宜的。🔥
xAI产品更新语音
11:02
DogeDesigner@cb_doge
Grok 的文本转语音真的很棒。听起来非常像真人。 你可以在这里免费试用: http://console.x.ai/playground/voice/text-to-speech
xAI产品更新语音
10:32
DogeDesigner@cb_doge
Grok Text-to-Speech 刚刚改变了游戏规则。 每100万字符4.20美元,而其他家收费高达50美元。它现在是最便宜的 Text-to-Speech API,遥遥领先。 Grok: $4.20 OpenAI: $30 InWorld AI: $40 Cartesia: $46.70 ElevenLabs: $50
xAI产品更新语音
4月17日
08:00
HuggingFace Daily Papers(社区热门论文)
良性微调打破音频大语言模型的安全对齐

首次系统研究表明,对音频大语言模型进行良性微调会严重破坏安全对齐,使越狱成功率(JSR)从个位数飙升至87.12%。通过分解嵌入空间接近性的语义与声学维度,发现脆弱性取决于模型架构如何处理音频输入。研究提出两种防御措施:基于嵌入距离的数据过滤和推理时文本系统提示,均无需修改架构即可将JSR降至接近零。机制分析揭示,微调选择性抑制了晚期拒绝电路,而冻结编码器保留了原始表示。

arXiv论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
MTR-DuplexBench:面向全双工语音语言模型多轮对话的综合评估基准

研究团队发布 MTR-DuplexBench 基准,首次系统评估全双工语音语言模型(FD-SLMs)的多轮对话能力。该基准将连续对话切分为离散回合,涵盖对话特征、对话质量、指令遵循和安全性四个维度。实验表明,当前 FD-SLMs 在多轮交互中性能波动明显,难以保持上下文一致性。相关代码和数据已开源。

arXiv论文/研究评测/基准语音
‹ 上一页
1…141516171819
下一页 ›