微软开源了前沿语音人工智能项目VibeVoice,该项目已在GitHub上发布。VibeVoice能够生成高度自然、富有表现力的语音,支持多种语言和情感语调,显著提升了合成语音的真实感与感染力。其开源策略旨在推动语音AI领域的协作与创新,降低开发门槛。该项目在技术社区获得关注,在Hacker News上获得了103个投票点数。
微软开源了前沿语音人工智能项目VibeVoice,该项目已在GitHub上发布。VibeVoice能够生成高度自然、富有表现力的语音,支持多种语言和情感语调,显著提升了合成语音的真实感与感染力。其开源策略旨在推动语音AI领域的协作与创新,降低开发门槛。该项目在技术社区获得关注,在Hacker News上获得了103个投票点数。
Introducing Agent Templates - pre-configured ElevenAgents you can deploy across your business. The best teams run agents...
企业微信灰度上线“记录面聊”功能,该功能利用声纹识别技术自动分辨不同发言人并快速记录讨论内容,AI会在讨论后自动总结要点、列出待办事项并@对应负责人,记录对所有参与同事公开共享。此次更新随企业微信5.0.8版本一同发布,该版本还新增了智能表格、智能文档和“贴表情”快速回复等功能。智能表格可打通微信生态数据自动汇总,并加入AI字段“技能卡片”;智能文档支持轻量化排版并一键发布为“轻网页”。
OpenAI开源了gpt-realtime-1.5的官方语音控制组件,允许用户直接用自然语音控制应用UI状态,而非仅进行语音转文本。该组件是一个完整的React参考实现,开发者可快速集成。其核心在于工具由应用预定义,模型只能调用这些受限动作,确保了安全可控。这标志着语音正从输入层升级为顶层控制层,为设计、驾驶等双手操作场景提供了新的交互可能,是交互范式的重要转折。
You can build interactive applications with gpt-realtime-1.5, so users can control app state more naturally with voice. ...
研究团队提出PSP(音素替换剖面),一种用于量化评估印度语种TTS系统口音的可解释基准方法。PSP将口音分解为六个互补维度:卷舌音坍缩率、送气音保真度、元音长度保真度、泰米尔语卷舌近音保真度、Frèchet音频距离以及韵律特征散度。通过在印地语、泰卢固语和泰米尔语上测试五个TTS系统,研究发现:卷舌音错误率随音系难度递增;PSP评估结果与传统可懂度指标排序存在差异;没有单一系统在所有维度上均表现最优。团队同时开源了包括母语参考中心向量、评分代码在内的一系列资源。
Praxy Voice提出一种无需商业训练数据、不重新训练声学解码器,即可将非印度语系基础TTS模型提升至商业级印度语输出质量的方法。其结合三项技术:BUPS统一音素空间将七种印度文字罗马化;仅在文本标记预测器上训练LoRA适配器;以及通过同语言参考音频与特定采样配置实现语音提示恢复。在泰卢固语、泰米尔语和印地语的评估中,该系统在音韵指标上达到或略微超越商业基线。针对语码混合场景,额外引入IndicF5分支,显著降低了混合语句的错误率。项目已开源相关资源。
微软于2026年1月发布开源语音转文本模型VibeVoice,采用MIT许可证并内置说话人日志功能。社区提供的4位量化MLX版本约5.71GB。实测在128GB内存的M5 Max MacBook Pro上,使用mlx-audio工具处理一段60分钟音频耗时约8分45秒,峰值内存占用达30.44GB。模型默认支持最长25分钟音频,通过调整参数可处理至多1小时音频,输出为带时间戳和说话人ID的JSON格式,便于用Datasette Lite浏览分析。
安克与飞书合作推出的“AI录音豆”智能录音硬件新增64GB存储版本,定价999元。该产品仅重10克,搭配充电舱总重约48克,采用豆状设计,内置双MEMS麦克风阵列,支持蓝牙与Wi-Fi传输。其主打无感佩戴和随时录音,可通过衣领夹或磁吸配件随身固定,单次续航8小时,配合充电盒可达32小时,适用于会议、拜访等移动场景。
近日,阶跃与腾讯云达成战略合作,双方将围绕智能座舱 Agent 展开深度共创,打造全新的智能座舱 Agent 助手。该助手以语音为入口,实现免唤醒、连续对话、情绪识别的超自然交互,并能基于用户情绪、驾驶状态、环境和历史信息秒懂意图,精准推荐腾讯系音乐、视频、地图等内容与应用生态。同时,产品打通腾讯在支付、地图、出行服务等领域的生态接口,从需求直达交易闭环,为用户提供一站式服务。
Transcription on the Gemini iOS app is finally usable! Thank you @joshwoodward
卧槽,OpenAI Codex团队刚放了个大招, 直接把所有第三方语音输入工具干懵了, 所有ChatGPT订阅用户,现在可以在桌面任何地方直接语音输入, 不用切App,不用额外花钱,设置一个热键,按住说话,松开文字直接进任何文本框,记事本,...
OpenAI为ChatGPT订阅用户推出系统级语音输入功能,用户设置热键即可在桌面任何应用(如记事本、VS Code)中直接语音输入并转为文字。此举直接冲击Wispr Flow等付费第三方工具,用户无需额外付费,体现OpenAI将AI嵌入操作系统的战略,推动AI与工作流集成。
这周要发的GPT-5.5可能是人类离 AGI 最近的一次尝试🚀 Greg Brockman 是 OpenAI 的联合创始人兼现任 President(总裁),也是 OpenAI 内部公认的builder-in-chief, 看完他的这段采...
小米发布全链路语音大模型系列MiMo-V2.5,包含TTS(语音合成)与ASR(语音识别)两大核心。TTS系列包含三款模型:基础版内置多款音色并支持精细控制;VoiceDesign版可一句话生成新音色;VoiceClone版能通过少量样本高保真复刻音色。三者均支持通过自然语言指令和音频标签精细调度声音表现,已在小米MiMo开放平台限时免费。ASR模型已正式开源,在中英双语、方言、强噪音及多人对话等复杂场景下的识别性能达到业界领先水平。
本研究提出一个结合语言控制与感知标注的多语言TTS受控多维配对评估框架。针对10种印度语言的5000余条原生及语码混合句子,对7个前沿TTS系统进行了评估,收集了超过1900名母语评分者提供的12万对以上比较数据。评分者除整体偏好外,还从可懂度、表现力、音质、生动性、噪声和幻觉六个感知维度进行判断。研究通过Bradley-Terry模型构建多语言排行榜,利用SHAP分析解读人类偏好,并分析了排行榜的可靠性及各模型在不同感知维度上的优势与权衡。
多邻国向免费用户开放此前仅限付费订阅的高级语言学习内容,涵盖中英日韩等九种语言。该内容对应CEFR B2水平(Duolingo Score约129分),包含"高级故事"和播客式音频DuoRadio模块,帮助用户在真实语境中训练复杂情境表达,支持网页及移动端访问。用户可借此提升求职面试、海外留学等场景的语言能力,分数还可直接添加至LinkedIn档案。
Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...
苹果Siri改造负责人迈克·洛克威尔考虑离职或转任顾问。这位Vision Pro功臣因接管AI版Siri后需向软件主管费德里吉汇报而心生落差,加之Vision Pro市场表现不佳,职业前景不明朗。尽管萌生去意,预计仍将完成Siri升级项目。与此同时,硬件高管Kate Bergeron也因晋升受阻而沮丧。苹果面临特努斯接任CEO前的核心团队稳定难题。
特斯拉车机语音大模型服务于4月20日在上海市完成备案,备案单位为特斯拉(上海)有限公司。至此,上海市累计已完成158款生成式人工智能服务备案。根据规定,已上线的生成式人工智能应用需在显著位置公示备案情况并添加生成合成内容标识。此前,特斯拉xBot客户服务已于去年11月成为全国首批获批上线的外企大模型产品。
大众汽车将于今年下半年为中国市场车型引入AI语音助手,整合腾讯、阿里巴巴、百度等技术,采用本地化大语言模型并在车机端完成运算,无需依赖云端。与此同时,大众与小鹏汽车联合开发的首款车型"与众08"已正式上市,售价22.99万-28.99万元,搭载800伏高压超快充平台、高通8295P芯片,具备1500TOPs智驾算力,CLTC续航最高超700公里。
苹果公司宣布,蒂姆·库克将于2026年9月1日起转任董事会执行董事长,硬件工程高级副总裁约翰·特努斯接任首席执行官。据彭博社透露,此次换帅意在借助特努斯的年龄优势,重拾乔布斯时代的决断力,推动苹果重返产品创新前沿。特努斯将集中核心决策权,并主导首款可折叠iPhone发布及Siri革新。本月他已对硬件工程部门进行AI导向的改革,以加速产品开发与质量提升。
微信鸿蒙版App推送8.0.17.16邀测更新,测试期为2026年4月20日至5月19日。新版本支持视频号注册及资料修改,视频播放新增自动旋转功能,"听一听"模块可分享歌曲至状态并跳转QQ音乐,同时灰度测试AI写歌与AI翻唱功能。自去年1月登陆鸿蒙应用市场以来,该应用安装量已突破5000万次。
华为 FreeClip 2 和 FreeBuds Pro 5 耳机已开启鸿蒙 HarmonyOS 6.1 版本推送,版本号分别为 6.1.0.276 和 6.1.0.272。FreeClip 2 主要优化翻译速度、小艺连续对话效果及来电铃声体验;FreeBuds Pro 5 新增 AI 键智能体交互功能,支持按住说、松手答的操作方式,并新增耳机独立空间音频功能。升级需确保两只耳机及耳机盒电量均大于 20%。
影石 Insta360 在 NAB 2026 展会上预告新款无线麦克风 Mic Pro,其正面配备圆形彩色 E-Ink 电子墨水屏,支持自定义显示品牌 Logo、照片或艺术图案。该设备内置三麦克风阵列与专用 AI 处理器,实现专业级降噪录音。Mic Pro 支持直连 Insta360 相机传输音频,无需接收器,同时发射器具备机内录音功能,可作为独立录音设备使用。
音乐流媒体平台Deezer披露,其每日接收约7.5万首AI生成歌曲投稿,占日上传总量的44%,较2025年1月推出检测工具时的1万首激增。尽管投稿量攀升,AI歌曲播放量仅占总量的1%至3%,因平台持续将其排除在推荐算法外。作为目前唯一标注AI曲目的流媒体服务,Deezer已取消该类音乐收益分成并停止存储高分辨率版本,同时开始向第三方授权其AI检测技术,可识别Udio、Suno等工具生成的作品。
研究团队发布Tadabur大规模古兰经音频数据集,收录逾1400小时朗诵音频,涵盖600余位不同朗诵者在多样化录音条件下的演绎。该数据集在朗诵风格、声音特征方面具有显著差异性,大幅扩展了现有古兰经语音数据的规模与变异性,旨在为相关研究提供全面资源并推动标准化基准建立。
音乐流媒体平台Deezer最新数据显示,其平台每日上传的歌曲中高达44%由人工智能生成。这一比例揭示了AI音乐创作在流媒体分发领域的渗透率已接近半数,反映出生成式AI技术对传统音乐产业的冲击正加速显现。该统计数据来自Deezer官方披露,凸显了AI生成内容在音乐平台中的快速增长态势。
iOS 27将终止支持iPhone 11/Pro/Max及iPhone SE 2,iPhone 12仍可升级。新系统聚焦稳定性与AI功能,新增主屏幕撤销/重做快捷开关、液态玻璃效果精细调节滑块,以及集成于灵动岛、带发光效果的Siri新界面。Visual Intelligence将支持扫描食品营养标签和识别印刷品联系方式,钱包应用与Safari浏览器也将迎来改进。
WIKO情感陪伴AI电子宠物"智能憨憨"蜂窝版正式发布,支持Wi-Fi与蜂窝网络双模连接,预售价499元,将于4月25日开售。相比2025年11月上市的普通版(399元),蜂窝版最大升级在于新增移动网络支持。该产品内置华为小艺大模型,适配鸿蒙5及以上系统,支持自然对话及摸头、摇晃等动作交互。
华为AI眼镜正式发布,提供钛银灰、流光银、摩登黑三款配色及圆形、方形两种镜框,售价2499元起,将于4月25日开售。产品采用轻量化设计,镜架仅重35.5克,镜腿薄至6.25毫米,基于超30万亚洲头形数据构建平衡架构。内置自研AI芯片,支持语音唤醒、AI交互、第一人称视角拍摄及支付宝支付等功能,综合续航达12小时,支持连续8小时通话或9小时音乐播放。
现有语音到语音翻译系统常剥离笑声、哭声等非语言发声,严重限制实用性。研究团队提出MoVE架构,采用Mixture-of-LoRA-Experts设计和软加权路由器捕捉混合情感状态,仅需30分钟精选数据即可训练。在英汉翻译任务中,MoVE在76%的情况下成功重现目标非语言发声,显著优于现有系统最高14%的保留率,并获得最高的人类评分自然度与情感保真度。
首次系统研究表明,对音频大语言模型进行良性微调会严重破坏安全对齐,使越狱成功率(JSR)从个位数飙升至87.12%。通过分解嵌入空间接近性的语义与声学维度,发现脆弱性取决于模型架构如何处理音频输入。研究提出两种防御措施:基于嵌入距离的数据过滤和推理时文本系统提示,均无需修改架构即可将JSR降至接近零。机制分析揭示,微调选择性抑制了晚期拒绝电路,而冻结编码器保留了原始表示。
研究团队发布 MTR-DuplexBench 基准,首次系统评估全双工语音语言模型(FD-SLMs)的多轮对话能力。该基准将连续对话切分为离散回合,涵盖对话特征、对话质量、指令遵循和安全性四个维度。实验表明,当前 FD-SLMs 在多轮交互中性能波动明显,难以保持上下文一致性。相关代码和数据已开源。