AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
6月19日周五
14:40小互65豆包实时语音模型3.0 API上线,支持自定义工具
09:23🚨 AI News | TestingCatalog33Codex实时语音模式可召唤宠物或球体
08:00HuggingFace Daily Papers(社区热门论文)47非语言发声中的说话人身份:条件蒸馏与混合专家方法
01:21xAI66同事件精选Grok TTS 盲测人类感得分96登顶同一事件,精选展示《Grok 成为 Vapi 的默认语音引擎》
01:19TechCrunch:AI(RSS)40《粉雄救兵》Karamo Brown 推出健康应用 Kē,含 AI 数字克隆"AI Karamo"
6月18日周四
19:14IT之家(RSS)32Canonical 推出本地语音转文字项目 Myna,为 Ubuntu 26.10 引入 AI 听写功能
18:40公众号:火山引擎72精选火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测
15:14IT之家(RSS)54科大讯飞 AI 眼镜首销:40克重量、122种语言翻译,4299元
13:56LMSYS:Blog(Chatbot Arena 团队)67精选MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上:原生流式 48 kHz 语音服务
12:14IT之家(RSS)30支持中文:Claude 语音模式酝酿升级,新图标暗示通话式 AI 交互
10:14IT之家(RSS)39阿里将推"千问输入法"独立App,定位移动端AI输入法
00:49向阳乔木58NotebookLM:跨国小团队沟通对齐妙用
00:32TechCrunch:AI(RSS)76精选Google发布99美元Gemini智能音箱
00:16Ars Technica:AI(RSS)47谷歌 Home Speaker 开启预售,6 月 25 日开售
6月17日周三
23:15Artificial Analysis65Soniox v5 Real-Time 发布:低延迟流式语音转文本模型
22:07IT之家(RSS)52谷歌推出新一代 Google Home 智能音箱:搭载 Gemini AI 助手,售 100 美元
21:30The Verge:AI(RSS)53Google 六年来首款智能音箱下周发布
20:29TechCrunch:AI(RSS)54DeepL 收购 Mixhalo 以拓展现场活动音频翻译场景
15:05IT之家(RSS)41ChatGPT 语音最大规模升级:OpenAI 正筹备推出 GPT-Bidi-1 模型
12:23Greg Brockman74GPT-Realtime-2:用语音控制操作系统
08:03IT之家(RSS)62谷歌推送 Android 17 正式版,深度集成 AI 功能
07:16🚨 AI News | TestingCatalog37OpenAI ChatGPT语音模式升级详情
04:35Rohan Paul65Catnip推出MaineCoon:22B实时音频-视觉流式基础模型
02:23TechCrunch:AI(RSS)57Android 17 正式版发布,新增多任务工具并扩展 Gemini 功能
01:32Rohan Paul54Bland 完成 1 亿美元 C 轮融资
00:46🚨 AI News | TestingCatalog34OpenAI 语音升级:GPT-Bidi-1 模型曝光
00:23DogeDesigner69Grok新增屏幕共享语音模式
6月16日周二
23:19TechCrunch:AI(RSS)39Plaud:AI记事本销量超200万台,订阅业务ARR突破1亿美元
22:51小互51看来 Claude 的语音模式即将推出 在设置页面可以设置语音语言和风格 而且支持中文,出乎意料 之前据说用的是 11Lab 的模型…
21:45🚨 AI News | TestingCatalog50Claude移动端语音模式升级,支持多语言
15:05🚨 AI News | TestingCatalog75精选Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型
08:07Josh Woodward74Google麦克风图标升级,支持70+语言混输
07:59IT之家(RSS)73同事件精选项目负责人揭秘为何苹果 AI 版 Siri 姗姗来迟:推倒重来,彻底重构同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
6月15日周一
23:42向阳乔木24AI音乐站上新了几首风格特别的歌曲。 Suno太好玩了,组合创新,造出新的听觉体验。 https://music.qiaomu.ai/track/ghostty-1aea https://music.qiaomu.ai/track/we-flow-so-slowly-1f5e https://music.qiaomu.ai/track/neon-song-c065
13:10公众号:昆仑万维(天工)28智源大会|Skywork首席科学家成宇:SkyReels V4与Mureka V9技术演进
07:40IT之家(RSS)44科大讯飞AI眼镜开启预售:支持122种语言翻译,4299元
07:40IT之家(RSS)44古尔曼:苹果仍在筹备三个尚未发布的 iOS 27 新功能
6月14日周日
17:38IT之家(RSS)43蚂蚁集团为支付宝引入AI助手"阿宝",支持点咖啡、买基金等指令
6月13日周六
09:14Berryxia.AI73开发者开源一键开启国行 Mac Siri AI 工具
08:29Simon Willison 博客63OpenAI WebRTC Audio Session:现在支持文档上下文
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月19日
14:40
小互@xiaohu
65
豆包实时语音模型3.0 API上线,支持自定义工具

豆包实时语音模型3.0 API正式上线。支持全双工(同时听和说,可随时插话)和端到端(语音进、语音出,无转录),交互更快速自然。具备精准遵循指令能力,如设定“先不出声,聊到世界杯再加入”后安静待命。关键升级是支持自定义工具,可在实时对话中直接调用工具完成任务(预定日历、发邮件、总结文档、发起查询等),从“语音助手”向“语音 Agent”迈进。

MCP/工具模型发布语音
09:23
🚨 AI News | TestingCatalog@testingcatalog
33
OPENAI 🔥: Codex 上的实时语音模式将触发一只宠物或一个球体出现! Codex = ChatGPT 即将到来 👀 * 视频显示,宠物已通过语音模式按钮被召唤。
OpenAI产品更新语音
08:00
HuggingFace Daily Papers(社区热门论文)
47
非语言发声中的说话人身份:条件蒸馏与混合专家方法

针对非语言发声(NVV)中说话人身份一致性评估,现有说话人验证(SV)系统泛化差且微调会导致灾难性遗忘。本文提出融合冻结Data2Vec自监督特征与ECAPA-TDNN的框架,并加入带领域感知路由的混合专家(MoE)模块。通过预训练教师模型在语音输入上施加条件蒸馏损失以保持语音验证精度,同时用对比损失弥合语音与NVV的域间差距。该方法将NVV的等错误率(EER)从38.93%降至22.66%,语音EER从13.17%降至9.24%。

arXiv论文/研究语音
01:21
xAI@xai
同事件精选66
xAI 的 Grok TTS 模型在 @Vapi_AI 的 Humanness Index 盲测中以 96 分(真人 100 分)位居榜首。该指数选取同一声音和引文,经各模型克隆后由听众盲评。

Vapi: Two days into blind voting of voice models on our Humanness IndexTM, and xAI's Grok TTS model is at the top of the pack....

xAI模型发布语音
同一事件,精选展示《Grok 成为 Vapi 的默认语音引擎》
推荐理由:xAI Grok TTS 在 Vapi 盲测里人类相似度 96 分,只差真人 4 分,这个分数很有说服力,做语音产品的值得去听听看,能直观感受语音合成的进步。
01:19
TechCrunch:AI(RSS)
40
《粉雄救兵》Karamo Brown 推出健康应用 Kē,含 AI 数字克隆"AI Karamo"

《粉雄救兵》生活教练 Karamo Brown 推出健康应用 Kē,其核心特色为基于 AI 初创公司 Delphi 技术打造的“AI Karamo”数字克隆。该克隆通过学习 Brown 的采访、播客等内容,可与用户实时对话并提供建议。应用还提供个性化健身计划、基于家中食材的营养指导、冥想视频及社区支持功能。Kē 已上线 iOS 和 Android,订阅费 $14.99/月,提供 3 天免费试用。

产品更新语音
6月18日
19:14
IT之家(RSS)
32
Canonical 推出本地语音转文字项目 Myna,为 Ubuntu 26.10 引入 AI 听写功能

Canonical 公布 Project Myna,为 Ubuntu 桌面打造的本地语音转文字工具,首个版本随 Ubuntu 26.10 发布。Myna 仅提供听写功能:用户按下键盘快捷键后说话,转录文字直接插入当前应用,屏幕显示视觉反馈。所有识别在本地运行,下载模型后无需联网;麦克风仅在激活时被访问,音频数据在内存中处理后丢弃。首版以 Wayland 上的 GNOME 为主要验证环境,架构采用模块化设计,源码和文档已以 GPLv3 协议托管于 GitHub。后续计划加强桌面集成并优化听写体验。

产品更新开源生态端侧语音
18:40
公众号:火山引擎
精选72
火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测

火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。该模型为原生全双工端到端语音大模型,具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命,指定话题出现时主动加入;支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升,误回复率与误打断率大幅降低;判停延迟缩短约250ms,复杂场景抢话比例下降40%,用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。

模型发布语音

推荐理由:豆包实时语音模型3.0带来的全双工实时工具调用,把语音助手从对讲机变成了真人助理,判停延迟和抢话率的改善数据扎实,做车载和智能硬件的团队该认真看看。
15:14
IT之家(RSS)
54
科大讯飞 AI 眼镜首销:40克重量、122种语言翻译,4299元

讯飞AI眼镜6月18日在京东首销,定价4299元(部分国补后3369元),重40克,获SGS舒适认证。核心搭载语音同传大模型,支持122种语言翻译,覆盖通话翻译、线上同传、同声传译(8米全向拾音)、面对面翻译(18语种离线)、视觉翻译及附赠App权益等六大场景。还支持实时提词、蓝牙遥控翻页,内置GlassClaw AI助理,可开会自动总结图文纪要。

产品更新端侧语音
13:56
LMSYS:Blog(Chatbot Arena 团队)
精选67
MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上:原生流式 48 kHz 语音服务

MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型,支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器,通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%,CV3-Eval 上 WER 7.48%、SIM 61.59%,MiniMax Multilingual 上 WER 6.37%、SIM 75.31%,X Voice 上 WER 20.48%、SIM 63.00%。

产品更新语音部署/工程

推荐理由:SGLang-Omni 把 MOSS-TTS 的端到端服务拆成三阶段并做了大量底层优化,对想落地实时语音合成的团队是现成的技术方案,技术细节扎实,可以直接照着搭。
12:14
IT之家(RSS)
30
支持中文:Claude 语音模式酝酿升级,新图标暗示通话式 AI 交互

Anthropic 正升级 Claude 的语音模式,新增西班牙语、中文、日语、德语、葡萄牙语、俄语和乌克兰语等语言选项,打破仅支持英语的限制。语音交互引入两种模式:原有的免提模式支持连续对话,新增按下通话模式需按住按钮说话、松手发送语音消息。iOS 版 Claude 应用出现类似电话听筒的新图标,外界猜测可能为更接近通话的语音交互做准备。

Anthropic产品更新语音
10:14
IT之家(RSS)
39
阿里将推"千问输入法"独立App,定位移动端AI输入法

据《读佳》今日报道,千问团队将推出名为“千问输入法”的独立App,其AI功能与键盘针对手机端操作优化,区别于PC端千问语音输入法。产品已开发完成,择日上线各大应用商店。继微信输入法、豆包输入法后,这将是国内第三家头部互联网大厂入局独立AI输入法赛道。千问语音输入法是今年5月上线的AI语音输入能力,集成于千问App内,支持口语去语气词、纠错、格式化整理,以及基于上下文的智能回复、创作、问答与翻译指令。

产品更新端侧语音
00:49
向阳乔木@vista8
58
NotebookLM:跨国小团队沟通对齐妙用

分享一个跨国小团队用 NotebookLM 高效沟通对齐的方法:将公司关键文档上传至 NotebookLM,生成播客,自己听无误后转成所需语种让对方收听;沟通不清晰时还可通过文本问答澄清。该方法在小团队中效果很好,但对内容安全要求不高时适用。

Google教程/实践语音
00:32
TechCrunch:AI(RSS)
精选76
Google发布99美元Gemini智能音箱

Google推出首款专为Gemini打造的智能音箱Google Home Speaker,售价99.99美元。支持自然语言请求和多步指令,可在说话中途纠正,并具备连续对话功能。内置10种新声音。高级AI功能需订阅Google Home Premium(月费10美元或年费100美元),包括Gemini Live自由对话、Nest摄像头活动摘要等。即日起预售,本月发货。

Google产品更新语音

推荐理由:Google 终于把 Gemini 塞进了音箱,多步指令和自然纠错是亮点,但高级功能要订阅 Home Premium。普通用户会觉得方便,智能家居玩家可以观望,AI 从业者不会有多大惊喜。
00:16
Ars Technica:AI(RSS)
47
谷歌 Home Speaker 开启预售,6 月 25 日开售

谷歌去年八月发布的新款智能音箱 Google Home Speaker 现已开启预售,售价 $99.99,6 月 25 日正式开售。扁球体织物外观有淡褐、瓷白、翠绿和浆果红四色。支持 360 度声场,底部环形灯带在语音交互时亮起,配备三个远场麦克风和静音开关。内部搭载四核 A55 处理器及专用 NPU,运行本地 AI 模型提升降噪。仅有一个 58mm 全频驱动单元,音质介于 Nest Audio 与 Nest Mini 之间。可与 Google TV Streamer 配对实现沉浸式音频,兼容其他 Nest 设备。购买附赠六个月 Google Home Premium,启用 Gemini Live 支持连续对话。

Google产品更新语音
6月17日
23:15
Artificial Analysis@ArtificialAnlys
65
Soniox v5 Real-Time 发布:低延迟流式语音转文本模型

Soniox 发布 v5 Real-Time 流式 STT 模型,在 AA-WER Streaming 基准上处于准确率与延迟的帕累托前沿。First Final 转录 WER 4.5%(延迟 0.05s),比 Deepgram Flux (7.4%, 0.02s) 和 Nova-3 Realtime (6.7%, 0.06s) 更准确,比 Cartesia Ink-2 (3.7%, 0.09s) 和 ElevenLabs Scribe v2 Realtime (3.6%, 0.14s) 更快。First Partial 转录 WER 4.7%(延迟 0.05s),准确率仅次于上述两款模型但速度更快。价格 $2/1000 分钟,为所有测试专有流式模型最低。支持 60+ 语言及实时翻译。

模型发布语音
22:07
IT之家(RSS)
52
谷歌推出新一代 Google Home 智能音箱:搭载 Gemini AI 助手,售 100 美元

谷歌发布新一代 Google Home 智能音箱,搭载 Gemini for Home AI 语音助手,支持自然语言交流与多步骤语音指令,用户中途改口也能正确理解。球形设计,360° 环绕音效,麦克风系统可自动调节拾音。硬件:1GB LPDDR4 内存、四核 Cortex-A55 2.0GHz 处理器、4GB 存储,顶部电容触控,3D 织物材质三种配色。可与 Google TV Streamer 组成立体声环绕系统。6 月 25 日上市,定价 100 美元(约 677 元)。

Google产品更新语音
21:30
The Verge:AI(RSS)
53
Google 六年来首款智能音箱下周发布

Google Home Speaker 于 6 月 17 日开启预购,6 月 29 日发货,售价 $99。该音箱专为 Gemini for Home 设计,内置本地模型用于降噪和回声抑制,支持 360 度音频,可配对立体声或配合 Google TV Streamer 实现空间环绕声。它还是 Matter 控制器和 Thread 1.3 边界路由器。Gemini for Home 延迟降低 40%,修复超 25,000 个问题,新增 50 余项功能。部分高级功能(如 Gemini Live)需订阅 Google Home Premium($10/月),购买前可获赠 6 个月。

Google产品更新语音
20:29
TechCrunch:AI(RSS)
54
DeepL 收购 Mixhalo 以拓展现场活动音频翻译场景

DeepL 收购了实时音频初创公司 Mixhalo,将其翻译套件扩展至现场活动。Mixhalo 成立于 2016 年,由 Incubus 吉他手 Mike Einziger 等联合创立,最初为演唱会改善听音体验,后转向体育及现场活动的实时音频服务,累计融资超 3900 万美元。Mixhalo 此前已是 DeepL 的主要翻译客户。DeepL 于 2024 年推出覆盖 33 种以上语言的语音转文本翻译,今年 4 月又推出支持多语言会议的语音转语音翻译套件。收购后,DeepL 将在旧金山湾区开设办公室以扩大美国业务。

行业动态语音
15:05
IT之家(RSS)
41
ChatGPT 语音最大规模升级:OpenAI 正筹备推出 GPT-Bidi-1 模型

OpenAI 正筹备推出 GPT-Bidi-1 模型,采用双向(BiDi)架构,能同时听和说,吸收用户打断并在对话中实时调整。相比已进化至 GPT-5.5 的文本模型,ChatGPT 的语音能力仍基于较旧音频技术栈,GPT-Bidi-1 旨在弥合这一差距。上线后用户可切换双向模式与现有高级语音模式,并支持 High、Medium 及 Instant 智能等级,按任务调整速度和深度。

OpenAI模型发布语音
12:23
Greg Brockman@gdb
74
Greg Brockman 称 GPT-Realtime-2 是全新事物。@per_simmons_ 体验数周后表示,GPT-Realtime-2 是操作系统的未来,仅用语音即可打开应用、搜索网页、编辑 Premiere Pro,设置只需几个提示词且无需编码。视频演示了通过 MCP 连接 Obsidian 以及利用无障碍树控制 Premiere Pro 等功能。

Pat Simmons: GPT-Realtime 2 is the future of the operating system. I've been experimenting with it for a couple weeks now, and I gott...

OpenAI多模态教程/实践语音
08:03
IT之家(RSS)
62
谷歌推送 Android 17 正式版,深度集成 AI 功能

6 月 17 日,谷歌正式推送 Android 17 正式版及 Wear OS 7,首发搭载 Pixel 设备。新系统集成音乐生成模型 Lyria 3、多模态大模型 Gemini Omni 及基于 AudioLM 的语音翻译工具(适配 Pixel 10a)。Pixel 专属更新:Gemini Omni 支持对话中剪辑视频,Lyria 3 可输入文字或图片生成曲目;老款 Pixel 8a、9a 快速分享兼容苹果 AirDrop。系统新增“气泡任务栏”多任务控件、同屏录摄、家长管控及折叠屏 50/50 游戏模式。手表新增车祸、摔倒、无脉搏自动呼救,续航提升 10%,夏季将上线 Gemini 桌面小组件。

Google产品更新多模态语音
07:16
🚨 AI News | TestingCatalog@testingcatalog
37
OpenAI 🔥:关于ChatGPT即将推出的语音模式升级的更多细节。 > 它将被宣传为"智能的重大飞跃"。考虑到当前体验由4o驱动,这在意料之中。 > 用户将能够在即时、中等和高等级之间进行选择。 > 它可能会逐步推出,EEA、英国、瑞士用户将像往常一样稍后获得。 > Bidi代表"双向",意味着它可以同时收听和说话。 很快?👀 h/t @M1Astra
OpenAI产品更新语音
04:35
Rohan Paul@rohanpaul_ai
65
Catnip推出MaineCoon:22B实时音频-视觉流式基础模型

Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频语音
02:23
TechCrunch:AI(RSS)
57
Android 17 正式版发布,新增多任务工具并扩展 Gemini 功能

Google 近日发布 Android 17 正式版及 Wear OS 7,率先登陆 Pixel 设备。Pixel Drop 新增 AI 模型支持:音乐生成模型 Lyria 3、多模态 Gemini Omni 及基于 AudioLM 的语音翻译工具(Pixel 10a)。Quick Share 文件分享兼容 Apple AirDrop。Android 17 引入“气泡栏”多任务界面、自拍屏幕录制、折叠游戏模式(50/50 布局与动态手柄)以及“标记为丢失”等安全与家长控制功能。Pixel Watch 新增车祸/跌落/无脉搏自动紧急呼叫。Wear OS 电池续航提升最高 10%,并将在夏季推出更多 Gemini 智能功能。

Google产品更新多模态语音
01:32
Rohan Paul@rohanpaul_ai
54
今天,我们宣布完成 C 轮融资,筹集 1 亿美元,继续自动化世界上最复杂的电话呼叫。我们找了一个叫 Paul 的家伙来谈论这件事,因为办公室里没人愿意干。 主推文称赞这是一个出色的发布视频,并指出这家公司专注于受监管行业的高风险电话呼叫。

Bland: Today, we're announcing that we've closed our Series C and raised $100M to continue automating the world's most complex ...

行业动态语音
00:46
🚨 AI News | TestingCatalog@testingcatalog
34
OPENAI 🔥: ChatGPT 即将迎来语音模式升级,新模型 "gpt-bidi-1" 已被发现,同时还有公告更新。 敬请期待 👀 鸣谢 @M1Astra 来自 DevMode

Chetaslua: 🚨 OpenAI is planning to release GPT-Bidi-1 very soon Their next-generation voice model for more natural conversations [...

OpenAI模型发布语音
00:23
DogeDesigner@cb_doge
69
🚨 Grok 更新 🚨 现在你可以与 Grok 共享屏幕,并在语音模式下获得实时帮助。 只需点击窗口图标,选择共享屏幕,然后开始广播。
xAI产品更新多模态语音
6月16日
23:19
TechCrunch:AI(RSS)
39
Plaud:AI记事本销量超200万台,订阅业务ARR突破1亿美元

AI记事本公司Plaud宣布售出超200万台设备,订阅业务年化经常性收入(ARR)突破1亿美元。去年推出179美元的Plaud Pro,今年新增类似定价的Plaud Pin S。软件方面,年初上线桌面应用,可录制系统音频为在线会议做笔记;上月推出面向企业的Plaud Teams(含共享记忆)。用户购买硬件可免费获得300分钟转录,约50%的设备用户从基础版升级到Pro或无限版,构成主要收入来源。

端侧行业动态语音
22:51
小互@xiaohu
51
看来 Claude 的语音模式即将推出 在设置页面可以设置语音语言和风格 而且支持中文,出乎意料 之前据说用的是 11Lab 的模型…
Anthropic产品更新语音
21:45
🚨 AI News | TestingCatalog@testingcatalog
50
ANTHROPIC 🔥:看起来语音模式升级已经开始在 Claude 移动应用中推出。语音模式将支持多语言! 这很可能只是更大升级前的第一步。即将出现的模型选择器外观可能预示着底层模型的改进。 除此之外,在最新的 iOS 构建版本中,语音模式图标新增了一个"电话"变体。有猫腻! 如果你已经拿到,测试一下吧 👀

Evinstein X: Did Anthropic update voice mode?! This is 100 times better than ChatGPT!!

Anthropic产品更新语音
15:05
🚨 AI News | TestingCatalog@testingcatalog
精选75
Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首,首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。

Karan Goel: We released Sonic-3.5 and Ink-2, the #1 streaming models for text to speech and speech to text you can use in your voice...

智能体模型发布语音

推荐理由:Cartesia 同时发布实时语音合成和识别两个模型的迭代版,双双登顶第三方基准,80ms 首音频延迟让语音代理的交互感接近真人,做实时语音应用的开发者可以重点看一下。
08:07
Josh Woodward@joshwoodward
74
我们的麦克风图标在 Android 和 iOS 上变得更好用了!这对非英语使用者来说意义重大。 + 现已支持 70+ 种语言 + 可自由混用语言 + 无需更改语言设置 + 仍然不会打断你 :)
Google产品更新多模态语音
07:59
IT之家(RSS)
同事件精选73
项目负责人揭秘为何苹果 AI 版 Siri 姗姗来迟:推倒重来,彻底重构

苹果AI版Siri迟迟未上线,项目负责人迈克·罗克韦尔在WWDC技术分享会上透露,去年团队曾做出在原有Siri基础上小幅改良、新增工具调用的可运行版本,但因无法达到产品愿景,最终选择推倒重来,完整从零重构系统,依托全新大模型搭建。重构后的Siri拥有独立应用程序,原生支持多模态交互,隐私保护贯穿底层架构,并覆盖iPhone、iPad、Mac、Apple Watch、Vision Pro、CarPlay、AirPods等全平台,提供统一连贯体验。

大佬观点语音
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:苹果AI版Siri推迟的真实原因浮出水面——不是技术卡壳,而是主动选择推倒重来,这对所有做大模型应用升级的产品团队是个值得细读的决策复盘。
6月15日
23:42
向阳乔木@vista8
24
AI音乐站上新了几首风格特别的歌曲。 Suno太好玩了,组合创新,造出新的听觉体验。 https://music.qiaomu.ai/track/ghostty-1aea https://music.qiaomu.ai/track/we-flow-so-slowly-1f5e https://music.qiaomu.ai/track/neon-song-c065
大佬观点语音
13:10
公众号:昆仑万维(天工)
28
智源大会|Skywork首席科学家成宇:SkyReels V4与Mureka V9技术演进

昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video(With Audio)与Image to Video(With Audio)双赛道第一,超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性,以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术,实现段落级文本控制与母带级混音,在旋律性(7.25)、表现力(6.89)等维度排名第一。此外,昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。

多模态大佬观点开源生态视频
07:40
IT之家(RSS)
44
科大讯飞AI眼镜开启预售:支持122种语言翻译,4299元

科大讯飞AI眼镜6月15日在京东开启预售,定价4299元(部分地区国补后低至3369元),重40克。搭载讯飞端到端语音同传大模型,支持122种语言(含方言、口音)翻译,覆盖通话翻译、线上同传、同声传译(8米全向拾音)、面对面翻译(18语种离线)、视觉翻译等六大场景。内置GlassClaw AI助理,支持一句话跨端任务、会议自动生成图文纪要、实时提词、蓝牙遥控翻页,并提供多种近视镜片选配。

产品更新多模态语音
07:40
IT之家(RSS)
44
古尔曼:苹果仍在筹备三个尚未发布的 iOS 27 新功能

苹果在 WWDC 公布 AI 版 Siri 等新功能,古尔曼称还有三项功能在开发,预计 9 月推出。包括:Apple Watch Ultra 简约版模块化极致表盘(保留大时钟但取消第二行组件);Siri 扩展功能将接入 ChatGPT 等第三方 AI,但苹果计划开发 API 让应用直接接入 Siri(而非单独签协议),隐私标准可能不同,推迟原因涉欧盟立场、关注度等;以及可自定义相机应用(调整按钮位置),将随 iPhone 18 Pro 于 9 月发布。

行业动态语音
6月14日
17:38
IT之家(RSS)
43
蚂蚁集团为支付宝引入AI助手"阿宝",支持点咖啡、买基金等指令

蚂蚁集团正对支付宝进行重大改版,引入AI Agent(AI智能体)交互界面。用户可通过文字或语音向AI助手“阿宝”发出叫网约车、点咖啡、点外卖等指令;在获得授权后,阿宝还能执行买基金、管理投资账户等理财任务。目前该版本尚无具体上线时间。

智能体产品更新语音
6月13日
09:14
Berryxia.AI@berryxia
73
开发者 SkyBlue997 在 GitHub 开源 enableMacosAI 工具,通过修改系统地区伪装美区来开启国行 Mac 的 Siri AI。此前有用户发现 macOS 的 GenerativeModels.plist 文件中存在 EnhancedSiriWaitlist 开关,关闭 SIP、挂载系统卷、修改键值并重启即可解锁 WWDC 新发布的 Siri AI 增强版。社区已整理出详细步骤,证明该 AI 能力早已内置,仅被等候名单屏蔽。

Berryxia.AI: 我尼玛!苹果现在安全性真的差! 世界果真就是草台班子、谁也不例外! 苹果新Siri AI的等候名单? 国外大神Mac用户直接一顿操作就把AI增强版给硬解锁了,名单这东西瞬间成了笑话。 WWDC刚秀完新Siri,大家还在排队等官方推送,结果有...

GitHub开源/仓库端侧语音
08:29
Simon Willison 博客
63
OpenAI WebRTC Audio Session:现在支持文档上下文

Simon Willison 于 2024 年 12 月构建了基于 OpenAI WebRTC API 的音频会话工具,用于与实时音频模型交互。上月 OpenAI 为该 API 推出新模型 GPT‑Realtime‑2,号称“首个具有 GPT‑5 级推理能力的语音模型”,知识截止日期为 2024 年 9 月 30 日。该工具现已更新,支持选择此模型,并可粘贴大段文档上下文,使用户能在浏览器中围绕任意信息进行音频对话。

OpenAI教程/实践语音
‹ 上一页
12345…19
下一页 ›