AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
5月15日周五
01:46HuggingFace Daily Papers(社区热门论文)71精选EVA-Bench:端到端语音智能体评估新框架
5月14日周四
18:32Alibaba Cloud55基于智能体的语音交互稳定性与速度优化方案
14:46HuggingFace Daily Papers(社区热门论文)60Vividh-ASR:面向鲁棒印度语语音识别的复杂度分层基准与优化动态研究
14:02公众号:豆包(字节)38豆包输入法上新,可以在电脑上语音打字了
11:26向阳乔木49第三方AI客户端暂缺音视频解析功能与豆包全模态模型升级
08:00HuggingFace Daily Papers(社区热门论文)50AuralSAM2:通过金字塔音视频特征提示赋能SAM2倾听
02:28Suno47Suno创始人畅谈音乐AI与娱乐未来
5月13日周三
23:39IT之家(RSS)50谷歌 Gboard 输入法新增 Gemini 驱动听写功能,可识别一句话中的多种语言
22:57Suno61Suno登陆车载系统,车内流媒体新体验
22:39IT之家(RSS)52vivo 公布 OriginOS 6 五月体验升级亮点:小 V 语音一句话修图、原子岛充电动画等
22:36🚨 AI News | TestingCatalog55thehype radio正式上线:一个为创业者和建设者打造的24/7全天候AI新闻电台
22:34Rohan Paul60X平台首开全AI运营电台,24小时播报AI动态
22:29Chubby♨️74全球首个全AI运营的在线广播电台上线,24小时不间断播报AI动态
20:39IT之家(RSS)61大版本来袭:第一代小米 SU7 汽车 OTA 1.16 开推,新增语音控车、疲劳分心下应急停车辅助功能等
15:39IT之家(RSS)61谷歌安卓桌面版重构鼠标光标交互,让 AI 听懂"这个 / 那个"比划
12:16公众号:数字生命卡兹克47豆包输入法Mac版正式上线,所有人都该试试AI语音输入了。
08:49Berryxia.AI56Meta推出实时语音视觉AI,即将登陆Ray-Ban眼镜
08:41meng shao65Gemini Intelligence 登陆 Android,系统升级为主动型AI平台
07:57Chubby♨️55Thinking Machines实现OpenAI一年半前承诺的先进语音模式
07:49Berryxia.AI65Gemini Intelligence官宣:赋能高端Android设备主动助手
07:39IT之家(RSS)45苹果 iOS 27 前瞻:相机 App 支持全面自定义且 Siri 迎来重大重构,Safari 和天气设计焕新
06:38Demis Hassabis81精选谷歌AI重塑智能鼠标指针交互
05:05🚨 AI News | TestingCatalog63Meta推出Muse Spark驱动的AI语音对话与实时视觉交互功能
05:03DogeDesigner40Grok Voice领跑语音AI基准测试
05:03DogeDesigner57Grok语音模型登顶电信评测榜首
05:02Elon Musk48Grok Voice 在语音智能体基准测试中领先
04:35宝玉68Codex App 可以当 Typeless 用,开启全局快捷键设置正确权限后就可以在任意输入位置语音输入,效果还不错。 比如说这一段文字就是Codex帮忙输入的。
04:32Elon Musk40Grok Voice基准测试大幅领先GPT与Gemini
00:54Suno51演示项目墓地迎来复活
00:30Artificial Analysis62语音智能体性能基准发布,顶尖模型仅能处理半数真实客服场景
5月12日周二
21:40The Decoder:AI News(RSS)66Thinking Machines Lab发布首款模型,主张交互性才是OpenAI语音技术的误区
16:49歸藏(guizang.ai)41移动端的语音输入法必须带全键盘,但是桌面端的语音输入法最好跟输入法本身解耦。 Typeless 犯了前一个错误,豆包犯了后一个。
13:29Greg Brockman65AI代理参会:未来已至的会议体验
12:01Rohan Paul62Thinking Machines 推出"始终在场"AI模型,革新传统轮替式交互
11:36IT之家(RSS)37鸿蒙智行 / AITO App 更新 3.0.1.300 版本,新增支持华为 HarmonyOS 6 小艺语音控车
10:58Alibaba Cloud42澳门AI研讨会彰显本地化应用价值
08:59Ethan Mollick65GPT实时语音模型升级,智能程度显著提升
07:10Nathan Lambert46模型与用户同时对话演示获赞
06:49Berryxia.AI58未来AI协作新形态:像人一样实时并行交互
06:35swyx 🌉64实时AI定义被颠覆,全能模型梦想复兴
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月15日
01:46
HuggingFace Daily Papers(社区热门论文)
精选71
EVA-Bench:端到端语音智能体评估新框架

EVA-Bench是一个端到端语音智能体评估框架,解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真,并提出了衡量任务完成度、音频保真度的EVA-A指标,以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集,采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现,无系统能在两项核心指标上同时超过0.5,峰值与可靠性能差距显著,且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。

Hugging Face论文/研究评测/基准语音

推荐理由:EVA-Bench 把语音代理评估从「能对话就行」推进到「对话质量+鲁棒性」的全维度打分,还开源了 213 个企业场景,做语音助手的团队该认真看看。
5月14日
18:32
Alibaba Cloud@alibaba_cloud
55
如何让基于智能体的语音交互变得更稳定、更快速?🚀 当并发量上升时,消息链路可能成为隐藏瓶颈。了解 RocketMQ LiteTopic 如何实现大规模稳定低延迟交互: https://int.alibabacloud.com/m/1000412958/
智能体教程/实践语音
14:46
HuggingFace Daily Papers(社区热门论文)
60
Vividh-ASR:面向鲁棒印度语语音识别的复杂度分层基准与优化动态研究

针对多语言ASR模型微调中出现的“录音室偏差”问题,本研究发布了Vividh-ASR基准,涵盖印地语和马拉雅拉姆语的四个语音复杂度层级。通过控制学习率时机与课程顺序的实验发现,早期大参数更新可显著降低整体词错误率,而由难到易的课程顺序能进一步提升自发语音识别效果。据此提出的反向多阶段微调方法,使2.44亿参数的Whisper模型性能达到或超过传统微调的7.69亿参数模型。表征分析表明,有效调度将适应过程集中于解码器,同时保持了编码器的预训练声学结构。基准与模型均已开源。

论文/研究语音
14:02
公众号:豆包(字节)
38
豆包输入法上新,可以在电脑上语音打字了
产品更新端侧语音
11:26
向阳乔木@vista8
49
用户认为某模型表现不错,但指出当前多数第三方AI Chat客户端(如CherryStuido、Chatwise)尚不支持音视频上传解析功能。同时,豆包大模型的Doubao-Seed-2.0-lite 0428版本已完成重要升级,新增音频理解能力,成为其家族首款支持图片、视频、音频、文本四种输入的全模态理解模型,且Agent、Coding和GUI能力据称也有显著提升。

向阳乔木: 前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。 这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。 除了全模态理解,据说 Agent、Coding、GU...

多模态视频评测/基准语音
08:00
HuggingFace Daily Papers(社区热门论文)
50
AuralSAM2:通过金字塔音视频特征提示赋能SAM2倾听

针对SAM2在音频模态整合上的不足,本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征,生成稀疏和密集提示,并基于SAM2的特征金字塔在视觉层间传播音频线索,以强化跨模态影响。同时,引入音频引导对比损失函数,进一步对齐音频与视觉特征。实验表明,该方法在公开基准上显著提升了准确率,同时将对SAM2可提示分割交互效率的影响降至最低。

arXivGitHub多模态论文/研究
02:28
Suno@suno
47
@MikeyShulman 在Training Data播客节目中畅谈Suno为何从不遵循规则…🎵

Mikey: Had tons of fun chatting with @sonyatweetybird about music and the future of entertainment

大佬观点语音
5月13日
23:39
IT之家(RSS)
50
谷歌 Gboard 输入法新增 Gemini 驱动听写功能,可识别一句话中的多种语言

谷歌在Android活动中为Gboard输入法推出由Gemini驱动的AI语音听写功能Rambler。它能自动删除“呃”“啊”等填充词,并理解即时修正。其核心亮点是支持“代码切换”,可在同一句话中无缝识别多种语言且保持上下文连贯。谷歌强调,该功能不存储语音录音,结合设备端与云端处理以保障隐私。Rambler初期将于夏季在三星Galaxy和谷歌Pixel手机上推出,未来将扩展至更多Android设备。

Google产品更新多模态语音
22:57
Suno@suno
61
Suno 现在可在 Apple CarPlay 和 Android Auto 上使用🚗 在车里流媒体播放您最喜欢的创作。在早晨通勤时用这个播放列表试试看! https://suno.com/playlist/a255cf6d-bb99-4c1f-aedd-8d584579bddb
产品更新语音
22:39
IT之家(RSS)
52
vivo 公布 OriginOS 6 五月体验升级亮点:小 V 语音一句话修图、原子岛充电动画等

vivo OriginOS 6 五月体验升级带来多项新功能。核心亮点是“小V修图”,用户可通过语音指令一句话完成照片编辑。相册功能大幅增强,新增多款色彩风格、可编辑水印、自定义集浏览页面布局以及文件夹日期分组视图。原子岛充电动画升级,可实时显示充电速度与电量。此外,小V写作新增剪切板快捷入口,竖屏锁定优化了旋转切换逻辑,智能车载支持切换手机版地图。其他升级还包括小V帮读入口、蓝心小V的问答样式与图文质量优化、新增多款原子组件模糊材质,以及网络与无障碍体验的改进。

产品更新端侧语音
22:36
🚨 AI News | TestingCatalog@testingcatalog
55
thehype radio是一个专为创业者和建设者设计的24/7全天候AI电台。它并非简单的新闻播报循环,而是由五位具备独立编辑判断力、记忆和鲜明个性的AI主播实时运作。电台内容涵盖分钟级的突发新闻、每半小时的新闻综述与AI工具趋势更新,并追踪初创公司融资动态。同时,它整合来自X和Hacker News的社区观点,并在节目间隙播放环境音乐。其核心在于AI主播能主动收集信息模式、发现矛盾、形成并论证观点,旨在从海量信息中提炼出具有洞察力的内容,帮助听众高效获取关键信息。

thehype.: Meet the 1st radio on X fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Live right ...

产品更新语音
22:34
Rohan Paul@rohanpaul_ai
60
X平台首开全AI运营电台,24小时播报AI动态

X平台推出了首个完全由AI运营的电台,全天候为AI构建者和创始人播报新闻。该电台实时追踪GitHub、HuggingFace等多个平台的动态,将分散信息整合成连续音频流。其核心挑战在于信息排序而非语音生成,系统需判断哪些代码更新、模型发布或社区讨论值得关注。电台拥有五位具备编辑判断力、记忆和个性的AI主播,他们不仅能播报信息,还会识别模式、发现矛盾并论证观点。内容涵盖突发新闻、工具趋势、融资动态及社区观点,旨在帮助用户高效把握AI领域重要动向。

thehype.: Meet the 1st radio on X fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Live right ...

产品更新搜索语音
22:29
Chubby♨️@kimmonismus
74
全球首个全AI运营的在线广播电台上线,24小时不间断播报AI动态

全球首个完全由AI运营的在线广播电台在X平台正式开播,专为创业者、开发者和建设者提供全天候AI领域资讯。该电台由五名具备独立编辑判断、记忆和个性的AI主播主持,不仅能实时播报几分钟内的突发新闻,还提供每30分钟一次的新闻综述、初创公司融资追踪、GitHub等平台的工具趋势分析,并整合社区讨论与行业真实观点。AI主播会主动收集信息模式、发现矛盾并形成论点进行实时辩论,而非单纯播报数据。节目辅以非干扰性环境音乐,旨在让听众在背景收听中高效获取深度行业洞察。

thehype.: Meet the 1st radio on X fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Live right ...

智能体产品更新语音
20:39
IT之家(RSS)
61
大版本来袭:第一代小米 SU7 汽车 OTA 1.16 开推,新增语音控车、疲劳分心下应急停车辅助功能等

小米汽车开始向第一代SU7推送OTA 1.16大版本更新,旨在对齐新款车型的功能体验。本次更新重点升级了辅助驾驶与智能座舱:辅助驾驶新增语音控车、收费站通行辅助、侧向避让辅助及针对异形障碍物的前向防碰撞辅助等功能;特别增加了疲劳分心下的应急停车辅助,触发后将自动减速停车并禁用辅助驾驶30分钟。智能座舱方面,超级小爱新增“小爱陪伴”和“AI智控”功能。此外,还引入了车主管理模式。多数新功能仅支持SU7 Pro和Max车型。

智能体产品更新多模态语音
15:39
IT之家(RSS)
61
谷歌安卓桌面版重构鼠标光标交互,让 AI 听懂"这个 / 那个"比划

谷歌DeepMind发布了名为Magic Pointer的AI光标交互功能,旨在重构桌面端安卓系统的鼠标使用体验。其核心理念是让AI无缝融入用户当前工作流,通过识别光标位置和语音指令理解上下文,无需复制内容或输入完整提示词。该功能遵循四项原则:保持工作连续性、支持“边指边说”交互、理解“这个/那个”等自然指代、将屏幕像素转化为可操作实体。目前,谷歌已在AI Studio上线演示,并正将相关能力逐步集成至Chrome浏览器的Gemini中。

Google产品更新多模态语音
12:16
公众号:数字生命卡兹克
47
豆包输入法Mac版正式上线,所有人都该试试AI语音输入了。
产品更新端侧语音
08:49
Berryxia.AI@berryxia
56
Meta推出实时语音视觉AI,即将登陆Ray-Ban眼镜

Meta发布了由Muse Spark驱动的Meta AI Voice Conversations,实现实时语音与视觉交互。该功能支持打断对话、切换话题,在聊天过程中生成图像和拉取内容,并能通过相机对准现实世界进行实时视觉问答。这一技术即将集成到Ray-Ban Meta智能眼镜中,提升穿戴设备的AI体验。

Meta产品更新多模态语音
08:41
meng shao@shao__meng
65
Gemini Intelligence 登陆 Android,系统升级为主动型AI平台

Google将Android重新定位为主动型AI系统,推出Gemini Intelligence。其核心在于深度软硬件结合,首发于三星Galaxy和Google Pixel手机,后续将扩展至手表、汽车等设备。五大核心能力包括:跨应用多步骤任务自动化、Chrome浏览器内的智能研究与代办、基于上下文理解的智能填表、将口语实时整理成书面稿的“Rambler”功能,以及用自然语言生成自定义主屏幕Widget。这些功能均在用户指令下执行,并注重隐私与控制权。

Sundar Pichai: Today at the @Android Show (I/O edition) we announced Gemini Intelligence - bringing the best of Gemini to our most adva...

智能体Google产品更新多模态
07:57
Chubby♨️@kimmonismus
55
Thinking Machines创造了OpenAI一年半前承诺我们的先进语音模式。 就这样,我说出来了。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音
07:49
Berryxia.AI@berryxia
65
Gemini Intelligence官宣:赋能高端Android设备主动助手

Google推出Gemini Intelligence,将Gemini AI能力深度整合到高端Android设备,使其从聊天工具转变为主动助手。它整合高端硬件和创新软件,帮助用户提前一步、主动完成任务,例如跨App自动操作、表单填写、语音转流畅文字和创建自定义小部件。功能将从今年夏天开始分批上线,首批在三星Galaxy和Google Pixel设备落地,后续逐步覆盖更多Android设备。

Google: Today, we introduced Gemini Intelligence, which brings the best of Gemini to our most advanced devices. Gemini Intellige...

智能体Google产品更新语音
07:39
IT之家(RSS)
45
苹果 iOS 27 前瞻:相机 App 支持全面自定义且 Siri 迎来重大重构,Safari 和天气设计焕新

据报道,苹果 iOS 27 将对相机 App 进行重大升级,支持用户完全自定义界面控件布局。Siri 将重构为全天候智能体,集成于灵动岛,并新增可切换第三方 AI 服务的系统搜索功能。Safari 浏览器将更新起始页设计,天气应用新增集成信息面板。此外,多个系统应用的底部标签栏将调整,主屏幕编辑新增撤销/重做功能。该系统预计于2026年6月9日WWDC正式发布。

产品更新搜索语音
06:38
Demis Hassabis@demishassabis
精选81
团队正在用AI重新构想鼠标指针,成果非常酷!在@GoogleAIStudio尝试原型版本,体验相当神奇。 【引用 @GoogleDeepMind】:我们正用AI重新构想这个存在50年的界面--鼠标指针。🖱️ 这些实验演示展示了人们如何通过动作、语音和自然简写,在屏幕上直观操控Gemini完成任务🧵

Google DeepMind: We're reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️ These experimental demos show how people ca...

Google产品更新多模态语音

推荐理由:用了50年的鼠标指针第一次被AI改造,这个原型让你在屏幕上随手画圈、说话、打缩写就能控制Gemini,产品经理和设计师都该去玩一下。
05:05
🚨 AI News | TestingCatalog@testingcatalog
63
Meta推出Muse Spark驱动的AI语音对话与实时视觉交互功能

Meta宣布推出由Muse Spark驱动的AI语音对话功能,支持自然语言交流、实时生成图像及从Reels、地图等多源获取信息。该功能将整合至Meta AI应用的新语音模式和实时摄像头视图中,用户可通过摄像头对现实世界进行实时问答。购物模式新增了搜索Facebook Marketplace等能力。Muse Spark将逐步在Ray-Ban Meta等智能眼镜上于美加推出,并于今夏登陆Meta Ray-Ban Display,其智能能力也将扩展至WhatsApp、Instagram等全平台的多类场景中。

Meta Newsroom: Today we're introducing Meta AI Voice Conversations powered by Muse Spark that let you talk naturally to Meta AI (interr...

Meta产品更新图像生成多模态
05:03
DogeDesigner@cb_doge
40
Grok Voice在真实世界语音AI基准测试中占据主导地位 🔥 τ-voice Bench 🥇 • 🏆 综合排名第一 → 67.3% • 🏆 零售业第一 → 62.3% • 🏆 航空业第一 → 66% • 🏆 电信业第一 → 73.7%
xAI评测/基准语音
05:03
DogeDesigner@cb_doge
57
xAI的Grok Voice Think Fast 1.0刚刚以73.7%的得分在Telecom Pass@1评测中夺得第一名🥇
xAI模型发布语音
05:02
Elon Musk@elonmusk
48
Artificial Analysis 发布首个语音到语音(S2S)模型智能体性能基准测试τ-Voice,模拟包含口音、噪音和网络丢包的复杂客服场景。测试显示,当前最强S2S模型仅能端到端解决约一半的真实任务,与顶尖文本智能体存在差距。xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先,平均对话时长5.6分钟;OpenAI的GPT-Realtime系列与谷歌的Gemini紧随其后。该领域发展迅速,排名可能随模型更新而变动。

Artificial Analysis: Announcing agentic performance benchmarking for Speech to Speech models on Artificial Analysis. We use τ-Voice to measur...

xAI评测/基准语音
04:35
宝玉@dotey
68
Codex App 可以当 Typeless 用,开启全局快捷键设置正确权限后就可以在任意输入位置语音输入,效果还不错。 比如说这一段文字就是Codex帮忙输入的。
OpenAI教程/实践语音
04:32
Elon Musk@elonmusk
40
试试Grok Voice 【引用 @XFreeze】:Grok Voice Think Fast 1.0 在Artificial Analysis τ-Voice基准测试中位列第一,专注于实际场景的自主客户服务解决 以巨大优势绝对领先于GPT-Realtime-2(高级版)和Gemini 3.1 Flash 相比OpenAI几天前刚发布的最佳模型领先幅度超过12% Grok正在运行实时后台推理且无延迟惩罚,因此已能自主大规模处理实时的Starlink电话业务

X Freeze: Grok Voice Think Fast 1.0 ranks #1 on the Artificial Analysis τ-Voice benchmark for real-world agentic customer service ...

xAI产品更新语音
00:54
Suno@suno
51
你的演示项目墓地刚刚迎来复活
产品更新语音
00:30
Artificial Analysis@ArtificialAnlys
62
语音智能体性能基准发布,顶尖模型仅能处理半数真实客服场景

Artificial Analysis推出语音智能体基准测试𝜏-Voice,用于评估客服场景中的工具调用与多轮对话能力。测试显示,当前最强语音到语音模型仅能端到端解决约一半的真实任务,与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下,xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先,平均对话时长5.6分钟;OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。

智能体OpenAIxAI多模态
5月12日
21:40
The Decoder:AI News(RSS)
66
Thinking Machines Lab发布首款模型,主张交互性才是OpenAI语音技术的误区

由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型,旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块,并行处理音频、视频和文本信息,专注于提升实时交互的流畅性与自然度。公司宣称,这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live,致力于推动语音助手向更自然、非问答式的对话体验演进,从而重新定义人机交互方式。

多模态模型发布语音
16:49
歸藏(guizang.ai)@op7418
41
移动端的语音输入法必须带全键盘,但是桌面端的语音输入法最好跟输入法本身解耦。 Typeless 犯了前一个错误,豆包犯了后一个。
大佬观点语音
13:29
Greg Brockman@gdb
65
让AI代理参与你的会议是一种极具未来感的体验: 【引用 @OpenAIDevs】:如果你的团队进行站会汇报时,GPT-Realtime-2自动处理任务工单呢?

OpenAI Developers: What if your team gave standup updates, and GPT-Realtime-2 moved the tickets?

智能体OpenAI产品更新语音
12:01
Rohan Paul@rohanpaul_ai
62
Thinking Machines 推出"始终在场"AI模型,革新传统轮替式交互

Thinking Machines公司发布了TML-Interaction-Small模型,旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构,将音频、视频和文本流切分为200毫秒的微轮次,使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟(0.40秒)的同时,保留了强大的推理与指令遵循能力,且交互性直接内建于模型架构,而非依赖外部组件拼凑实现。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态模型发布语音
11:36
IT之家(RSS)
37
鸿蒙智行 / AITO App 更新 3.0.1.300 版本,新增支持华为 HarmonyOS 6 小艺语音控车

华为“鸿蒙智行”与“AITO”车控App于5月9日和12日更新至3.0.1.300版本,核心新增对HarmonyOS 6小艺语音控车的支持。此次更新扩展了语音控车功能,用户可通过小艺助手执行车辆解锁/上锁、打开/关闭后备箱以及针对纯电车型开启前备箱等指令,实现了更丰富的无接触控车方式。该功能此前已在HUAWEI WATCH 4系列手表上提供。

产品更新语音
10:58
Alibaba Cloud@alibaba_cloud
42
🤖 本周在澳门举办了强大的AI赋能研讨会 从粤语语音识别到更快的行政审批和更智能的医疗--研讨会证明AI的真正价值在于解决本地问题。 💪 想了解AI如何为您的澳门业务赋能?欢迎联系我们:https://alidocs.dingtalk.com/notable/share/form/v01eLbnj1bwvmGv0laN_hERWDMS_R0UsZXb?source=link #AlibabaCloudISV #AIforMacau #AInnovation
行业动态语音
08:59
Ethan Mollick@emollick
65
gpt-realtime-2 是一个出色的语音模型(名字却沿袭了OpenAI一贯的糟糕风格)。 语音模型本质上是处理语音,而非转录语音,因此模型的智能程度至关重要。 旧版语音模型是 GPT-4o 级别,而新版则智能得多(有多智能?OpenAI未提供基准测试数据)。
OpenAI多模态大佬观点语音
07:10
Nathan Lambert@natolambert
46
这是那个让我感到真正不同的演示--模型和用户同时说话!太棒了。 祝贺发布 @thinkymachines

Thinking Machines: With the model's simultaneous speech capability, Horace has gotten a lot easier to work with recently.

产品更新多模态语音
06:49
Berryxia.AI@berryxia
58
未来AI协作新形态:像人一样实时并行交互

Thinking Machines公司突破传统AI轮流对话模式,提出并实现了一种模拟人类实时协作的交互模型。该模型允许AI在对话中自然插话、跟踪对方思考、自我纠错并邀请回应,同时能并行执行听、说、搜索、绘图等多任务。演示显示,AI能在陪伴讲故事、团队知识竞赛等场景中进行实时且隐蔽的协作。其核心在于还原人类协作“混乱”并发的本质,推动AI从被动助手转向真正的工作伙伴,标志着交互方式的重大进步。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

智能体产品更新多模态语音
06:35
swyx 🌉@swyx
64
我相信年轻人会这样形容:"@thinkymachines 刚刚残酷碾压了gdm和oai"。 基本上所有人的"实时"定义都得到了巨大升级。

swyx 🌉: lowkey the funniest videos of the batch. thinky has some comedians!! congrats to @thinkymachines on reviving the omnimod...

多模态模型发布视频语音
‹ 上一页
1…1011121314…19
下一页 ›