EVA-Bench是一个端到端语音智能体评估框架,解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真,并提出了衡量任务完成度、音频保真度的EVA-A指标,以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集,采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现,无系统能在两项核心指标上同时超过0.5,峰值与可靠性能差距显著,且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。
EVA-Bench是一个端到端语音智能体评估框架,解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真,并提出了衡量任务完成度、音频保真度的EVA-A指标,以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集,采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现,无系统能在两项核心指标上同时超过0.5,峰值与可靠性能差距显著,且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。
针对多语言ASR模型微调中出现的“录音室偏差”问题,本研究发布了Vividh-ASR基准,涵盖印地语和马拉雅拉姆语的四个语音复杂度层级。通过控制学习率时机与课程顺序的实验发现,早期大参数更新可显著降低整体词错误率,而由难到易的课程顺序能进一步提升自发语音识别效果。据此提出的反向多阶段微调方法,使2.44亿参数的Whisper模型性能达到或超过传统微调的7.69亿参数模型。表征分析表明,有效调度将适应过程集中于解码器,同时保持了编码器的预训练声学结构。基准与模型均已开源。
前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。 这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。 除了全模态理解,据说 Agent、Coding、GU...
针对SAM2在音频模态整合上的不足,本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征,生成稀疏和密集提示,并基于SAM2的特征金字塔在视觉层间传播音频线索,以强化跨模态影响。同时,引入音频引导对比损失函数,进一步对齐音频与视觉特征。实验表明,该方法在公开基准上显著提升了准确率,同时将对SAM2可提示分割交互效率的影响降至最低。
Had tons of fun chatting with @sonyatweetybird about music and the future of entertainment
谷歌在Android活动中为Gboard输入法推出由Gemini驱动的AI语音听写功能Rambler。它能自动删除“呃”“啊”等填充词,并理解即时修正。其核心亮点是支持“代码切换”,可在同一句话中无缝识别多种语言且保持上下文连贯。谷歌强调,该功能不存储语音录音,结合设备端与云端处理以保障隐私。Rambler初期将于夏季在三星Galaxy和谷歌Pixel手机上推出,未来将扩展至更多Android设备。
vivo OriginOS 6 五月体验升级带来多项新功能。核心亮点是“小V修图”,用户可通过语音指令一句话完成照片编辑。相册功能大幅增强,新增多款色彩风格、可编辑水印、自定义集浏览页面布局以及文件夹日期分组视图。原子岛充电动画升级,可实时显示充电速度与电量。此外,小V写作新增剪切板快捷入口,竖屏锁定优化了旋转切换逻辑,智能车载支持切换手机版地图。其他升级还包括小V帮读入口、蓝心小V的问答样式与图文质量优化、新增多款原子组件模糊材质,以及网络与无障碍体验的改进。
Meet the 1st radio on X fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Live right ...
X平台推出了首个完全由AI运营的电台,全天候为AI构建者和创始人播报新闻。该电台实时追踪GitHub、HuggingFace等多个平台的动态,将分散信息整合成连续音频流。其核心挑战在于信息排序而非语音生成,系统需判断哪些代码更新、模型发布或社区讨论值得关注。电台拥有五位具备编辑判断力、记忆和个性的AI主播,他们不仅能播报信息,还会识别模式、发现矛盾并论证观点。内容涵盖突发新闻、工具趋势、融资动态及社区观点,旨在帮助用户高效把握AI领域重要动向。
Meet the 1st radio on X fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Live right ...
全球首个完全由AI运营的在线广播电台在X平台正式开播,专为创业者、开发者和建设者提供全天候AI领域资讯。该电台由五名具备独立编辑判断、记忆和个性的AI主播主持,不仅能实时播报几分钟内的突发新闻,还提供每30分钟一次的新闻综述、初创公司融资追踪、GitHub等平台的工具趋势分析,并整合社区讨论与行业真实观点。AI主播会主动收集信息模式、发现矛盾并形成论点进行实时辩论,而非单纯播报数据。节目辅以非干扰性环境音乐,旨在让听众在背景收听中高效获取深度行业洞察。
Meet the 1st radio on X fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Live right ...
小米汽车开始向第一代SU7推送OTA 1.16大版本更新,旨在对齐新款车型的功能体验。本次更新重点升级了辅助驾驶与智能座舱:辅助驾驶新增语音控车、收费站通行辅助、侧向避让辅助及针对异形障碍物的前向防碰撞辅助等功能;特别增加了疲劳分心下的应急停车辅助,触发后将自动减速停车并禁用辅助驾驶30分钟。智能座舱方面,超级小爱新增“小爱陪伴”和“AI智控”功能。此外,还引入了车主管理模式。多数新功能仅支持SU7 Pro和Max车型。
谷歌DeepMind发布了名为Magic Pointer的AI光标交互功能,旨在重构桌面端安卓系统的鼠标使用体验。其核心理念是让AI无缝融入用户当前工作流,通过识别光标位置和语音指令理解上下文,无需复制内容或输入完整提示词。该功能遵循四项原则:保持工作连续性、支持“边指边说”交互、理解“这个/那个”等自然指代、将屏幕像素转化为可操作实体。目前,谷歌已在AI Studio上线演示,并正将相关能力逐步集成至Chrome浏览器的Gemini中。
Meta发布了由Muse Spark驱动的Meta AI Voice Conversations,实现实时语音与视觉交互。该功能支持打断对话、切换话题,在聊天过程中生成图像和拉取内容,并能通过相机对准现实世界进行实时视觉问答。这一技术即将集成到Ray-Ban Meta智能眼镜中,提升穿戴设备的AI体验。
Google将Android重新定位为主动型AI系统,推出Gemini Intelligence。其核心在于深度软硬件结合,首发于三星Galaxy和Google Pixel手机,后续将扩展至手表、汽车等设备。五大核心能力包括:跨应用多步骤任务自动化、Chrome浏览器内的智能研究与代办、基于上下文理解的智能填表、将口语实时整理成书面稿的“Rambler”功能,以及用自然语言生成自定义主屏幕Widget。这些功能均在用户指令下执行,并注重隐私与控制权。
Today at the @Android Show (I/O edition) we announced Gemini Intelligence - bringing the best of Gemini to our most adva...
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
Google推出Gemini Intelligence,将Gemini AI能力深度整合到高端Android设备,使其从聊天工具转变为主动助手。它整合高端硬件和创新软件,帮助用户提前一步、主动完成任务,例如跨App自动操作、表单填写、语音转流畅文字和创建自定义小部件。功能将从今年夏天开始分批上线,首批在三星Galaxy和Google Pixel设备落地,后续逐步覆盖更多Android设备。
Today, we introduced Gemini Intelligence, which brings the best of Gemini to our most advanced devices. Gemini Intellige...
据报道,苹果 iOS 27 将对相机 App 进行重大升级,支持用户完全自定义界面控件布局。Siri 将重构为全天候智能体,集成于灵动岛,并新增可切换第三方 AI 服务的系统搜索功能。Safari 浏览器将更新起始页设计,天气应用新增集成信息面板。此外,多个系统应用的底部标签栏将调整,主屏幕编辑新增撤销/重做功能。该系统预计于2026年6月9日WWDC正式发布。
We're reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️ These experimental demos show how people ca...
Meta宣布推出由Muse Spark驱动的AI语音对话功能,支持自然语言交流、实时生成图像及从Reels、地图等多源获取信息。该功能将整合至Meta AI应用的新语音模式和实时摄像头视图中,用户可通过摄像头对现实世界进行实时问答。购物模式新增了搜索Facebook Marketplace等能力。Muse Spark将逐步在Ray-Ban Meta等智能眼镜上于美加推出,并于今夏登陆Meta Ray-Ban Display,其智能能力也将扩展至WhatsApp、Instagram等全平台的多类场景中。
Today we're introducing Meta AI Voice Conversations powered by Muse Spark that let you talk naturally to Meta AI (interr...
Announcing agentic performance benchmarking for Speech to Speech models on Artificial Analysis. We use τ-Voice to measur...
Grok Voice Think Fast 1.0 ranks #1 on the Artificial Analysis τ-Voice benchmark for real-world agentic customer service ...
Artificial Analysis推出语音智能体基准测试𝜏-Voice,用于评估客服场景中的工具调用与多轮对话能力。测试显示,当前最强语音到语音模型仅能端到端解决约一半的真实任务,与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下,xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先,平均对话时长5.6分钟;OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。
由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型,旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块,并行处理音频、视频和文本信息,专注于提升实时交互的流畅性与自然度。公司宣称,这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live,致力于推动语音助手向更自然、非问答式的对话体验演进,从而重新定义人机交互方式。
What if your team gave standup updates, and GPT-Realtime-2 moved the tickets?
Thinking Machines公司发布了TML-Interaction-Small模型,旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构,将音频、视频和文本流切分为200毫秒的微轮次,使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟(0.40秒)的同时,保留了强大的推理与指令遵循能力,且交互性直接内建于模型架构,而非依赖外部组件拼凑实现。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
华为“鸿蒙智行”与“AITO”车控App于5月9日和12日更新至3.0.1.300版本,核心新增对HarmonyOS 6小艺语音控车的支持。此次更新扩展了语音控车功能,用户可通过小艺助手执行车辆解锁/上锁、打开/关闭后备箱以及针对纯电车型开启前备箱等指令,实现了更丰富的无接触控车方式。该功能此前已在HUAWEI WATCH 4系列手表上提供。
With the model's simultaneous speech capability, Horace has gotten a lot easier to work with recently.
Thinking Machines公司突破传统AI轮流对话模式,提出并实现了一种模拟人类实时协作的交互模型。该模型允许AI在对话中自然插话、跟踪对方思考、自我纠错并邀请回应,同时能并行执行听、说、搜索、绘图等多任务。演示显示,AI能在陪伴讲故事、团队知识竞赛等场景中进行实时且隐蔽的协作。其核心在于还原人类协作“混乱”并发的本质,推动AI从被动助手转向真正的工作伙伴,标志着交互方式的重大进步。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
lowkey the funniest videos of the batch. thinky has some comedians!! congrats to @thinkymachines on reviving the omnimod...