华为于5月20日宣布,AI眼镜钛丝半框光学镜方形款于当日10:08开启预售,售价2499元。该产品采用轻量化设计,镜架重35.5克,镜腿薄至6.25毫米,搭载华为自研AI芯片,支持小艺AI、支付宝看一下支付等功能。配备1/2.8英寸大底传感器与AI构图技术,可进行第一人称视角视频直播。综合续航达12小时,支持连续8小时语音通话。
华为于5月20日宣布,AI眼镜钛丝半框光学镜方形款于当日10:08开启预售,售价2499元。该产品采用轻量化设计,镜架重35.5克,镜腿薄至6.25毫米,搭载华为自研AI芯片,支持小艺AI、支付宝看一下支付等功能。配备1/2.8英寸大底传感器与AI构图技术,可进行第一人称视角视频直播。综合续航达12小时,支持连续8小时语音通话。
苹果宣布在 iOS 27、iPadOS 27 和 macOS 27 系统中,深度集成 Apple Intelligence 到无障碍功能。语音控制通过整合 AI,新增自然语言输入,用户可描述屏幕内容如“点开最佳餐厅指南”来操作设备,无需记忆按钮。VoiceOver 升级加入图像探索器,细致描述视觉内容;放大器支持口头指令;无障碍阅读器扩展适配复杂材料,并提供摘要与翻译功能。此外,Agentic 智能体能力将应用于新版 Siri,使其能理解屏幕内容并执行操作。
Introducing Antigravity 2.0, a new standalone desktop application that delivers fully on that original glimpse of a trul...
在 Google IO 2026 大会上,Google 宣布扩展 Gmail 的 AI 收件箱功能。用户现在可以通过对话式语音搜索,直接与收件箱交互,使用 Gemini 快速查找和提取被埋没的电子邮件细节。该功能旨在简化邮件检索流程,提升操作效率。
@joshwoodward The Rio accent is spot-on! I don't know of any other audio model that can do that.
WavFlow挑战了音频生成依赖潜空间压缩的范式,提出了一种直接在原始波形空间生成高保真音频的框架。为解决高维信号建模难题,方法将音频重塑为二维令牌网格并引入幅度提升,结合流匹配的直接预测实现稳定优化。通过自动化管线构建500万高质量三元组数据集,模型从零学习细粒度声学特征。实验显示,WavFlow在视频到音频(VGGSound)和文本到音频(AudioCaps)基准上达到与主流潜空间方法相当甚至更优的性能,证明了中间压缩并非必要,为多模态音频生成提供了更简洁可扩展的路径。
谷歌在2026年I/O开发者大会上宣布升级Google Workspace,将Gmail、Docs、Keep等工具整合为支持自然语音交互的协作助手。核心新功能包括:可通过语音直接检索邮件内容的Gmail Live、支持口述起草与格式整理的Docs Live,以及能自动将零散想法整理成清单的Keep更新,旨在将办公流程从点击输入转向更自然的语音交互。此外,谷歌还推出了基于Nano Banana模型的独立图像编辑应用Google Pics,支持对图像进行精确的局部对象分割与修改。
Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能,并推出了一款名为 Google Pics 的全新设计工具。同时,其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验,通过集成更智能的工具和交互方式,帮助用户更便捷地完成多项任务。
We asked our agents to build a working operating system from scratch using @Antigravity 2.0 and Gemini 3.5 Flash. It too...
语音AI因处理用户原始的思考与未完成的草稿等敏感输入,面临着比其他AI工具更严峻的隐私挑战。Typeless旨在通过“隐私优先”的设计在存储层解决这一问题。其核心原则包括零云端数据留存、绝不使用用户数据训练模型,并将历史记录完全存储在本地设备上。该公司现已通过ISO 27001信息安全标准认证。这一系列举措旨在向用户和企业证明,其产品能够有效保护用户的思考过程和工作内容,从而推动语音优先AI技术的普及。
Voice-first AI products touch some of your most private data: Your raw thoughts. Your unfinished drafts. Your unfiltered...
Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型,基于 Qwen3.5-Omni 架构,支持实时多模态翻译(音频、视频及视觉上下文)。语言覆盖大幅扩展:输入音频与输出文本从18种增至60种,输出音频从10种增至29种。采用 Readable Unit 技术,平均端到端每 token 延迟降至2.8秒,相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。
影石今日发布旗舰级无线麦克风Mic Pro,首次搭载支持六色显示与自定义图案的彩色墨水屏,并首创三麦克风阵列,可实现四种指向拾音模式。该产品内置NPU模块以支持AI降噪,支持32-bit浮点内录。其单发标准零售价698元,即日起至6月21日享限时福利价528元起。Mic Pro具备最长10小时单次续航、400米无线传输距离及32GB内置存储,可直连影石多款相机,同时兼容手机与微单等设备。
宇树科技于5月19日发布一镜到底演示视频,展示了其G1人形机器人通过语音指令自主实时生成任意动作的能力。该技术突破在于无需预设动作,由AI系统根据语音直接驱动机器人实时生成动作,实现了真正的语音控制与动作生成闭环。演示过程中存在少量延迟,动作流畅度有待优化。G1机器人于2024年发布,具备23至43个关节电机,体重约35kg,身高约127cm,并配备力控灵巧手。
一年前的今天,是个特别的日子。 那天我们发布了第一款产品 ListenHub。 在今天看来,ListenHub 是个小而美的产品。 这款产品虽小,对我们而言意义却很大。 那是这个成立半年的小团队第一次发布产品,把自己推到真实的世界。 后来,...
Odyssey AI实验室发布了Starchild-1,这是全球首个实时多模态世界模型。该模型不仅能生成视频画面,还能同步生成与之匹配的声音,实现了视觉与听觉的真正融合,模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同,Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步,旨在重新定义AI对现实世界的认知与模拟方式。
Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...
Mega-ASR是一个应对真实环境噪声与失真的统一语音识别框架,旨在突破现有模型面临的声学鲁棒性瓶颈。该研究发布了新的大规模复合数据集Voices-in-the-Wild-2M,涵盖7种经典声学现象与54种符合物理规律的复合干扰场景。通过声学-语义渐进式监督微调与双粒度词错误率门控策略优化进行训练,Mega-ASR在多个基准测试中显著超越先前系统:在VOiCES测试集上词错误率从54.01%降至45.69%,在NOIZEUS上从29.34%降至21.49%。在复杂组合声学场景下,其词错误率相对强基线进一步降低超过30%,为构建稳健的实景语音识别系统确立了可扩展的技术范式。
研究人员发现主流语音人工智能系统存在安全漏洞,容易受到隐藏式音频攻击。攻击者可在正常音频中嵌入人耳无法察觉的恶意指令,从而绕过安全检测,操控系统执行未授权操作。这项研究揭示了当前语音交互技术面临的新威胁。
美国人工智能研究机构Andon Labs开展了一项实验,让多个生成式人工智能系统共同运营三座全自动化广播电台。这些AI负责从节目策划、内容创作到音乐播放的全流程工作。实验数据显示,AI生成的内容获得了听众的积极反馈,项目在科技社区Hacker News上获得超过100点热度。这标志着AI在创意媒体自动化运营领域的实际应用探索。
PolyAI研究证实,专为客服设计的较小模型Raven 3.5,在性能上显著超越了规模大其100倍的通用前沿模型。该模型在所有四项客服基准测试中击败GPT-5和Claude Sonnet 4.6,并将响应延迟控制在300毫秒内。这项发布同时包括ADK代码开发工具包和PolyPhone网页语音生成工具,助力企业快速构建生产级语音代理。此举旨在将企业语音AI从大型项目转变为可快速部署的基础设施,从而有效解决客服等待时间长、成本高等问题,提升服务效率与客户体验。
PolyAI现已向所有企业开发者开放其Agentic Dialog平台,将语音AI服务从高昂的年度合约变为可通过终端免费试用的产品。该平台的核心目标并非语音识别,而是攻克在通话中动态追踪复杂、多变的人类意图这一难题。其专有模型Raven将代理行为直接内置于模型本身,避免了冗长提示词在复杂对话中的失效问题。该模型已为FedEx等大品牌处理超10亿次对话。平台支持集成Raven或GPT-5等外部模型,使任何团队都能轻松构建、测试并部署企业级对话智能体。
Starting today, we're opening our Agentic Dialog Platform to every enterprise builder. Our dialog agents have resolved 1...
理想汽车为AI眼镜Livis推送1.8.50固件升级,理想同学App同步升级至2.5.0。本次OTA更新新增5项功能,优化11项功能。全新理想L9首发支持通过AI眼镜语音指挥泊车,新增哨兵模式高风险提醒、英文唤醒词、语音唤醒开关及三种唤醒反馈选择。同时优化了蓝牙电话拨打体验、运动中视觉问答清晰度和视频颜色饱和度。
摩尔线程发布了MTT AICUBE智能硬件,聚焦家庭应用场景。该产品内置小麦智能体,支持用户通过语音指令点播影片、规划旅行行程,并可连接手柄畅玩《王者荣耀》《原神》等手游。其依托全功能GPU提供低延迟操控与即插即用体验,旨在填补国产GPU在端侧安卓生态的应用空白,并为开发者提供高性价比测试平台,以推动国产GPU生态的规模化落地。
5月18日,豆包 App 在国际博物馆日上线“博物馆讲解”功能,用户点击对话框内按钮即可通过视频通话获得展品自动识别与个性化讲解。该功能支持轻声提问和“边走边听”模式,无需逐次交互。目前,豆包已合作覆盖中国国家博物馆、浦东美术馆等20余家博物馆和美术馆,并与其中5家机构达成深度合作,成为其重磅展览的官方AI讲解员。
亚马逊将其Rufus购物聊天机器人与Alexa+整合,正式推出全新购物助手Alexa for Shopping。该功能已部署至亚马逊应用、网站及Echo Show设备,可回答商品咨询、比价、追踪价格并设置购物提醒。助手还支持计划性购物操作及符合条件的自动购买服务。此次更新标志着Rufus从独立界面转为底层支持,进一步强化亚马逊在智能购物领域的生态整合。
Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式,向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架,将视觉、听觉输入与语音、文本输出对齐到统一时间轴,实现感知与响应的同步。作为实践,开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说,并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破,使实时、自然的类人对话成为可能,且已具备代码、权重及边缘部署方案。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
据彭博社报道,苹果将在下月WWDC上发布全新的独立Siri应用测试版,并随iOS 27正式推出。新版Siri核心升级包括:采用谷歌Gemini大模型增强能力,但数据处理在苹果私有云端进行,以保护隐私;支持聊天记录自动删除功能,用户可设置30天、1年或永久保留;提供全新对话界面和短信样式的列表界面;新增全局快捷手势一键唤起。即使秋季正式推送,该版本仍将保留测试版标识,用户可选择退出测试体验。
微信鸿蒙版 App 于5月17日在华为应用市场发布8.0.17.38尝鲜版本,测试期至6月16日。本次更新虽官方说明为修复问题,但实际新增多项功能,主要包括:视频号支持修改资料、新注册、双击点赞及直播选项扩展;听一听板块新增“歌曲制作”和“音乐空间”,支持AI写歌与翻唱;卡包灰度开放会员卡功能;并灰度支持与“元宝”聊天。此外,新版本还优化了二维码界面,并支持跨平台扫描传输文件。微信鸿蒙版安装量已突破5500万次。
小米卢伟冰澄清,新AI交互测试产品miclaw不会取代小爱同学。未来miclaw将与超级小爱合体,将其能力融入小爱中,从而赋能并增强小爱的功能。用户界面仍为超级小爱,但后台将获得miclaw的支持,使其变得更聪明、更能干。Xiaomi miclaw基于小米MiMo大模型构建,是国内首款手机端AI智能体应用,已于3月6日上线并开启小范围封测。
OpenAI已完成对小型初创公司Weights.gg的收购,该公司此前以提供泰勒·斯威夫特、唐纳德·特朗普等名人AI声音克隆服务而知名。约六人规模的团队现已加入OpenAI。不过,OpenAI明确表示暂无计划将此项技术作为独立产品向公众发布,此次收购主要着眼于团队与技术整合。
OpenAI 于今年早些时候低调收购了AI声音克隆初创公司Weights.gg,获得了其全部知识产权和约六人团队。Weights.gg的平台允许用户创建AI语音翻唱和进行文本转语音,其社区模型库包含大量未经授权的名人声音模型。OpenAI自身已开发出仅需15秒音频即可克隆语音的Voice Engine技术,但因滥用担忧尚未广泛开放。公司正将语音技术整合进商业化产品,并调整业务以聚焦创收。此次收购也使其更深地卷入声音克隆技术引发的版权争议之中。
Violin项目在保留核心的视频多语言翻译功能基础上,进行了多项迭代升级。新版本支持用户为目标语音选择多种角色和音色,并能在翻译成多国语言后克隆原始音色。同时,项目继续保持对多语言翻译后字幕导出的支持。这些改进旨在优化用户体验,使工具更适用于制作面向海外市场的视频播客内容。
追觅发布了一款名为 D·NOTE 的 AI 录音名片,主打一键录音、转写和总结功能。产品重30克,支持145种语言的在线秒速转写,并内置超过1800个中文模板以智能匹配总结。它还具备说话人识别功能,最大工作距离5米,最多可识别35人。此外,该设备支持NFC传输电子名片,内置电池提供最长30小时续航。产品提供8GB和64GB两个存储版本,首发价分别为899元和999元。
这个项目也可以直接 # 安装成 Claude Code skill 命令:violin --install-skill 以后就可以直接这样:violin input.mp4 output_zh.mp4 --language Chinese ...
三名大学生回归耳朵工作机制,运用第一性原理,开发出一款售价仅19.99美元的纯机械仿生助听器。该装置无需电池电路,通过3D打印和AI个性化适配,模仿鼓膜与听小骨的自然声学放大机制。传统助听器价格高达数千美元,此创新为全球8亿听力损失人群,尤其是负担不起昂贵设备或缺乏医疗资源的群体,提供了可及性解决方案。目前产品适用于轻中度听力损失,虽未获完整医疗器械认证,但已展现通过低成本技术普惠大众的潜力。
They reinvented the hearing aid by studying the human ear Normal hearing aid: $4700 Theirs: $20
牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。
🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...
兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单...
Anthropic发布Claude Code大型代码库实践指南,强调Harness配置(如CLAUDE.md、Hooks)与模型能力同等重要,是决定实际体验的关键,并指出RAG在高速迭代代码库中存在时效性局限。同时,OpenAI通过Build Hour解析GPT-Realtime-2,展示语音Agent正从聊天机器人演进为“语音→行动”的自主工作流。此外,当AI将开发周期从月压缩到小时,效率提升正引发协作方式与组织结构的重构难题。