美国保险公司Travelers与OpenAI合作,构建了一款AI驱动的Claim Assistant。该工具旨在引导客户完成理赔流程,并提供全天候支持,以在业务高峰期扩展运营规模。
美国保险公司Travelers与OpenAI合作,构建了一款AI驱动的Claim Assistant。该工具旨在引导客户完成理赔流程,并提供全天候支持,以在业务高峰期扩展运营规模。
xAI正在全球招聘“中文AI导师”,以训练其AI模型Grok的中文语音交互能力。核心工作是整理与标注高质量音频数据,以改进Grok的多语言语音识别与理解。应聘者需母语为中文,并具备至少英语B2水平。该职位提供全职、兼职或合同工等多种形式,支持全程远程办公。美国境内候选人的时薪为35-45美元。
微信正与华为、荣耀、小米、OPPO、vivo 等手机厂商合作推出 A2A(Agent-to-Agent)助手能力。用户可通过手机语音助理发起微信音视频通话或向指定好友发送消息。该功能由厂商 AI 助手向微信发起指令,微信负责执行并返回结果,采用双重授权机制保障数据安全。相关功能正在逐步开放中,荣耀的部分手机已率先支持。
GrapheneOS 语音服务 2.0 版正式发布,该服务为 GrapheneOS 移动操作系统提供语音相关功能。此版本更新的具体内容和功能改进未在来源中详细说明。
苹果WWDC26开发者大会将于北京时间6月9日凌晨1点开幕。本届大会以“All systems glow”标语预热,这改编自“一切就绪”,被外界解读为暗示即将登陆iOS 27的Siri界面改版,可能包括推出独立App及在灵动岛新增功能,并采用深色UI与发光视觉元素。大会首场发布会将正式发布iOS 27等全系列新系统,并通过苹果官网及YouTube直播。
🤳 Agentic OS for a Phone A voice-first mobile OS. Users talk, agents answer, and they can take action across the phone....
Artificial Analysis 团队推出 AA-WER Streaming 基准,用于评估流式语音转文本模型在语音智能体场景中的表现,主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示,Cartesia Ink-2 在最终转录准确性上领先,词错率为 3.59%,延迟为 210ms;ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后;Deepgram Flux 延迟最低(约 20ms),但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。
录音学院 CEO Harvey Mason Jr. 指出,人工智能在音乐制作中已“无处不在”。流媒体平台 Deezer 报告,每天有超过 5 万首 AI 生成歌曲被上传,这类内容越来越难以识别和过滤。Suno 等工具已成为各类音乐家主流创作流程的一部分。尽管如此,录音学院的规则规定,AI 音乐不具备获得格莱美奖这一行业最高荣誉的资格。
微信安卓版发布 8.0.74 测试版,版本号追齐 iOS。本次更新以灰度功能覆盖为主,全量上线了照片“分享为贴图”、公众号留言显示绿色“首评”标识以及转账支持勾选最多两种付款方式的组合支付功能。同时,朋友圈页面样式改版、发送三张及以上媒体可选择合并展示等多个功能仍在灰度测试中。
京东JoyInside将大模型技术嵌入多款儿童产品,包括AI毛绒公仔、小龙AI魔法益智打印机、京造AI台灯和小鸡球球点读笔,实现语音交互、伴读、双语互动等功能。六一前夕(5月最后一周),搭载JoyInside的AI终端销量环比4月同一周增长535%;小龙AI魔法益智打印机在618开门红4小时内销量环比激增17倍。
华为在 nova 16 系列发布会上发布了 FreeClip 2 耳夹耳机典藏版,定价 1499 元。该产品采用鎏光宝盒与珠宝盒设计,充电舱内部空间提升 20%,并与周大福合作推出专属配饰。耳机提供星海蓝、珠光银两款配色,柔软度提升 25%,并配备专属 AI 键,支持智能体交互。
开发者使用Three.js,耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游,并接入Agora ConvoAI实时语音Agent,使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆,将历史文化与AI能力场景化结合。该开源项目(GitHub Pages)代码结构清晰,旨在为创作者提供一个可复用的数字文旅样板。
http://x.com/i/article/2060375125825036288
Congrats to the @MiniMax_AI team on the release of M3! 👉 A frontier-class open-weight model 👉 1M context window 👉 Nat...
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)本教程介绍了如何构建一个名为《大唐长安》的Web 3D互动项目。项目基于Three.js搭建低多边形风格的长安城沙盘,玩家可通过WASD模式在其中漫游探索。核心玩法包括与多种NPC进行语音对话、参与飞花令等诗词小游戏。项目集成了Agora实时语音能力,通过Agora Skills(技能)和Agora CLI工具完成Agent集成与环境配置,使玩家能通过麦克风与李白等角色实时语音交流。此外,项目还设计了将现代AI品牌融入游戏的唐风AI展馆。
华为AI眼镜“钛丝半框光学镜方形款”今日开售,价格2499元。该眼镜采用钛银灰配色,镜腿薄至6.25毫米,镜架重35.5克。其内置华为自研AI眼镜芯片,支持语音唤醒、AI快捷键、小艺看世界及支付宝看一下支付等功能。拍摄方面配备1/2.8''大底传感器与AI算法。综合续航达12小时。
Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...
🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...
Anthropic is not a coding company. It is an intelligence company that chose to focus on coding first. As Claude's intell...
Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...
黑鲨首款AI智能耳机“凤鸣耳夹式耳机Pro”在京东独家首销,到手价299元。耳机单耳重5g,搭载蓝牙6.0,支持LHDC 5.0协议与13mm镀钛复合振膜,提供游戏、音乐、影院三种音效并支持ENC通话降噪。其AI功能包括同声传译与对话翻译。耳机单次续航9小时,搭配充电仓总续航达30小时,并具备IPX5防水和双设备切换能力。
Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...
文章对2026年领先的商用与开源权重文本转语音(TTS)模型进行了排名对比。评估维度包括语音质量、延迟、成本、语言覆盖范围及许可协议,旨在帮助工程师根据具体应用场景选择合适的模型。
微信鸿蒙版 App 在华为应用市场推出 8.0.18.34 版本尝鲜升级,测试期为 2026/5/30 至 2026/6/29。该应用安装量已超 5000 万次。本次更新主要包括:将“歌曲制作”变更为“音乐回声”,并引入 AI 翻唱模型;聊天界面图片/视频支持横屏自动旋转;新增 AI 搜索功能(部分场景可用);以及视频号、通讯录、设置等多处界面与功能优化。
OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...
🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...
作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。
苹果iOS 27或将对Siri进行大改造,将其转变为类似ChatGPT的独立聊天App,并可能整合进灵动岛。核心变化是允许Siri接入ChatGPT、Gemini、Claude等多种外部AI模型。交互界面将变为“Search or Ask(搜索或提问)”,体验更偏向对话式。
小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley,旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现,其代码、模型权重和在线 Demo 均已开放。
京东JoyInside与ZORICAM联合推出小龙AI魔法益智打印机,集故事机、聊天机器人、打印机、学习机于一身。产品搭载京东自研JoyAI大模型,首创面向儿童的“情景式对话+打印”交互:唤醒“小龙”后通过语音指令即可生成画作并打印成专属贴纸,还能在对话中理解语境主动提出打印建议。硬件支持WiFi连接,续航超48小时。
ChildVox 是一个用于评估AI模型对儿童多样化声学信号理解能力的新基准。它覆盖了从出生到学龄的完整发展轨迹,包含生理声音、非语言发声、规范音节和口语语言。该基准整合了17个儿童音频与语音数据集中的20多个子任务,实现了系统性跨语料库、跨领域比较。我们评估了自监督、面向ASR及大型音频-语言模型三类基础模型,任务涵盖生理声音分类、发声与规范音节建模、语音质量评估与识别。结果表明,ChildVox提供了一套高性能模型,能够识别广泛的儿童声学信号,支持下游应用,如表征儿童语言水平和追踪语音发展。
针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题,本文提出了NAVA(原生音视频对齐)框架。该框架在专用交互空间建立音视频对应关系后,利用外部上下文条件化联合去噪过程。具体实现上,NAVA采用Align-then-Fuse MMDiT架构,并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明,NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。
ElevenLabs 推出 Dubbing V2,一个端到端的AI配音模型。它突破了传统“转写-翻译-合成”的拼接流程,直接基于原始表演建模声音,从而将说话者的音色、情绪和演绎完整迁移到目标语言中。该模型支持 90 多种语言和口音,支持音频、视频及文本输入。其核心能力包括跨语言音色克隆、情绪演绎保留、输出时长与原片口型同步,以及本地化自然表达。演示视频展示了其在多语种无缝切换、快节奏对白及故事叙述中的应用效果。
OpenSTBench 是一个统一的多维评估框架,将语音翻译系统(S2TT 和 S2ST,涵盖离线与流式两种模式)输出转化为共享评估格式,联合评测翻译质量、语音质量、说话人保留、情感与副语言保真度、时间一致性以及延迟。实验表明,翻译质量强的系统在语音质量和时间质量上仍存在显著差异。代码与数据集已开源至 GitHub。
SwanVoice 是一个支持 1-4 位说话人的零样本文本转语音(TTS)模型,旨在解决现有方法在合成富有表现力的长对话时推理成本高、声学一致性和情感连贯性差的问题。模型基于 SwanData-Speech 数据集构建,采用 25Hz VAE 与带停顿感知符号的原始文本条件处理,并结合具有说话人轮次条件的 flow-matching DiT。训练从独白数据开始,逐步过渡到真实对话数据,并使用 DiffusionNFT 进行后训练。在 SwanBench-Speech 评测中,SwanVoice 在独白和对话设置下的丰富性与层次性分数均优于所有开源基线,但内容准确性仍是主要限制。音频 demo 已上线。
针对实时高质量空间音频生成中存在的质量与延迟权衡及多模态空间信息捕捉难题,本文提出了SwanSphere。这是一个统一的流式框架,用于从全景视频和文本提示生成高保真空间音频。其核心贡献在于:1) 提出了一种因果自回归扩散Transformer架构,实现了流式的高质量生成;2) 设计了空间视频-音频对比学习策略来对齐视频编码器与声学域,并结合多目标在线直接偏好优化,增强了空间感知与多模态合成的鲁棒性;3) 开发了一个自动标注流程,用于生成详细的空间描述,以缓解数据稀缺问题。实验证明,SwanSphere在视频到空间音频和文本到空间音频任务中均表现优异。
Introducing Dubbing v2, our revolutionary new dubbing model. For the first time, the emotion and performance of the orig...