亚马逊推出了AI可穿戴设备Bee,与其他同类产品类似,它在提供便利性的同时也引发了用户对隐私的担忧,这种便利与隐私焦虑的矛盾结合显得十分奇特。
亚马逊推出了AI可穿戴设备Bee,与其他同类产品类似,它在提供便利性的同时也引发了用户对隐私的担忧,这种便利与隐私焦虑的矛盾结合显得十分奇特。
作者分享了一个周末娱乐项目:一个用AI工具开发的Suno音乐生成播放器。该播放器已在线运行,支持电脑和移动端,但后台管理功能尚不完善,目前通过Skill进行音乐下载与上传。项目已开源。引用中补充了该播放器是使用ChatGPT内置的Codex工具在躺卧状态下完成开发的。
skill写好以后,躺床上也可以用ChatGPT中的codex开发网站了。 正在开发一个Suno音乐播放器,把AI生成的歌曲都传上去。
科大讯飞推出新一代智能办公本 Air 3 系列,包含 NEO、标准及 Pro 三个版本,均搭载 8.2 英寸墨水屏。全系支持离线 AI 功能并内置龙虾助手。售价分别为 2499 元、2999 元和 3599 元。
苹果宣布WWDC 2026将于北京时间6月9日凌晨1点开幕,并已注册全新子域名genai.apple.com,预示其在生成式AI领域的新动作。新版iOS 27等系统将集成大量Apple Intelligence功能,包括支持连续对话的Siri独立应用、视频实时字幕生成、自然语言语音控制以及扫描提取信息等智能工具。
StepAudio 2.5 Realtime 是一款实时语音交互模型。其核心优势在于能感知用户的副语言特征,如语气、节奏、停顿甚至轻叹,从而理解话语背后的真实意图。该模型支持通过 API 高度定制角色人格与说话风格,内置超过10,000种可组合的预置角色,并提供5种开箱即用的预设角色供体验。同时,模型经过RLHF优化,能在复杂的角色扮演压力测试中稳定保持设定的人设。支持中英文双语交互。
StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格,允许设定个性、背景故事和语言风格,并提供了上万种原生人格选项,可组合出数百万种特征。产品还内置了5个可直接体验的预设人格,并经过RLHF调优,确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。
Meet Colin, Lexi, and Gizmo. One is part of Gradium's GTM team. One is his dog. And one is the AI assistant he built him...
人们运用人工智能技术分析驾驶舱录音的频谱图图像,成功重建了已故飞行员的声音。这一行为迫使美国国家运输安全委员会(NTSB)临时封锁其文档系统的访问权限,以应对潜在的安全风险。该事件展示了AI在音频修复领域的实际应用,同时突显了数据管理、隐私保护及系统完整性方面的挑战。
网友利用语音合成技术,成功模拟并重现了已故飞行员的声音。此举挑战了美国国家运输安全委员会(NTSB)禁止公开驾驶舱录音的法律规定。变通手段规避了该禁令,引发监管机构对音频数据滥用与伦理问题的关注。
Cartesia公司最新发布的语音合成模型Sonic-3.5在Artificial Analysis Speech Arena排行榜上位居第一,超越了Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS等竞品。该模型支持42种语言(包括9种印度语言),提供超过500种声音选择。评测数据显示,Sonic-3.5以1,218的Elo分数领先,表现出自然的语音效果和准确的文本跟随能力。其定价为每百万字符39美元,高于竞品;生成速度为每秒105.5字符,介于其他两者之间。
OPPO Enco Air5s 耳机将于5月25日18:00正式发布。该新品重量仅3.9克,提供暗夜黑、星光紫、月光白三种配色,并支持旗舰级人声降噪算法与三麦AI通话降噪。耳机搭载12mm高解析巨形动圈单元,具备自适应听感优化与全设备空间音效,并号称“安卓苹果都好用”。功能上支持遥控拍照、AI翻译、滑动调节音量及跨设备双连等。
网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中,多模态模型(27B参数)专注于教育场景,在处理高难度视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率为81.4%。该模型通过思维链优化,将输出长度压缩43.2%,有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆,3秒内即可完成零样本复制,准确度超97%,并支持包括中、英、日、韩在内的14种语言。
安克推出了Liberty 5 Pro及Pro Max降噪耳机,全系搭载其自研的“Thus”AI芯片。该芯片提供20种语音指令并支持AI会议助手等智能功能。耳机采用自适应主动降噪4.0系统,配合多麦克风及传感器,号称实现“全球通话最清晰”。产品定价1399元起,享受国补后到手价1070.23元起。此外,耳机单次续航6.5小时(开启降噪),总续航达28小时,并支持蓝牙6.1和IP55防水。
网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。
江苏镇江网友使用豆包App预约餐厅后到店被拒,引发对AI“幻觉”现象的讨论。豆包官方回应称其App暂不支持实际餐厅预约。努比亚总裁倪飞发布视频回应,指出豆包App可能尚不支持真实预约功能,但搭载豆包手机助手的努比亚M153(豆包手机)可执行此类操作。在演示中,该手机通过系统级集成,根据用户语音指令自动完成餐厅筛选与预订,体现了AI指令直达服务终点的能力。努比亚M153是与字节跳动合作的工程样机,此前曾限量发售。
Stable Audio 3官方正式发布,并提供了针对苹果MLX框架的优化版本,使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度,性能表现突出。此外,该工具支持在不到1小时内完成LoRA微调,并提供快速(Sm)与高质量(Medium)两种生成模式。开发者鼓励社区积极探索其潜力,标志着本地化音乐创作工具达到了新高度。
🥳 Announcing Stable Audio 3 🍕 🏆 fastest music models ever 💻 runs on MacBookPro M-series 🧪 break it plz 🧠 LoRA fine...
StepAudio 2.5 是一个统一的音频-语言基础模型,能在自动语音识别(ASR)、语音合成(TTS)和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间,通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习(RLHF)为核心机制,并配合专门的解码策略,将共享主干塑造成三种操作模式:ASR分支提升转录效率;TTS分支实现可控、富有表现力的合成;实时分支则达成低延迟、角色一致的对话。在标准基准测试中,StepAudio 2.5 在三项任务上均取得最优结果,证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。
Spotify Labs推出一款名为Studio的独立AI应用,该应用可根据聊天指令为用户生成每日简报、播客与播放列表。其AI内容生成不仅基于用户的Spotify收听历史,还能整合所连接应用的信息,如邮箱、日历与备忘录。AI还能代为执行任务,包括研究话题、浏览网页、整理信息及协助完成事项。生成的内容可保存至Spotify资料库。该应用将以研究预览形式在未来几周内向年满18岁的用户推出。
Spotify 推出新的人工智能功能,支持播客听众根据个人提示生成每日或每周的内容简报。该功能通过 AI 分析用户输入的指令,自动整理并提炼相关播客节目的核心信息,形成结构化摘要,旨在提升用户获取信息的效率与个性化体验。
Spotify将于今年晚些时候发布新的有声读物计划,该计划整合了ElevenLabs的语音合成技术,旨在为创作者提供更便捷的有声内容制作工具。这标志着Spotify正进一步深入有声读物市场,并利用AI技术降低内容生产门槛。
腾讯会议正式上线“AI 同传”功能。该功能无需插件或外接设备,每位参会者均可独立开启,支持模仿发言人音色,实现发言与翻译几乎同步,时延低于3秒。用户可调节同传与原声音量,并已与原有的文字转写、会中字幕功能打通,支持可听、可译、可见、可记的多维度跨语言会议体验。
京东数字人近日完成核心能力升级,从“会播、会答”的数字主播进化为面向直播经营全链路的智能增长中枢,帮助商家以更低成本打造接近真人头部达播效果的直播间。已累计服务超7万商家,2026年一季度开播量同比激增10倍。该产品为京东自研AI,曾获2024年吴文俊奖,实现长时长、自由态、高频互动,推出采销东哥、总裁、明星及IP数字人。
实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。
这条推文介绍了一个对Suno AI音乐生成工具进行优化的Skill。该Skill新增了近6000个音乐风格检索,显著提升了生成音乐的准确性。此外,它通过谷歌CDP技术刷新获取登录Token,使用户无需访问网站即可直接创作歌曲。推文提供了该Skill的开源GitHub地址和安装指令。
微信鸿蒙版App发布了8.0.17.39正式版更新,当前安装量已超5565万次。本次更新主要增强了视频号功能,包括资料修改、新注册支持、播放旋转及直播选项增加等。同时优化了“听一听”模块,新增AI写歌与灰度测试的会员卡、跨平台文件传输等功能,并改进了聊天界面交互与朋友圈评论体验。
小米汽车官方于5月21日宣布,其车机系统OTA 1.16版本已开启全量推送。本次更新重点新增了“自定义萌宠上车”、“小爱陪伴”、“模糊语义理解”以及“商圈地库车位级领航”等功能,旨在提升智能座舱的交互体验与辅助驾驶能力。车主可留意手机端或车机上的更新通知进行升级。
We added 600+ new voices on Together AI! Introducing MiniMax Speech 2.8 Turbo on Together AI, an enterprise TTS model fo...
豆包输入法Mac版上线后,用户试用体验极佳,称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比,它解决了过度优化和无法实时预览的痛点,实现“言出法随”的快速输出与实时润色,避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景,豆包输入法处理出色,用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能,但目前识别能力已无可挑剔。
阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入,支持60种语言的输入和29种语言的语音输出,端到端延迟低至2.8秒。相比前代,新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解,以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中,性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务,采用 WebSocket 协议通信。
5月20日,小米手机官方宣布即将发布的小米耳夹式耳机将兼容苹果生态。新耳机支持语音唤醒超级小爱、智能翻译、双设备智能连接及苹果物品查找。产品单耳重量为5.5克,采用11mm大尺寸驱动单元,支持LHDC 5.0传输和Hi-Res金标认证,并具备3麦克风阵列与逆向声波防漏音技术。此前已有玄武岩黑、珍珠白、缎光金三款配色亮相。
阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种,输出音频语种从10种增加至29种。通过采用新的流式翻译技术,端到端字均延迟降低至2.8秒,同时支持实时音色克隆以保留说话人原声特征,并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。
豆包输入法实现了语音输入与键盘输入的深度联动,解决了传统语音输入法管理专有名词词库困难的核心痛点。用户只需在语音识别出现偏差时手动修改一次专有名词,输入法便能自动学习并记忆,实现了高效协同的“1+1>2”效果。此外,该输入法具备实时转录、中英混说等云端输入法的基准能力,可平替同类产品。
通义实验室(千问)发布 Qwen3.5-LiveTranslate,实现“开口即同传”——用户说话的同时即可获得翻译结果,支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。