字节跳动推出 SeedMusic 1.0 Preview AI 音乐模型,用户只需一句话提示词即可生成完整歌曲,生成速度约 2-3 分钟。示例提示词为“来一首古风歌曲,但是有着现代流行音乐的节奏感,能让人朗朗上口,关于爱情的歌曲”,效果不错。该模型属于字节跳动在 AI 领域的布局之一。
Google 新款 Home Speaker 售价 99 美元,体积小巧但音质饱满,低音优于同尺寸的 UE Wonderboom,清晰度和响度均超过 Amazon Echo Dot Max。配备三个麦克风,唤醒词识别灵敏,即便在淋浴中也能响应“Hey, Google”。外观呈彩色毛线球状,无可见按键;音量可通过点击左右侧调节,但触控区域小且方向不直观,顶部播放/暂停触控正常。灯光环隐藏于底部,反馈不够明显。不支持标准蓝牙,可通过 Google Cast 串流或与 Google TV Streamer 配对。内置 Gemini 智能助手,可用于控制家居、规划日程和查询信息。
OpenAI 在 GitHub 开源 Plant Talk 项目,通过 Codex Desktop 连接 ChatGPT,让室内植物具备语音能力。用户可与植物语音交流,如询问“最近怎么样?”“需要浇水吗?”等。系统支持 Arduino、土壤湿度传感器、LM393 光照传感器获取环境数据,还可连接二氧化碳传感器、空气湿度传感器。用户可创建不同植物人格,如高冷仙人掌、话痨绿萝、吐槽多肉。搭建需配备麦克风、摄像头、扬声器的电脑及 OpenAI 账户。
6月23日,部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1,位于设置模型选择器中,与标准语音和高级语音并列。该模型支持边说话边监听,用户可在对话中途打断并发出新指令,例如要求从1数到10时中途喊停倒数,模型会立即切换执行。OpenAI 尚未官宣,预计本周启动更大范围测试。
独立音乐平台 Jamendo 在美国加州联邦法院起诉英伟达,指控其未经授权使用 MTG-Jamendo 数据集(约 5.6 万首曲目)训练 Fugatto、Audio Flamingo 两款音频大模型。该数据集仅限非商用科研用途。2024 年 3 月发现后多次协商无果,2025 年 6 月寄出商用账单(1610 万欧元)并在比利时起诉。本次美国诉状主张直接著作权侵权、违约、不当得利、不正当竞争,最低索赔 1780 万欧元(含逾期利息)。
VoxCPM now runs FULLY on-device on iPhone - via Apple's Core AI. @OpenBMB's diffusion TTS (MiniCPM4 LM + LocDiT flow-mat...
火山引擎昨日发布豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0),首次支持文本、音频等多模态参考生成,端到端输出目标音频,长时生成中保持多角色音色一致性。用户可通过单条 Prompt 编排角色对白、情绪语气、背景音乐、环境氛围,直接产出成片级音频。模型一次支持 2 分钟音频创作,可多次延长且保持音色统一;实现零样本多模态生成,支持音色与风格解耦控制。火山方舟已开启 API 邀测,个人用户可免费体验 30 分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。
针对不同实时语音应用需单独训练增强模型的痛点,本文提出一种通用实时语音增强模型,可同时控制算法延迟与计算延迟。算法延迟通过可配置的前瞻帧灵活调整,并引入并行卷积层应对不同填充配置带来的学习低效;计算延迟由早期退出机制控制,支持在不同网络深度推理。两阶段训练策略(共享到多解码器过渡)缩小了通用模型与专用模型的性能差距。该框架使单个模型可在多种延迟预算下部署,无需重新训练。
tvOS 27 首个开发者测试版代码显示,苹果正为 Apple TV 和 HomePod 引入 AI 功能。系统底层新增多个 Apple Intelligence 相关框架,HomePod 首次设置流程中直接提及 Siri AI。代码中还出现 N1 芯片(蓝牙与 Wi-Fi 处理器),该芯片未搭载于当前在售机型,被视作苹果推进智能家居新品的线索。
该教程通过Python使用NVIDIA Canary-1B-v2构建语音识别与翻译管线:先安装NeMo ASR工具包和音频依赖,在GPU上加载模型;将音频处理为16 kHz单声道格式后,执行英语ASR,将语音翻译为25种语言,生成词级和时间段时间戳,导出SRT字幕文件,并支持长文本转录、批处理与推理速度基准测试。
BREAKING 🔥: First tests of "Bidi 1", an upcoming bidirectional voice model from OpenAI. This upgrade will arrive in Cha...
🚨 SCOOP(s): - GPT-5.6 has been delayed and will no longer release this week. New target is ~mid-July. - DeepMind are no...
Meta 首次以自有品牌推出三款智能眼镜:Adventurer、Fury 及与凯莉·詹娜合作的 Starfire。Adventurer 和 Fury 售价 299 美元,Starfire 售价 399 美元,均比去年雷朋 Meta Wayfarer 便宜 80 美元。眼镜由 Meta 设计、依视路陆逊梯卡生产,内置摄像头、扬声器,支持与 Meta AI 对话、翻译及拍摄,预装最新 AI 模型 Muse Spark。鼻托三档可调,提供多种配色与镜片选项。Meta 透露未来可能推出无摄像头版本,并计划最终进入 AR 眼镜市场。
网易有道推出“子曰 4.0”TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。
OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。
BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in setting...
火山引擎在FORCE大会上展示YoooClaw C-ONE,一款卡片大小的「AI记忆卡」。它能录音转文字,也能抓取手机通知实时喂入,两路数据汇入火山引擎的ArkClaw做抽取和推理,形成个人知识大脑。出口端打通飞书,例如老板开完会后一句话即可将任务分别推送给对应同事。推文作者称这是除seedance2.5外今次最心动的产品。
火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。
豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。
语音智能体面临响应速度与复杂能力的权衡。ConvFill 提出“对话式填充”(conversational infill)方法:用小参数 talker 模型实时生成上下文响应,隐藏外部 reasoner 模型的推理延迟,并在推理中动态整合 reasoner 的流式知识。基于 290,571 条合成数据、6 个领域、7 个 135M–1.7B 参数小语言模型验证任务可学习性。系统保持毫秒级首次响应时间,准确性差距缩小至前沿 reasoner 模型的 6.3% 以内。在 Apple M2 SoC 上的 18 人用户研究中,ConvFill 整体与前沿模型持平,检索密集型任务更受青睐,响应性显著更高。代码、模型和数据集已开源。
Wan-Streamer v0.1 是原生流式、端到端的交互基础模型,在单一 Transformer 中统一建模语言、音频和视频的输入与输出,序列表示为交错视觉、音频、文本 token,通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块,感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计,支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms,结合 350 ms 双向网络延迟后总交互延迟约 550 ms,实现亚秒级全双工音视频通信。
Our recent $100M Series C means we can continue training our models to handle the urgent, high-risk, 45-minute phone cal...
亚马逊正将生成式AI对话助手Alexa+扩展至印度,邀请用户参与印地语版Beta测试。测试版可能存在Bug,或提供不准确信息及误发音本地用语。Alexa+尚未在印度上线,具体时间未定。亚马逊于2017年在印度推出英语版Alexa,2019年加入印地语支持。Alexa+于2025年发布,今年2月向所有美国用户开放,随后扩展至英国、加拿大等国。Prime会员免费,其他用户付费。
华为智慧屏今日推送系统更新,主要新增或优化:标准模式新增儿童时长管控(设置>通用>使用时间管理);畅连小窗支持自由调节窗口大小;观看影视剧时可呼叫小艺进行人物、剧情等问答;超级桌面分辨率由1080P提升至2K;遥控器支持控制外接设备(需开启CEC);开关机菜单支持自定义预设焦点;智慧屏可与全屋吸顶音箱联动;AI语音唤醒准确率和响应时延优化;门锁画中画联动显示接听设备名称及位置,并支持挂断。官方暂未公布新版本具体型号及适用机型。
开源硬件制造商 PINE64 于本月 19 日推出 PineVoice 智能音箱,售价 49.99 美元(约 339.4 元人民币),可加购 14.99 美元的 Zigbee 加密狗。该音箱集成双麦克风阵列、音量控制和硬件麦克风静音按钮,基于博流智能 BL606P 无线多模网关芯片(含玄铁 C906 和 E907 内核),拥有 788KB SRAM、32MiB pSRAM 和 16MiB 闪存,支持 Wi-Fi (802.11 b/g/n) 及蓝牙 5.X,具备本地唤醒词检测,默认固件支持 Wyoming Satellite 远程语音卫星项目。
Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...
豆包在 App 内灰度上线一键打车服务,由曹操出行提供运力。获灰测用户可直接在对话框口述出行需求,系统自动识别起止地点、人数与用车偏好,匹配曹操出行后一键确认派单。目前北京、杭州部分用户已获灰测资格。曹操出行司机接单后弹窗提示“本单是豆包服务订单”,完成可获 2 元平台惊喜服务费。曹操出行上周在2026国际汽车及供应链博览会(香港)发布 RoboX 战略,提出“双十万计划”——到2030年累计部署10万辆Robotaxi与10万辆Robovan,同时成立AI事业部推进全面AI转型。
马斯克在 X 平台回复称,Grok 语音控制特斯拉 FSD(监督版)功能预计约三个月后上线,今年秋季推送全系车辆。此前 Grok 已作为车载助手上线,通过 2025 假日版本更新增加导航语音指令,2026 春季更新新增“嘿 Grok”唤醒与位置提醒。新功能将允许用户用自然语言设定 FSD 行驶逻辑,无需手动打转向灯;停车场景提升显著,可实时口述精准泊车指令,弥补 14.1 版本“抵达目的地自动泊车”模式有限。
通过logit lens分析不同家族和规模的交错式语音语言模型,发现模型在中间层隐式地将语音转录为文本token——77%的数据中目标语音对应的文本词出现在候选词前列,随后模型在文本空间中预测下一个词再转回语音域。这一行为并非源自语音识别训练,交错数据和文本LM初始化是诱发该机制的关键因素。
visionOS 27 将于今秋推送。M5 Vision Pro 独占 Siri 语音定制(Voice Customization),用户可自由调整语气表现力和语速;同时独占搭载 AFM 3 Core Advanced 本地 AI 模型,该模型支持原生多模态能力并采用稀疏架构,需 M5 芯片算力支撑。M2 款 Vision Pro 可共享 visionOS 27 大部分升级,包括 Siri AI、全景照片转空间场景、重新设计的控制中心、更智能的自然语言理解及语音操作交互等。苹果承诺未来通过云端计算为 M2 设备提供部分 AI 功能的折中方案,具体细节尚未公布。
信实工业在年度股东大会上发布 AI 通话助手 Jio Call Agent,直接嵌入 Jio 电信网络,可转录对话、生成摘要,并帮助用户叫车、点餐和预订,用户通过“Hey Jio”唤醒,预计今年晚些上线,覆盖超 5 亿用户。同时推出 AI 版 MyJio,支持自然语言指令完成开通 eSIM、选漫游套餐等操作;TeleFrame 可利用 AI 智能体主动显示天气预警、日程和家庭提醒。信实还通过 Reliance Intelligence 为消费者、企业和政府开发支持印度 22 种语言的 AI 基础设施。安巴尼强调印度不能只做 AI 消费者,而应成为创造者和全球领导者。
印度信实工业在年度股东大会上发布AI服务:Jio Call Agent可加入电话会议转录、总结并执行叫车、订餐等任务,通过“Hey Jio”激活,今年晚些时候面向超5亿用户上线;MyJio应用新增AI版,支持自然语言激活eSIM、选择漫游套餐;家庭显示设备TeleFrame利用AI智能体推送天气、日程提醒;还推出医疗、教育、农业和中小企业AI套件,支持22种印度语言。公司计划投资1100亿美元建设AI基础设施,并与Google、Meta、Nvidia合作。此外,Jio Platforms董事会批准IPO草案,拟发行最多2.7亿股新股。
社区开发者基于 VoxCPM2 与 ComfyUI 构建了 VoiceGate,实现自动语音提取(ASR)、大语言模型翻译、多语言语音合成(支持 30 多种语言和 9 种方言,含语音克隆与音色设计)、时间戳对齐音频以及背景音分离混音。核心创新 VoiceBridge 插件首次在 ComfyUI 中引入 SRT 时间戳驱动的 TTS 对齐,实现字幕级精细控制,解决 AI 配音音视频不同步问题。应用包括中文视频转英/日/韩等多语言,以及全球视频转中文及方言。