本期早报聚焦AI对软件开发的变革。Anthropic Claude Code创始人宣称“编程已被解决”,软件创作将交由AI Agent。OpenAI罕见公开其支撑9亿周活语音服务的WebRTC Relay重构技术细节。同时有观点指出,企业应用AI失败的核心原因在于自身无法清晰定义需求。此外,内容还涵盖了Supabase Skills、规范驱动开发等工程实践与一篇AI主题科幻短篇。
本期早报聚焦AI对软件开发的变革。Anthropic Claude Code创始人宣称“编程已被解决”,软件创作将交由AI Agent。OpenAI罕见公开其支撑9亿周活语音服务的WebRTC Relay重构技术细节。同时有观点指出,企业应用AI失败的核心原因在于自身无法清晰定义需求。此外,内容还涵盖了Supabase Skills、规范驱动开发等工程实践与一篇AI主题科幻短篇。
OpenAI通过优化推理堆栈,将其语音AI模型Whisper的实时转录延迟从2.8秒大幅降低至232毫秒。核心改进包括引入流式编码器、改进的解码策略与缓存机制,并采用分块处理技术。这些优化使系统能在用户说话结束后的极短时间内完成转录,为大规模部署低延迟语音交互应用提供了关键技术支撑。
OpenAI 重建了其 WebRTC 技术栈,以支持实时语音 AI 服务。新系统实现了低延迟、全球规模扩展和无缝的对话轮转。此次重构旨在为 ChatGPT 的语音模式等产品提供更流畅、更自然的实时语音交互体验,解决了大规模部署时面临的延迟与稳定性挑战。
现有语音大模型仅支持口语回复,限制代码生成等文本能力。研究人员提出Listen-Write-Speak (LWS)范式,单个自回归LLM在共享因果注意力上下文中持续聆听用户音频,以可见自由文本作为主要输出,并并行生成实时语音。该行为通过Token Schema实现,无需修改架构,由两阶段数据流水线学习。LWS在Full-Duplex-Bench展现强全双工交互,VoiceBench AlpacaEval得4.72,写作-语音一致性92.6%,在URO-Bench上持续优于消融模型。代码与数据集已开源。
针对数字、地址、品牌名等细分领域的印度语言自动语音识别,现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统,以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后,在泰卢固语测试集上的实体命中率提升至0.473,较最佳开源模型提升17倍,较商业系统提升3倍,同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效,并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。
a cambrian explosion of creation is upon us
xAI 为开发者推出“Custom Voices”功能,允许克隆用户声音用于AI应用。该功能基于近期发布的 Grok 语音转文本和文本转语音 API 构建,仅需一分钟的语音样本即可生成可用的声音克隆。此举扩展了 Grok 语音模型的应用场景,为开发者提供了定制化语音合成的新工具。
Grok Voice brutally dominates the top of the τ-voice Bench Grok scores 67.3%, while Gemini sits at 43.8% and GPT Realtim...
xAI通过Grok API上线声音克隆功能,用户录制一分钟即可快速获得个人声音模型,并免费用于语音代理。与ElevenLabs提供“生成好听声音”的定位不同,xAI聚焦于“生成你的声音”,将声音视为数字身份证,强调其身份属性。安全上要求本人实时录制并验证短语,以防滥用。未来,结合Grok的推理能力,可能诞生能像用户一样思考和说话的AI代理。零门槛技术将推动有声书、游戏配音等应用,但也加剧了深假与诈骗风险,标志着声音正从工具转向身份核心。
Voice Cloning is now live via the xAI API! Create a custom voice in less than 2 minutes or select from our library of 80...
据报道,苹果将在WWDC 26发布macOS 27系统,首个开发者测试版于演讲后立即提供。主要新功能包括:Siri将升级为独立应用,支持查看会话历史,操作逻辑类似ChatGPT,个性化功能也将扩展至Mac;系统将为预计2027年初发布的触屏版MacBook Pro开发专属触控界面,优化手指交互体验;此外,该系统将专注于稳定性与性能改进。macOS 27将仅支持M1或更高芯片的Mac,彻底抛弃Intel平台,同时不再兼容使用AFP协议的旧存储设备如AirPort Time Capsule。
Small but useful new feature in the works in ChatGPT web app - "Custom dictionary" ("Add names or terms you want dictati...
OpenRouter 新增两个 API 端点,分别提供语音合成(text-to-speech)和音频转录(transcription)功能,用户可通过单一接口跨多个提供商调用。
OpenRouter 现已上线文本转语音和音频转录功能。两个新端点提供跨多家提供商的语音合成与音频转录能力,统一API接入。
OpenRouter 正式上线文本转语音和音频转录功能。平台通过两个新的 API 端点,集成了多家供应商的语音合成与音频转录服务。用户现在可以统一调用单一 API,便捷访问多提供商的高质量语音生成与语音转文本能力,无需再为不同服务商单独集成。这简化了开发流程,为应用添加语音交互与内容转录功能提供了更高效的一站式解决方案。
安克将于5月22日发布其首款神经网络存算一体AI音频芯片“ANKER Thus”。该芯片采用CPU与存储合一的架构,旨在提升算力,以实现端侧实时音频AI功能。同期,安克将推出搭载此芯片的旗舰耳机产品。根据海报信息,该耳机为入耳式设计,充电盒外观圆润,且正面可能配备一块屏幕,具体规格尚未公布。
LinkedIn联合创始人Reid Hoffman提出,每个组织都应记录所有会议,并利用AI对录音进行分析,其用途远超文字转录。AI能够自动识别会议中提及的关键待办事项,例如提醒与会者通知特定同事、获取上级批准或协调其他团队的工作。他强调,此类自动跟进与协调的技术已经成熟,可供企业立即部署使用。
xAI于2026年4月30日推出自定义语音和语音库功能。用户可通过约1分钟录音快速克隆声音,并在Grok文本转语音及语音代理API中即时使用,整个过程仅需2分钟。语音库提供集中管理平台,内置语音已超80种,支持28种语言。为确保安全,系统采用两阶段验证,包括实时转录匹配和说话人嵌入确认,以防止未经授权的克隆。这些功能适用于品牌代理、内容创作、无障碍辅助、多语言团队及游戏娱乐等多种场景,且使用自定义语音无需额外费用。
研究提出LASE(语言对抗性说话人编码器),以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头,结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练,使编码消除语言信息的同时保留说话人特征。实验表明,在1118个跨文字语音对上,LASE将身份漂移降至接近零,并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中,LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。
Suno公司最新发布的音乐生成模型V5.5,在Artificial Analysis的器乐和人声排行榜上均位列第一,性能较前代V5模型有显著提升。本次更新重点聚焦个性化与身份特征,推出了三项新功能:用户可通过上传人声样本生成定制演唱音色;可个性化定制最多三个反映自身风格的模型版本;系统还能学习用户偏好的音乐流派、情绪和风格,以提供个性化推荐。该模型已通过Suno平台向Pro和Premier订阅用户开放,年费订阅起价为每月8美元(约含500首歌曲生成额度),且包含商业使用权。
DataCenter.FM是一款以“AI泡沫”之声为特色的背景噪音应用。该应用将数据中心服务器风扇的持续嗡鸣、硬盘读写声以及网络设备指示灯闪烁的轻微滴答声混合,生成了模拟AI热潮下数据中心繁忙运转的环境音。这款应用在Hacker News上获得了103个投票,反映了科技社区对当前AI投资与基础设施扩张热潮的一种趣味性听觉呈现。
钉钉正式发售DingTalk A1 Pro“充电宝版录音卡”,定价1299元。该产品采用卡片式设计,厚度仅6.4mm,内置行业首发的MEMS指向麦克风,拾音距离可达10米。其配备2980mAh电池,支持连续录音180小时、待机180天,并可作为磁吸移动电源为手机充电。购买用户可获6个月专属权益,每月享有1500分钟语音转文字服务。
三星智能眼镜 Galaxy Glasses 产品信息近日曝光。该眼镜外观类似太阳镜,重量约50克,搭载高通骁龙AR1处理器和1200万像素索尼IMX681传感器,支持Wi-Fi与蓝牙5.3,内置155mAh电池。设备一侧设有摄像头,另一侧有LED指示灯,并集成麦克风、扬声器及触控区,支持快速配对与电量查询。据悉,它未配备内置显示屏,主打音频与AI体验,预计运行Android XR系统并集成Gemini AI助手,可通过语音唤醒。
当前多模态大语言模型在交互范式上存在瓶颈,感知与响应分离且缺乏主动性。MiniCPM-o 4.5 通过 Omni-Flow 统一流式框架,将多模态输入输出对齐到共享时间轴,实现实时全双工全模态交互,支持同时感知与响应,并能基于对动态场景的连续理解主动发出提醒或评论。该模型参数量为 90 亿,在视觉语言能力上接近 Gemini 2.5 Flash,在全模态理解上超越 Qwen3-Omni-30B-A3B,且语音生成更优、计算效率显著更高。得益于高效的架构设计和推理优化,模型可在内存小于 12GB 的边缘设备上实现实时全双工全模态交互。
苹果公司将于5月4日至8日在西班牙巴塞罗那举行的ICASSP 2026上展示其最新研究成果,并再次赞助该会议。本届会议汇聚了专注于信号处理及其应用的科学与工业研究界人士。苹果的参与凸显了其在相关前沿技术领域的持续投入。
据报道,苹果公司已内部搁置新款Vision Pro头显的研发,原团队重心转向Siri和AI智能眼镜项目。Vision Pro自发布以来市场反应冷淡,总销量约60万台且退货比例异常偏高。尽管在2025年10月其升级至M5芯片并改进了头带,但3499美元的高价和超过1.3磅的机身重量仍影响佩戴体验,未能扭转需求。苹果已停止新款硬件开发工作,但会继续维护和更新visionOS系统。
当前大型音频语言模型普遍依赖基于验证奖励的强化学习范式来驱动听觉推理,但这陷入了“可验证奖励陷阱”——模型为追求孤立文本标签的正确性,牺牲了声学细微差别和对话自然度,导致交互机械、沉浸感差。Step-Audio-R1.5 通过转向基于人类反馈的强化学习实现了范式突破。评估表明,它在保持强大分析推理能力的同时,显著提升了交互体验,特别是在长轮对话中改善了韵律自然性与情感连续性,重新定义了深度沉浸式语音对话的边界。
Last week, we launched Gemini 3.1 TTS, our latest and best text-to-speech model. This new model introduces [awe] audio t...
TRAE推出内置语音功能,支持直接语音输入,并能将包含大量语气词的即兴口语转录为结构化文字。其核心亮点在于能够识别语音命令和技能,用户可通过语音直接操作输入框等功能。此外,TRAE还与Insta360合作推出了联名Mic Air无线麦克风。这一功能体现了“用嘴写代码、用嘴办公”的交互趋势,初步用户体验反馈积极。
谷歌翻译迎来20周年,目前支持近250种语言和逾6万个语言对,覆盖全球约95%人口。官方推出发音练习功能,在安卓版应用中利用AI分析用户语音并提供即时反馈,帮助改善发音,该功能已在美国和印度上线,支持英语、西班牙语和印地语。数据显示,谷歌翻译最常用短语为“谢谢”,其他热门查询包括“你好吗?”、“我爱你”、“你好”和“请”。
微软开源的VibeVoice-ASR是一个9B参数语音转文字模型,采用MIT协议。其核心优势在于单次可处理长达60分钟的连续音频,并直接输出带说话人、时间戳的结构化文本,原生支持50多种语言及中英混说。实测在128GB内存的MacBook Pro上,其4-bit量化版转录一小时音频约需9分钟,但预填充阶段内存峰值达61.5GB,要求设备内存至少64GB。模型存在单次60分钟时长限制,且对录音环境变化敏感,但为播客、会议等长音频转录提供了简化流程。
Microsoft's MIT licensed VibeVoice speech-to-text model (think Whisper with speaker diarization) is really good - my not...
据报道,苹果将在 iOS 27 系统中全面重构 Siri,旨在通过深度集成将其打造为用户的全天候智能伴侣,显著增强 AirPods 的交互体验。新版 Siri 将采用类似 ChatGPT 的对话式交互,利用大语言模型理解上下文与用户意图,并能深度控制系统及应用,自动执行多步骤任务,同时支持接入第三方 AI 平台。此次升级致力于提供无缝、连续的对话体验,解决当前 Siri 与第三方 AI 交互生硬、割裂的问题,让用户通过 AirPods 即可便捷唤醒和使用更智能的语音助手。