MiniMax发布语音模型Speech 2.6,端到端延迟降至250毫秒内,支持实时对话。新增多语言特殊格式解析能力,可自动朗读URL、邮箱、电话、日期及金额,无需预处理。推出Fluent LoRA功能,即使源录音带口音也能保留音色并生成流畅语音,支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。
MiniMax发布语音模型Speech 2.6,端到端延迟降至250毫秒内,支持实时对话。新增多语言特殊格式解析能力,可自动朗读URL、邮箱、电话、日期及金额,无需预处理。推出Fluent LoRA功能,即使源录音带口音也能保留音色并生成流畅语音,支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。
美团开源全模态模型LongCat-Flash-Omni,采用5600亿参数MoE架构(激活270亿),支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家,配备轻量级编解码器及分块特征交错机制,通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro,在文档理解、语音识别及GUI控制等任务中达到领先水平。
关联讨论 1 条美团 LongCat:HuggingFace 新模型meituan-longcat 发布开源项目 LongCat-Audio-Codec,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在促进音频编解码技术的开放获取,推动行业技术进步与开放生态建设。
研究团队发布了Ming-UniAudio,这是一个基于统一表示的大语言模型,专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑,实现了多种语音功能的集成。它通过统一的框架,将传统上分离的语音识别、合成和修改任务整合进单一系统,提升了处理效率与协同能力。
该仓库发布了Ming-Freeform-Audio-Edit基准测试集,用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务,包括语义编辑(自由形式删除、插入、替换)和声学编辑(时间拉伸、音高转换等)。音频样本源自seed-tts eval、LibriTTS等开源数据集,其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度,并提供了完整的评估脚本与参数说明。
inclusionAI团队推出了MingTok-Audio,这是首个能有效融合语义与声学特征的统一连续语音分词器,适用于语音理解与生成任务。该模型基于纯因果Transformer架构,去除了卷积层以提升效率,并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上,其帧率为50,在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04,SIM为0.96,STOI为0.98,显著优于对比模型。在下游ASR任务中,其在多个方言数据集上取得了更低的错误率,例如在Hunan Minnan数据集上WER低至9.80%。
Suno 推出全球首款生成式音频工作站 Suno Studio,将 AI 生成能力融入音乐创作核心。支持即时生成无限 stem 变体(人声、鼓点、合成器等),提供多轨时间线编辑、BPM 和音高调整等专业控制,可导出音频与 MIDI 文件至其他 DAW。兼容从业余爱好者到专业作曲家的各类创作者,桌面版现已向 Premier 用户开放。
小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,被定位为语音开源领域的“LLaMA 时刻”,对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。
OpenRouter 平台现支持在应用中使用语音输入功能,并允许通过 URL 发送 PDF 文件。该功能适用于平台上的任意模型。
Mistral AI 为 Le Chat 推出五项重要更新:Deep Research(预览版)模式可快速生成结构化研究报告;语音模式启用新 Voxtral 模型实现自然对话;Think 模式由 Magistral 推理模型支持,提供原生多语言推理;Projects 功能可将相关对话组织至独立文件夹;并联合 Black Forest Labs 推出 Le Chat 内的高级图像编辑功能。用户现在可在 chat.mistral.ai 或移动应用中免费试用这些新功能。
Mistral AI 发布了开源语音理解模型 Voxtral,提供 24B 和 3B 两个参数版本,均基于 Apache 2.0 协议开放。模型支持 32k token 上下文窗口,可处理最长 30 分钟的音频转录或 40 分钟的内容理解。其 API 提供了针对转录优化的 Voxtral Mini Transcribe 版本,在成本和延迟效率上表现突出。根据基准测试,Voxtral 在英语短文本及 Mozilla Common Voice 等多项指标上超越了 OpenAI Whisper 与 ElevenLabs Scribe,实现了同等性能下价格不到同类闭源 API 一半的优势。
音乐技术公司Suno宣布收购完全在浏览器中构建的AI加速数字音频工作站WavTool。WavTool的核心团队将加入Suno并担任产品及工程领导职务。此次收购将WavTool的专业级编辑功能(支持VST插件、采样精确编辑等)与原生AI能力(如音轨分离、AI生成MIDI)整合到Suno平台,旨在增强对专业词曲作者和制作人的支持。Suno CEO表示,此举是为了更好地赋能音乐家,而WavTool联合创始人则认为双方在AI辅助音乐创作的愿景上高度一致。
Suno发布了音乐生成模型v4,这是对v3的重大升级。v4带来了更干净的音质、更清晰的歌词以及更动态的歌曲结构。新功能包括可将旧模型生成的音轨升级至v4质量的Remaster功能,以及用于辅助创意歌词写作的新模型ReMi。同时,封面艺术生成也更具创意。现有的Covers和Personas功能现由v4驱动。v4 Beta版现已向Pro和Premier用户开放,可在suno.com和iOS上体验。
Suno 发布 Audio Inputs 功能,所有 Pro 和 Premier 用户可上传或录制 6-60 秒的音频片段,通过“Extend”模式选择起始时间戳、设定风格,并可添加歌词来创作歌曲。社区创作者已用其提供自定义音频引子来设定氛围、节奏和乐器灵感。该功能会阻止受版权保护作品的上传,且所有包含人声的输入将保持私密并不可搜索。
OpenAI 将 GPT-4o 向所有 ChatGPT 用户免费开放,无广告。全新语音(及视频)模式响应速度接近人类,表现力极强,被 Sam Altman 称为「用过最好的计算机界面」,像电影里的 AI。未来还将支持个性化、代操作等功能。
Suno推出情人节定制歌曲体验,用户可通过回答三个关于对象的问题,生成三首个性化歌曲。该体验免费,灵感源自混音带艺术,旨在传递情感联结。用户可在vdaysong.com尝试,分享作品至社交媒体并@Suno,有机会赢取鲜花及三个月Premier计划免费使用权。