10月30日

00:00

MiniMax：Blog（网页）

精选

MiniMax发布语音模型Speech 2.6，端到端延迟降至250毫秒内，支持实时对话。新增多语言特殊格式解析能力，可自动朗读URL、邮箱、电话、日期及金额，无需预处理。推出Fluent LoRA功能，即使源录音带口音也能保留音色并生成流畅语音，支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。

智能体模型发布语音

推荐理由：MiniMax发布Speech 2.6语音模型，支持Voice Agent场景，实现超低延迟与Fluent LoRA语音克隆优化。

10月24日

08:48

美团 LongCat：HuggingFace 新模型

精选

美团开源全模态模型LongCat-Flash-Omni

美团开源全模态模型LongCat-Flash-Omni，采用5600亿参数MoE架构（激活270亿），支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家，配备轻量级编解码器及分块特征交错机制，通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro，在文档理解、语音识别及GUI控制等任务中达到领先水平。

Hugging Face 多模态模型发布语音

关联讨论 1 条

推荐理由：美团开源 560B 参数多模态模型，27B 激活即可实现实时音视频交互

10月17日

11:09

美团 LongCat：HuggingFace 新模型

meituan-longcat 发布 LongCat-Audio-Codec

meituan-longcat 发布开源项目 LongCat-Audio-Codec，致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在促进音频编解码技术的开放获取，推动行业技术进步与开放生态建设。

Hugging Face 开源生态模型发布语音

9月29日

11:23

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Ming-UniAudio

研究团队发布了Ming-UniAudio，这是一个基于统一表示的大语言模型，专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑，实现了多种语音功能的集成。它通过统一的框架，将传统上分离的语音识别、合成和修改任务整合进单一系统，提升了处理效率与协同能力。

开源生态模型发布语音

11:19

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集，用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务，包括语义编辑（自由形式删除、插入、替换）和声学编辑（时间拉伸、音高转换等）。音频样本源自seed-tts eval、LibriTTS等开源数据集，其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度，并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音

11:19

蚂蚁 inclusionAI：GitHub 新仓库

精选57

inclusionAI发布MingTok-Audio：首个统一连续语音分词器

inclusionAI团队推出了MingTok-Audio，这是首个能有效融合语义与声学特征的统一连续语音分词器，适用于语音理解与生成任务。该模型基于纯因果Transformer架构，去除了卷积层以提升效率，并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上，其帧率为50，在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04，SIM为0.96，STOI为0.98，显著优于对比模型。在下游ASR任务中，其在多个方言数据集上取得了更低的错误率，例如在Hunan Minnan数据集上WER低至9.80%。

开源/仓库模型发布语音

推荐理由：蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数，比第二名翻了快一倍，做语音理解和生成的团队值得拿这个当新 baseline 跑一下。

9月25日