2月11日

20:18

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI 发布了 Ming-omni-tts，这是一个能够统一生成语音、音乐和声音的模型。该模型的核心特点是结构简单高效，并实现了对生成内容的精确控制。它通过一个统一的框架处理多种音频模态，简化了传统上需要不同模型分别处理语音、音乐和音效的流程。这一进展为跨模态音频内容的创作与编辑提供了更便捷、可控的工具。

开源生态模型发布语音

19:00

公众号：蚂蚁百灵（Ling）

百灵全模态 Ming-flash-omni-2.0 发布：感知无界，创造有形

蚂蚁百灵推出全模态模型 Ming-flash-omni-2.0，融合感知与创造能力，旨在通过多模态交互焕新生活体验。具体技术参数和性能数据暂未披露。

多模态模型发布

18:52

蚂蚁 inclusionAI：GitHub 新仓库

精选65

inclusionAI发布新一代即时大模型Ling-2.5-1T

inclusionAI推出新一代旗舰即时模型Ling-2.5-1T，其总参数量达1T，活跃参数为63B，预训练语料扩展至29T tokens。该模型采用混合线性注意力架构，支持1M tokens上下文长度，并通过结合“正确性”与“过程冗余”的复合奖励机制，在相近的token效率下，其推理能力显著超越前代，接近前沿思维模型水平。经双向RL反馈和智能体验证等对齐策略优化，模型在创意写作和指令遵循任务上表现提升。它已兼容主流智能体平台，并在通用工具调用基准BFCL-V4上取得领先的开源性能。

开源/仓库推理模型发布部署/工程

推荐理由：蚂蚁把 1T 参数的即时模型开源了，63B 活跃参数加 1M 上下文，主打效率而非堆算力，对国内做开源推理模型的团队来说是个值得对标的基线。

18:52

蚂蚁 inclusionAI：GitHub 新仓库

精选78

inclusionAI发布全球首个开源万亿参数思维模型Ring-2.5-1T

inclusionAI发布了全球首个基于混合线性注意力架构的开源万亿参数思维模型Ring-2.5-1T。该模型通过高效的1:7 MLA与闪电线性注意力提升了推理速度与探索能力，并借助扩展的强化学习训练增强了深度思考和长程任务执行能力。其在IMO 2025和CMO 2025数学竞赛中均达到了金牌级别的性能。模型支持128K上下文长度，并可通过YaRN技术扩展至256K，现已于Hugging Face和ModelScope平台开源。部署方面，已支持SGLang，并提供了多GPU节点的服务器启动示例。

开源/仓库推理模型发布部署/工程

推荐理由：蚂蚁把万亿参数的开源 thinking model 放出来了，混合线性注意力架构是真新路线而非换皮，IMO/CMO 金牌级数学推理说明这不是纯堆参数。做开源大模型部署的团队值得认真看看它的架构选择。

11:12

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-tokenizer-12Hz

inclusionAI团队发布了Ming-omni-tts-tokenizer-12Hz开源项目，这是一个面向文本转语音（TTS）的通用分词器。该模型支持12Hz的高采样率，旨在提升语音合成的自然度与表现力。项目基于开源与开放科学的理念推进，致力于让人工智能技术更加普及和易得。

开源生态模型发布语音

11:10

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-0.5B

inclusionAI 发布了 Ming-omni-tts-0.5B，这是一个参数规模为 0.5B（5亿）的文本转语音模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。发布标志着在语音合成领域，一个中等规模、可公开访问的模型正式加入开源生态。

开源生态模型发布语音

10:49

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Ming-omni-tts-16.8B-A3B

inclusionAI发布了开源文本转语音模型Ming-omni-tts-16.8B-A3B，参数量达168亿。该模型采用创新的A3B混合专家架构，在语音自然度、多语言支持和情感表现方面实现显著提升。项目遵循开源开放科学理念，旨在推动人工智能技术的民主化进程。

开源生态模型发布语音

08:00

蚂蚁百灵：Developer Blog（网页）

精选83

感知无界·创造有形：百灵全模态 Ming-flash-omni-2.0 焕新生活想象

百灵全模态大模型Ming-flash-omni-2.0正式发布。该模型基于MoE架构，在视觉、语音、图像等全模态能力上实现代际跃迁，其核心突破在于一个统一模型同时具备了强大的通用泛化能力和特定模态的专家级表现。具体特色包括：视觉百科能精准识别万物并关联知识；语音生成可控制情绪、方言，提供百种音色，并能统一生成语音、音效与背景音乐；图像创作可实现氛围重构、场景合成与智能擦除。技术层面通过亿级数据细粒度感知、知识对齐及超低帧率音频表征等创新实现性能飞跃。模型已在多个平台开源。

图像生成多模态模型发布

关联讨论 1 条

推荐理由：国产全模态模型开源，多模态能力达领先水准，开发者可直接体验或集成。

2月10日