AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 398 条
全部一手资讯X论文
标签「模型发布」清除
12月15日周一
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型,NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量
12月13日周六
17:03美团 LongCat:HuggingFace 新模型meituan-longcat/LongCat-Video-Avatar 视频化身项目
12月11日周四
23:36蚂蚁 inclusionAI:GitHub 新仓库49inclusionAI/LLaDA2.X
00:00智谱:研究(网页内嵌数据)精选GLM-TTS:基于多奖励融合强化学习,实现工业级语音合成
12月10日周三
00:00智谱:研究(网页内嵌数据)精选GLM-ASR-Nano:面向真实世界的高鲁棒性语音识别
12月9日周二
00:00Mistral AI:News(网页)60Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI
12月8日周一
00:00智谱:研究(网页内嵌数据)精选GLM-4.6V:支持原生工具调用的开源多模态模型
12月5日周五
15:34美团 LongCat:HuggingFace 新模型美团 LongCat-Image-Edit 图像编辑项目
12月4日周四
21:02美团 LongCat:HuggingFace 新模型美团 LongCat-Image-Dev 开源图像项目
20:38美团 LongCat:HuggingFace 新模型美团-longcat/LongCat-Image
12月2日周二
00:00Mistral AI:News(网页)68Mistral AI 发布 Mistral 3 系列模型(2025年12月2日)
12月1日周一
18:52公众号:DeepSeek(深度求索)66同事件精选DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理同一事件,精选展示《DeepSeek-V3 正式发布》
11月25日周二
08:00Hugging Face:Blog(RSS)80精选Diffusers 集成 FLUX-2 模型
11月20日周四
23:05Google DeepMind:Blog(RSS)精选Google DeepMind 发布 Nano Banana Pro 图像生成模型
11月19日周三
13:19Hugging Face:Blog(RSS)78精选Apriel-H1:蒸馏高效推理模型的关键要素
08:00xAI:News(网页)精选xAI发布Grok 4.1 Fast与Agent Tools API
11月17日周一
23:09Google DeepMind:Blog(RSS)WeatherNext 2:我们最先进的天气预报模型
10月30日周四
00:00MiniMax:Blog(网页)精选MiniMax发布新一代语音模型Speech 2.6
10月28日周二
00:00MiniMax:Blog(网页)精选MiniMax 发布 Hailuo 2.3 / 2.3 Fast 视频模型
10月27日周一
00:00MiniMax:Blog(网页)62同事件精选MiniMax M2与AI智能体:简中见巧同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
10月26日周日
02:14Google DeepMind:Blog(RSS)T5Gemma:全新的编码器-解码器 Gemma 模型系列
02:02Google DeepMind:Blog(RSS)精选MedGemma:健康 AI 开发领域最强的开源多模态模型
01:34Google DeepMind:Blog(RSS)精选Gemini 2.5 Flash-Lite 正式发布,可用于规模化生产
10月25日周六
03:06Google DeepMind:Blog(RSS)AlphaEarth Foundations 以前所未有的细节绘制地球地图
00:04美团 LongCat:HuggingFace 新模型美团 LongCat-Video 项目
10月24日周五
11:12Google DeepMind:Blog(RSS)精选带 Deep Think 的 Gemini 高级版本在 IMO 中正式达到金牌标准
10:58Google DeepMind:Blog(RSS)Aeneas 改变历史学家连接过去的方式
08:48美团 LongCat:HuggingFace 新模型精选美团开源全模态模型LongCat-Flash-Omni
02:50Google DeepMind:Blog(RSS)精选Gemma 3 270M 发布:专为超高效 AI 打造的轻量模型
02:42Google DeepMind:Blog(RSS)VaultGemma:全球能力最强的差分隐私 LLM
02:40Google DeepMind:Blog(RSS)精选Gemini 2.5 Computer Use 模型发布
02:22Google DeepMind:Blog(RSS)Gemma 模型助力发现潜在癌症治疗新途径
10月23日周四
17:42美团 LongCat:HuggingFace 新模型美团 LongCat 发布 Flash-Omni 模型
10月17日周五
11:09美团 LongCat:HuggingFace 新模型meituan-longcat 发布 LongCat-Audio-Codec
10月10日周五
10:20蚂蚁 inclusionAI:GitHub 新仓库66精选Ming-VideoMAR:基于连续令牌的自回归视频生成模型
9月30日周二
19:36蚂蚁 inclusionAI:GitHub 新仓库51inclusionAI/Ming-UniVision
9月29日周一
18:01公众号:DeepSeek(深度求索)59DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
11:23蚂蚁 inclusionAI:GitHub 新仓库51inclusionAI/Ming-UniAudio
11:19蚂蚁 inclusionAI:GitHub 新仓库57精选inclusionAI发布MingTok-Audio:首个统一连续语音分词器
9月22日周一
23:49蚂蚁 inclusionAI:GitHub 新仓库49InclusionAI/Ring-V2
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
12月15日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型,NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量

SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构,总参数 30B 但仅激活 3.6B,支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时,在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式,并支持"思考预算"功能以减少过度推理,适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。

推理模型发布部署/工程
12月13日
17:03
美团 LongCat:HuggingFace 新模型
meituan-longcat/LongCat-Video-Avatar 视频化身项目

meituan-longcat 发布 LongCat-Video-Avatar 视频数字人项目,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在打破视频化身技术壁垒,将先进的 AI 能力开放给更广泛的开发者社区,推动前沿技术的平民化应用与生态发展。

Hugging Face模型发布视频
12月11日
23:36
蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/LLaDA2.X

蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发,专注于语言生成任务,是团队在大型语言模型领域的最新成果。

开源/仓库数据/训练模型发布
00:00
智谱:研究(网页内嵌数据)
精选
GLM-TTS:基于多奖励融合强化学习,实现工业级语音合成

GLM-TTS 采用 GRPO 多奖励强化学习框架,融合字符错误率、相似度、情感及笑声奖励,实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA,情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色,通过 Phoneme-in 混合输入精准控制多音字发音,配合自研 2D-Vocos 声码器提升音质与音域覆盖。

开源生态模型发布语音

推荐理由:智谱开源GLM-TTS,3秒克隆任意音色并支持喜怒哀乐情感表达
12月10日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-ASR-Nano:面向真实世界的高鲁棒性语音识别

智谱发布开源语音识别模型 GLM-ASR-Nano,仅 1.5B 参数,面向真实世界场景优化鲁棒性,已落地智谱AI输入法。支持通过 Hugging Face Transformers 快速推理。

模型发布端侧语音

推荐理由:智谱开源1.5B语音识别模型,端侧可用且针对真实场景优化,适合集成到输入法等产品
12月9日
00:00
Mistral AI:News(网页)
60
Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI

Mistral AI 发布新一代代码模型家族 Devstral 2,包含 Devstral 2 (123B) 和 Devstral Small 2 (24B) 两个开源版本。Devstral 2 采用修改的 MIT 许可证,在 SWE-bench Verified 上达到 72.2%,成本效益比 Claude Sonnet 高达 7 倍。Devstral Small 2 (24B) 采用 Apache 2.0 许可证,可部署在消费级硬件上。两者均支持 256K 上下文窗口。同步发布由 Devstral 驱动的开源命令行工具 Mistral Vibe CLI,用于在终端实现代码的自动化探索与修改。

开源/仓库模型发布编码
12月8日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-4.6V:支持原生工具调用的开源多模态模型

智谱开源GLM-4.6V系列多模态模型,含106B-A12B基础版与9B轻量版Flash,支持128k tokens上下文。首次原生集成Function Call能力,支持图像、截图直接作为工具参数,并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力,适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。

智能体MCP/工具多模态模型发布

推荐理由:智谱开源 GLM-4.6V,原生支持工具调用的多模态 Agent 底座
12月5日
15:34
美团 LongCat:HuggingFace 新模型
美团 LongCat-Image-Edit 图像编辑项目

美团发布 LongCat-Image-Edit 图像编辑项目,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,通过开放协作促进全球开发者共同参与技术创新,推动先进图像编辑能力的广泛可及。

Hugging Face图像生成模型发布
12月4日
21:02
美团 LongCat:HuggingFace 新模型
美团 LongCat-Image-Dev 开源图像项目

美团发布 LongCat-Image-Dev 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目作为 LongCat 系列的图像开发版本,旨在降低 AI 技术门槛,促进全球开发者协作创新,体现了美团在人工智能领域拥抱开源生态的战略布局。

Hugging Face图像生成模型发布
20:38
美团 LongCat:HuggingFace 新模型
美团-longcat/LongCat-Image

美团-longcat 推出 LongCat-Image 开源项目,致力于通过开源协作与开放科学研究推进人工智能技术的进步与民主化。该项目旨在降低 AI 技术门槛,打破技术壁垒,让先进的 AI 能力更加普惠可及,体现了通过开放生态促进 AI 技术普及的战略愿景。

Hugging Face图像生成模型发布
12月2日
00:00
Mistral AI:News(网页)
68
Mistral AI 发布 Mistral 3 系列模型(2025年12月2日)

Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型,拥有 41B 活跃参数和 675B 总参数,在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型(Ministral 14B/8B/3B),在各自类别中提供最佳性价比,其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源,具备图像理解能力,现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。

多模态推理模型发布
12月1日
18:52
公众号:DeepSeek(深度求索)
同事件精选66
DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理
智能体DeepSeek推理模型发布
同一事件,精选展示《DeepSeek-V3 正式发布》
推荐理由:半年前的这版更新,把 Agent 和思考推理揉进了开源模型,回头看算是 DeepSeek 在智能体能力上的关键一刀,做 Agent 开发的至今绕不开它。
11月25日
08:00
Hugging Face:Blog(RSS)
精选80
Diffusers 集成 FLUX-2 模型

Hugging Face 的 Diffusers 库正式集成 Black Forest Labs 开发的 FLUX-2 文生图模型。该模型拥有 120 亿参数,采用多模态扩散 Transformer 架构,在图像质量、提示遵循和分辨率方面表现优异,支持生成 1024x1024 像素图像。此次集成让开发者能通过 Diffusers API 便捷使用这一先进模型。

Hugging Face图像生成模型发布

推荐理由:FLUX-2 图像生成模型正式进入 Diffusers 生态,本地部署和微调更便捷
11月20日
23:05
Google DeepMind:Blog(RSS)
精选
Google DeepMind 发布 Nano Banana Pro 图像生成模型

Google DeepMind 发布 Nano Banana Pro 图像生成模型,基于 Gemini 3 Pro 构建,支持多语言可读文本直接渲染,可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合,保持 5 个人物形象一致性,输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品,所有生成内容均嵌入 SynthID 水印以确保透明度。

DeepMindGoogle图像生成多模态
关联讨论 2 条Google DeepMind:Blog(RSS)Ethan Mollick:One Useful Thing(RSS)
推荐理由:Google 发布 Nano Banana Pro 图像生成模型,支持多语言文本渲染与 4K 输出
11月19日
13:19
Hugging Face:Blog(RSS)
精选78
Apriel-H1:蒸馏高效推理模型的关键要素

ServiceNow-AI在Hugging Face发布博客,介绍了其提出的Apriel-H1方法,该方法通过知识蒸馏技术有效提升小型模型的推理能力。该方法的核心在于从大型模型中提取并转移复杂的推理路径,使蒸馏后的小模型在多项推理任务上表现显著提升,同时保持高效的部署性能。这一技术为在资源受限环境中部署高性能推理模型提供了新思路。

Hugging Face推理数据/训练模型发布

推荐理由:新蒸馏方法可能大幅降低推理模型部署成本,开发者可借鉴实践。
08:00
xAI:News(网页)
精选
xAI发布Grok 4.1 Fast与Agent Tools API

xAI发布Grok 4.1 Fast模型及Agent Tools API。Grok 4.1 Fast支持200万token上下文,在τ²-bench Telecom基准测试中获100%得分且成本仅105美元,函数调用准确率72%。Agent Tools API集成实时X数据、网页搜索与代码执行功能。该模型在深度研究基准测试中超越GPT-5等竞品,成本更低且幻觉率较上代降低一半。

智能体MCP/工具xAI模型发布
关联讨论 1 条xAI:News(网页)
推荐理由:xAI 发布 Grok 4.1 Fast 及 Agent Tools API,支持 2M 上下文与原生工具调用,剑指企业级 Agent 应用。
11月17日
23:09
Google DeepMind:Blog(RSS)
WeatherNext 2:我们最先进的天气预报模型

WeatherNext 2 新一代 AI 天气预测模型正式发布,作为目前最先进版本,在预测效率、准确性和分辨率上均有显著提升,支持全球范围的高精度天气预报。

DeepMindGoogle模型发布
10月30日
00:00
MiniMax:Blog(网页)
精选
MiniMax发布新一代语音模型Speech 2.6

MiniMax发布语音模型Speech 2.6,端到端延迟降至250毫秒内,支持实时对话。新增多语言特殊格式解析能力,可自动朗读URL、邮箱、电话、日期及金额,无需预处理。推出Fluent LoRA功能,即使源录音带口音也能保留音色并生成流畅语音,支持40余种语言。已被LiveKit、Vapi等平台及智能硬件采用。

智能体模型发布语音

推荐理由:MiniMax发布Speech 2.6语音模型,支持Voice Agent场景,实现超低延迟与Fluent LoRA语音克隆优化。
10月28日
00:00
MiniMax:Blog(网页)
精选
MiniMax 发布 Hailuo 2.3 / 2.3 Fast 视频模型

MiniMax 推出 Hailuo 2.3 视频生成模型,在物理动作流畅度、艺术风格化(支持动漫、水墨、游戏 CG)及角色微表情方面显著提升,维持 Hailuo 02 原价,Fast 版本批量创作成本降低 50%。Hailuo Video Agent 同步升级为 Media Agent,支持多模态一键视频生成与分步自定义创作,已全平台上线并开放免费试用。

智能体模型发布视频
关联讨论 1 条MiniMax:Blog(网页)
推荐理由:MiniMax 发布 Hailuo 2.3 视频模型及 Media Agent,支持多模态一键生成
10月27日
00:00
MiniMax:Blog(网页)
同事件精选62
MiniMax M2与AI智能体:简中见巧

MiniMax正式开源并发布了专为AI智能体(Agent)和代码场景设计的大语言模型MiniMax M2。该模型API定价极具竞争力,仅为Claude Sonnet价格的约8%,且推理速度更快。在关键的智能体能力方面,其工具调用和深度搜索表现接近顶尖模型,编程能力在国内处于领先地位。MiniMax M2旨在解决性能、价格与速度的“不可能三角”,为构建更普及的AI智能体应用提供基础,体现了其“智能平权”的愿景。

智能体开源/仓库模型发布编码
同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
推荐理由:MiniMax M2 把 Agent 模型的价格打到了 Claude 的 8%,速度还翻倍,开源权重直接可用,做 Agent 的开发者值得上手试试。
10月26日
02:14
Google DeepMind:Blog(RSS)
T5Gemma:全新的编码器-解码器 Gemma 模型系列

T5Gemma 是基于 Gemma 的编码器-解码器大语言模型新系列,采用双向编码器与自回归解码器架构,适用于翻译、摘要等序列到序列任务。

DeepMindGoogle模型发布
02:02
Google DeepMind:Blog(RSS)
精选
MedGemma:健康 AI 开发领域最强的开源多模态模型

谷歌 MedGemma 系列新增多模态模型,专为健康 AI 开发设计。作为该系列迄今最强的开源版本,新模型具备更强大的医疗场景理解能力,为开发者提供先进的医疗人工智能技术支持,助力构建更精准的健康医疗解决方案。

DeepMind多模态开源生态模型发布

推荐理由:DeepMind发布最强开放医疗多模态模型,支持开发者微调构建健康AI应用
01:34
Google DeepMind:Blog(RSS)
精选
Gemini 2.5 Flash-Lite 正式发布,可用于规模化生产

Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。

Google多模态模型发布端侧
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google轻量模型Gemini 2.5 Flash-Lite正式版发布,百万上下文多模态兼顾成本效益
10月25日
03:06
Google DeepMind:Blog(RSS)
AlphaEarth Foundations 以前所未有的细节绘制地球地图

AlphaEarth Foundations 新AI模型整合PB级地球观测数据,生成统一数据表示,以前所未有的精度革新全球测绘与监测。

DeepMind多模态数据/训练模型发布
00:04
美团 LongCat:HuggingFace 新模型
美团 LongCat-Video 项目

美团 LongCat-Video 项目秉持开源与开放科学理念,致力于推进并普及人工智能技术。该项目通过开放源代码的方式,旨在降低 AI 技术应用门槛,打破技术壁垒,促进视频领域人工智能技术的广泛传播与创新发展,体现了推动 AI 技术民主化与开源生态建设的长期愿景。

Hugging Face模型发布视频
10月24日
11:12
Google DeepMind:Blog(RSS)
精选
带 Deep Think 的 Gemini 高级版本在 IMO 中正式达到金牌标准

集成 Deep Think 的 Gemini 高级版本在国际数学奥林匹克(IMO)中达到金牌水平。IMO 自1959年起每年举办,是全球最顶尖的青年数学家竞赛,各国派出6名精英学生角逐代数、组合、几何和数论领域的6道极难题目。

DeepMindGoogle推理模型发布
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Gemini Deep Think在IMO数学竞赛达到金牌标准,推理能力获重大突破
10:58
Google DeepMind:Blog(RSS)
Aeneas 改变历史学家连接过去的方式

首个古代铭文语境化模型 Aeneas 发布,帮助历史学家解读、归属和修复残缺文本,革新历史文献研究方式。

DeepMindGoogle模型发布
08:48
美团 LongCat:HuggingFace 新模型
精选
美团开源全模态模型LongCat-Flash-Omni

美团开源全模态模型LongCat-Flash-Omni,采用5600亿参数MoE架构(激活270亿),支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家,配备轻量级编解码器及分块特征交错机制,通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro,在文档理解、语音识别及GUI控制等任务中达到领先水平。

Hugging Face多模态模型发布语音
关联讨论 1 条美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 560B 参数多模态模型,27B 激活即可实现实时音视频交互
02:50
Google DeepMind:Blog(RSS)
精选
Gemma 3 270M 发布:专为超高效 AI 打造的轻量模型

Gemma 3 系列新增 270M 参数模型,仅 2.7 亿参数,定位紧凑型超高效 AI 专业工具。

DeepMind开源生态模型发布端侧

推荐理由:Google 发布 270M 超小参数开源模型,端侧部署新选择
02:42
Google DeepMind:Blog(RSS)
VaultGemma:全球能力最强的差分隐私 LLM

VaultGemma 基于差分隐私技术从头训练,是目前能力最强的隐私保护大语言模型,在严格隐私约束下实现了顶尖性能。

DeepMind安全/对齐数据/训练模型发布
02:40
Google DeepMind:Blog(RSS)
精选
Gemini 2.5 Computer Use 模型发布

Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建,专门用于驱动能与用户界面交互的 agent,现已通过 API 以预览版形式提供。

智能体DeepMindGoogle多模态

推荐理由:Google 发布 Gemini 2.5 Computer Use 模型,支持 Agent 自主操作图形界面
02:22
Google DeepMind:Blog(RSS)
Gemma 模型助力发现潜在癌症治疗新途径

发布基于 Gemma 的 270 亿参数单细胞分析基础模型,该模型此前已协助发现潜在癌症治疗新通路。

DeepMindGoogle开源生态模型发布
10月23日
17:42
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 Flash-Omni 模型

美团 LongCat 团队发布 LongCat-Flash-Omni 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,打破技术壁垒,但目前尚未披露具体模型架构、性能基准、参数规模及应用场景等详细技术规格。

Hugging Face多模态开源生态模型发布
10月17日
11:09
美团 LongCat:HuggingFace 新模型
meituan-longcat 发布 LongCat-Audio-Codec

meituan-longcat 发布开源项目 LongCat-Audio-Codec,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在促进音频编解码技术的开放获取,推动行业技术进步与开放生态建设。

Hugging Face开源生态模型发布语音
10月10日
10:20
蚂蚁 inclusionAI:GitHub 新仓库
精选66
Ming-VideoMAR:基于连续令牌的自回归视频生成模型

Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型,采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则,并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放,能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出,参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例(9.3%、0.5%和0.2%),同时在定量与定性评估中均实现超越。模型代码与检查点已开源,论文已被NeurIPS 2025接收。

开源/仓库数据/训练模型发布视频

推荐理由:蚂蚁把自回归视频生成的训练成本砍到 Cosmos 的 0.2% 还能赢,这个效率信号比分数本身更值得关注,做视频生成的团队该认真看看它的课程学习和渐进分辨率策略。
9月30日
19:36
蚂蚁 inclusionAI:GitHub 新仓库
51
inclusionAI/Ming-UniVision

inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器,旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内,通过连续化的表示来桥接两类不同性质的视觉任务,有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。

图像生成多模态模型发布
9月29日
18:01
公众号:DeepSeek(深度求索)
59
DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
DeepSeek推理模型发布
11:23
蚂蚁 inclusionAI:GitHub 新仓库
51
inclusionAI/Ming-UniAudio

研究团队发布了Ming-UniAudio,这是一个基于统一表示的大语言模型,专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑,实现了多种语音功能的集成。它通过统一的框架,将传统上分离的语音识别、合成和修改任务整合进单一系统,提升了处理效率与协同能力。

开源生态模型发布语音
11:19
蚂蚁 inclusionAI:GitHub 新仓库
精选57
inclusionAI发布MingTok-Audio:首个统一连续语音分词器

inclusionAI团队推出了MingTok-Audio,这是首个能有效融合语义与声学特征的统一连续语音分词器,适用于语音理解与生成任务。该模型基于纯因果Transformer架构,去除了卷积层以提升效率,并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上,其帧率为50,在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04,SIM为0.96,STOI为0.98,显著优于对比模型。在下游ASR任务中,其在多个方言数据集上取得了更低的错误率,例如在Hunan Minnan数据集上WER低至9.80%。

开源/仓库模型发布语音

推荐理由:蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数,比第二名翻了快一倍,做语音理解和生成的团队值得拿这个当新 baseline 跑一下。
9月22日
23:49
蚂蚁 inclusionAI:GitHub 新仓库
49
InclusionAI/Ring-V2

InclusionAI 发布并开源了 Ring-V2,这是一个基于混合专家架构的推理大语言模型。该模型采用 MoE 设计,旨在提升复杂推理任务的性能。作为开源项目,Ring-V2 可供研究者和开发者直接使用与进一步探索。

开源生态推理模型发布
‹ 上一页
1…678910
下一页 ›