Arcee AI 发布开源大模型 Trinity Large,标志着其全面投入在美国本土构建开放模型的战略布局。该发布作为 Interconnects 第16期访谈的核心内容,彰显该公司对开源生态与数据主权的承诺。Trinity Large 的推出代表 Arcee AI 在本土 AI 基础设施建设上的关键进展,强调模型训练与开发的地理合规性及技术自主性。
Hugging Face发布博客文章,探讨中国开源人工智能生态系统的核心架构选择与发展路径。文章聚焦于如何构建一个超越现有模型(如DeepSeek)的可持续技术体系,分析了中国开发者在模型架构、训练框架、部署工具和社区协作等方面的关键决策。文中指出,中国开源社区正致力于打造独立且互操作的技术栈,以应对大规模模型训练与推理的独特挑战,并推动全球AI生态的多元化发展。
美团 LongCat 团队发布开源模型 LongCat-Flash-Lite,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 应用门槛,为开发者社区提供轻量级技术基础设施,助力先进人工智能能力的广泛获取与开放协作。
美团 LongCat 团队发布 Flash-Thinking-ZigZag 模型,延续通过开源与开放科学推进人工智能民主化的技术路线。该项目致力于降低 AI 应用门槛,以开源方式使先进技术更广泛地惠及开发者社区,推动 AI 技术的普及与可持续发展。
GLM-4.7-Flash 开源并免费开放 API,支持通过 Hugging Face 和魔搭社区部署。上一代 GLM-4.5-Flash 将于 2026 年 1 月 30 日下线,届时相关请求将自动路由至新版。
OpenAI 正通过开源与开放科学推进人工智能的民主化进程。其核心目标是降低 AI 技术的门槛,促进更广泛的参与和创新。这一举措将推动研究透明化,加速技术迭代,并鼓励全球协作共同构建 AI 的未来。
智谱联合华为开源多模态生成模型GLM-Image,为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构,在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一,支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张,代码已开源至GitHub、Hugging Face及魔搭社区。
蚂蚁集团联合浙江省卫健委开源基于百灵高效 MoE 基座 Ling-flash-base-2.0 训练的医疗大模型 AntAngelMed(蚂蚁·安诊儿)。模型总参数 100B,仅 1/32 激活(6.1B)即可媲美约 40B 稠密模型性能,实现约 7 倍性能杠杆。基于 40T+ tokens 高质量语料、20T+ tokens 预训练。在 OpenAI 发起的 HealthBench 评测中登顶全球开源医疗模型第一。训练采用三阶段流程:持续预训练注入医学语料、监督微调、双阶段 GRPO 强化学习。模型已开源,可在 HuggingFace 和 ModelScope 获取。
阿联酋技术创新研究院在Hugging Face发布了Falcon-H1-Arabic模型。该模型采用创新的混合架构,融合了自回归与自编码技术,专门针对阿拉伯语进行优化。其目标是通过提升对阿拉伯语复杂语法和丰富形态的理解与生成能力,显著推进阿拉伯语人工智能的发展。这一发布标志着阿拉伯语大语言模型在技术架构上取得了重要进展。
SpecForge团队联合蚂蚁、美团、Nex-AGI与EigenAI发布SpecBundle第一阶段及SpecForge v0.2框架。SpecBundle提供基于大规模数据集训练的生产级EAGLE-3草稿模型,覆盖Llama-3.1/3.3/4、Qwen3、Kimi-K2等十余种主流架构,解决开源社区高质量草稿模型稀缺问题。SpecForge v0.2重构数据处理管道,数据再生速度提升10倍,并新增多后端支持,进一步增强系统可扩展性与生产就绪能力。
小米开源了 MiMo-V2-Flash 模型,定位为高效推理、代码与 Agent 基座模型,其 Agent 综合能力在全球开源模型中排名第二。
Gemma Scope 2 正式发布,面向整个 Gemma 3 模型家族推出开放可解释性工具,助力 AI 安全社区深入理解复杂语言模型行为。
GLM-TTS 采用 GRPO 多奖励强化学习框架,融合字符错误率、相似度、情感及笑声奖励,实现 3 秒零样本音色克隆。在 seed-tts-eval 测试中 CER 低至 0.89% 达开源 SOTA,情感表达显著优于阿里、百度等商用模型。支持 15% 参数 LoRA 微调定制精品音色,通过 Phoneme-in 混合输入精准控制多音字发音,配合自研 2D-Vocos 声码器提升音质与音域覆盖。
蚂蚁集团 DeepXPU 团队与 SGLang 团队联合发布 Tensor R-Fork(Tensor Remote Fork)技术,通过 GPU-Direct RDMA 实现节点间设备到设备的零拷贝权重传输。该技术可将 Deepseek-R1 模型的加载时间从数分钟缩短至数秒,减少约 600GB 的本地磁盘与 DRAM 存储占用,并提供 NCCL 和 TransferEngine 两种后端方案,后者可在不干扰线上推理服务的情况下完成权重迁移。
LMSYS 宣布设立奖学金计划,资助对美国开源 AI 基础设施社区有重大贡献的全日制博士生。获奖者将在未来两年内获得最高 50,000 美元用于支付学费,申请窗口为 2025 年 11 月 23 日至 12 月 7 日。评选将基于研究影响力、开源贡献及与 LMSYS 兴趣领域的契合度,申请者需邮件提交申请陈述与简历。该项目由 Ying and Lianmin Giving Fund 捐赠支持。
AnyLanguageModel 是一个 Swift 包,旨在为苹果平台上的大语言模型集成提供统一解决方案。它作为苹果原生 Foundation Models 框架的替代品,允许开发者通过相同的 API 接口,灵活调用本地模型(如通过 Core ML、MLX、llama.cpp 运行)与云端服务(如 OpenAI、Anthropic)。该方案复用苹果精心设计的 API 作为基础,大幅降低了在不同模型提供商之间切换的代码修改成本,并利用 Swift 的包特性功能避免依赖膨胀,从而简化开发流程,鼓励对本地开源模型的探索。
Hugging Face的kernels库简化了高性能深度学习内核的构建与共享,支持CUDA、ROCm等多种后端。本文以ROCm兼容内核为例,展示如何利用kernel-builder工具构建、测试并共享内核。以RadeonFlow的GEMM内核为具体案例,该内核是针对AMD Instinct MI300X GPU优化的FP8块状矩阵乘法实现,采用e4m3fnuz浮点格式和每块缩放因子以保持低精度计算准确性,并在2025年AMD开发者挑战赛中获最高奖。指南涵盖项目设置、构建配置及通过kernels社区分享的完整步骤。
Hugging Face与Google Cloud宣布建立深度战略合作,旨在将Google Cloud打造为使用开放模型的最佳平台。双方将合作构建CDN网关,把Hugging Face上的模型和数据集直接缓存在Google Cloud上,显著提升下载速度并增强供应链稳定性。Google Cloud客户在Vertex AI、GKE等服务中部署模型时将获得更快的首次响应。同时,Hugging Face的1000万开发者将受益于更多新型计算实例、价格下降以及通过Google安全技术强化的模型安全性。此次合作还将推动TPU在开放模型开发中的普及应用。
谷歌 MedGemma 系列新增多模态模型,专为健康 AI 开发设计。作为该系列迄今最强的开源版本,新模型具备更强大的医疗场景理解能力,为开发者提供先进的医疗人工智能技术支持,助力构建更精准的健康医疗解决方案。
该研究提出了一种名为“自对抗流”的新方法,旨在驯化大规模少步训练。该方法通过引入一种内部对抗机制来优化流模型在有限训练步数下的性能,有望解决大模型训练中计算成本高昂的挑战。相关工作已被顶级机器学习会议ICLR 2026接收。
Gemma 3 系列新增 270M 参数模型,仅 2.7 亿参数,定位紧凑型超高效 AI 专业工具。
美团 LongCat 团队发布 LongCat-Flash-Omni 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,打破技术壁垒,但目前尚未披露具体模型架构、性能基准、参数规模及应用场景等详细技术规格。
meituan-longcat 发布开源项目 LongCat-Audio-Codec,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在促进音频编解码技术的开放获取,推动行业技术进步与开放生态建设。
研究团队发布了Ming-UniAudio,这是一个基于统一表示的大语言模型,专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑,实现了多种语音功能的集成。它通过统一的框架,将传统上分离的语音识别、合成和修改任务整合进单一系统,提升了处理效率与协同能力。
SGLang 在发布首日即支持 DeepSeek-V3.2,该模型基于 DeepSeek-V3.1-Terminus 引入 DeepSeek Sparse Attention (DSA) 机制。DSA 通过 Lightning Indexer 和 Top-k Token Selection 将注意力复杂度从 O(L²) 降至 O(Lk),在 128K 长上下文下实现训练与推理效率大幅提升且质量损失可忽略。SGLang 实现了专用缓存与 Native Sparse Attention 后端,并提供了面向 NVIDIA、AMD MI350X/MI355X 及 NPU 的部署方案与容器镜像。
InclusionAI 发布并开源了 Ring-V2,这是一个基于混合专家架构的推理大语言模型。该模型采用 MoE 设计,旨在提升复杂推理任务的性能。作为开源项目,Ring-V2 可供研究者和开发者直接使用与进一步探索。
Mistral AI宣布完成1.7亿欧元C轮融资,投后估值达117亿欧元。本轮融资由半导体设备制造商ASML领投,DST Global、Andreessen Horowitz、NVIDIA等现有投资方参与。公司将利用这笔资金加速AI前沿研究,为战略行业提供定制化的分布式前沿AI解决方案,以解决复杂的工程和工业问题。此轮融资重申了公司的独立性。
DeepSeek-V3.1 以混合推理模型形式开源,用户可一键切换思考模式,同时 Agent 智能体支持性能得到增强。
Deep Ignorance 技术通过预训练数据过滤为开放权重 LLM 构建内置式防篡改安全防护。该方法在训练阶段筛选数据,将安全能力深度集成于模型权重,使其难以被后续微调或提示注入绕过。这一方案针对开放权重模型易被恶意修改的痛点,提供了从预训练源头建立安全屏障的新路径,在保障模型开放性的同时增强安全性。
Mistral AI 发布了 Codestral 25.08 及其完整的企业编码解决方案栈。该方案旨在通过一个集成的系统,解决企业在采用 AI 编程工具时遇到的核心障碍,如部署限制、定制化不足和架构分散。新版 Codestral 25.08 的性能有所提升,其代码接受完成率提高30%,保留代码增加10%,失控生成减少50%。方案中的 Codestral Embed 是专为代码设计的嵌入向量模型,在代码检索基准测试中性能优于其他模型。整个解决方案支持部署在云端、VPC 或本地环境。
SGLang团队开源SpecForge训练框架,专为Eagle3投机解码设计,原生集成SGLang推理引擎实现训推无缝衔接。框架内置Training-Time Test支持,提供Online与Offline双模式,分别适配低存储多GPU与高存储低GPU场景。基于ShareGPT和UltraChat 32万样本的实验显示,Llama 4 Maverick与Scout draft模型在MT-Bench上分别实现2.18倍与2.0倍推理加速。
Mooncake团队基于OME和SGLang框架,在128张H200 GPU集群上完成了Moonshot AI 1万亿参数开源MoE模型Kimi K2的大规模部署。该方案采用PD分离与大规模专家并行技术,针对模型384个专家和每token 320亿激活参数的设计进行优化,通过跨节点通信优化与负载均衡策略,显著提升了trillion-scale模型的推理吞吐与并发处理能力。
Mistral AI 发布了开源语音理解模型 Voxtral,提供 24B 和 3B 两个参数版本,均基于 Apache 2.0 协议开放。模型支持 32k token 上下文窗口,可处理最长 30 分钟的音频转录或 40 分钟的内容理解。其 API 提供了针对转录优化的 Voxtral Mini Transcribe 版本,在成本和延迟效率上表现突出。根据基准测试,Voxtral 在英语短文本及 Mozilla Common Voice 等多项指标上超越了 OpenAI Whisper 与 ElevenLabs Scribe,实现了同等性能下价格不到同类闭源 API 一半的优势。
Mistral AI 与 All Hands AI 合作发布了新的 Devstral 模型,旨在增强 AI 智能体的编程能力。其中,Devstral Small 1.1 是一款开源模型(Apache 2.0 许可),仅有 24B 参数,在 SWE-Bench Verified 基准测试中达到 53.6% 的成绩,成为同类开源模型的新标杆。Devstral Medium 则通过 API 提供,在相同基准上取得 61.6% 的高分,性能超越 Gemini 2.5 Pro 和 GPT 4.1,且价格更具竞争力。两款模型均提供公共 API 访问。
Oracle Cloud Infrastructure 推出 OME(Open Model Engine),一款 Kubernetes-native 的模型服务框架。该系统采用模型驱动架构,通过 BaseModel、ServingRuntime 等自定义资源将模型视为一等公民,有效弥合 ML 工程师与生产团队之间的鸿沟。OME 将模型上线周期从数月压缩至数天,显著减少配置错误,并原生支持多节点推理、Prefill-decode 分离、Serverless 自动扩缩容及 Multi-LoRA 等企业级特性,集成 SGLang 运行时,实现复杂部署策略的编码复用与一键部署。
Mistral AI发布“AI for Citizens”计划,旨在帮助各国政府及公共机构本土化应用人工智能,以改善公共服务。该计划基于开放、协作、选择与自主的原则,旨在对抗当前主导的、由封闭系统主导的“一刀切”模式。它提供涵盖前沿模型的全套技术,并支持自托管、本地化数据中心部署或SaaS/API调用等多种部署方式,以确保数据主权,同时可与客户共同研发针对特定语言和文化的定制模型。Mistral AI已与法国、新加坡、荷兰等多国政府及公共机构开展合作。
Mistral AI 发布了其首个推理模型 Magistral,包含开源版 Magistral Small(24B 参数)和企业版 Magistral Medium。在 AIME2024 上,Magistral Medium 得分为 73.6%,Magistral Small 为 70.7%。该模型核心特点是支持透明的多步推理,并能在 Le Chat 中以 10 倍于多数竞品的速度运行。Magistral 原生支持包括英语、法语、简体中文在内的多语言推理。开源版 Magistral Small 以 Apache 2.0 许可证发布。
Mistral AI 推出企业级 AI 编程助手 Mistral Code。该产品基于开源项目 Continue 构建,集成了 Codestral、Codestral Embed、Devstral 和 Mistral Medium 四个模型,分别用于代码补全、代码搜索、智能体编码和对话辅助。Mistral Code 支持 80 多种编程语言,并提供私有化部署、模型微调及企业级管控功能。目前,包括 Abanca、SNCF 和 Capgemini 在内的多家企业已在混合云或本地环境中部署该产品。目前该产品已开放私有测试。