LMSYS 宣布设立奖学金计划,资助对美国开源 AI 基础设施社区有重大贡献的全日制博士生。获奖者将在未来两年内获得最高 50,000 美元用于支付学费,申请窗口为 2025 年 11 月 23 日至 12 月 7 日。评选将基于研究影响力、开源贡献及与 LMSYS 兴趣领域的契合度,申请者需邮件提交申请陈述与简历。该项目由 Ying and Lianmin Giving Fund 捐赠支持。
AnyLanguageModel 是一个 Swift 包,旨在为苹果平台上的大语言模型集成提供统一解决方案。它作为苹果原生 Foundation Models 框架的替代品,允许开发者通过相同的 API 接口,灵活调用本地模型(如通过 Core ML、MLX、llama.cpp 运行)与云端服务(如 OpenAI、Anthropic)。该方案复用苹果精心设计的 API 作为基础,大幅降低了在不同模型提供商之间切换的代码修改成本,并利用 Swift 的包特性功能避免依赖膨胀,从而简化开发流程,鼓励对本地开源模型的探索。
Hugging Face的kernels库简化了高性能深度学习内核的构建与共享,支持CUDA、ROCm等多种后端。本文以ROCm兼容内核为例,展示如何利用kernel-builder工具构建、测试并共享内核。以RadeonFlow的GEMM内核为具体案例,该内核是针对AMD Instinct MI300X GPU优化的FP8块状矩阵乘法实现,采用e4m3fnuz浮点格式和每块缩放因子以保持低精度计算准确性,并在2025年AMD开发者挑战赛中获最高奖。指南涵盖项目设置、构建配置及通过kernels社区分享的完整步骤。
Hugging Face与Google Cloud宣布建立深度战略合作,旨在将Google Cloud打造为使用开放模型的最佳平台。双方将合作构建CDN网关,把Hugging Face上的模型和数据集直接缓存在Google Cloud上,显著提升下载速度并增强供应链稳定性。Google Cloud客户在Vertex AI、GKE等服务中部署模型时将获得更快的首次响应。同时,Hugging Face的1000万开发者将受益于更多新型计算实例、价格下降以及通过Google安全技术强化的模型安全性。此次合作还将推动TPU在开放模型开发中的普及应用。
谷歌 MedGemma 系列新增多模态模型,专为健康 AI 开发设计。作为该系列迄今最强的开源版本,新模型具备更强大的医疗场景理解能力,为开发者提供先进的医疗人工智能技术支持,助力构建更精准的健康医疗解决方案。
该研究提出了一种名为“自对抗流”的新方法,旨在驯化大规模少步训练。该方法通过引入一种内部对抗机制来优化流模型在有限训练步数下的性能,有望解决大模型训练中计算成本高昂的挑战。相关工作已被顶级机器学习会议ICLR 2026接收。
Gemma 3 系列新增 270M 参数模型,仅 2.7 亿参数,定位紧凑型超高效 AI 专业工具。
美团 LongCat 团队发布 LongCat-Flash-Omni 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,打破技术壁垒,但目前尚未披露具体模型架构、性能基准、参数规模及应用场景等详细技术规格。
meituan-longcat 发布开源项目 LongCat-Audio-Codec,致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在促进音频编解码技术的开放获取,推动行业技术进步与开放生态建设。
研究团队发布了Ming-UniAudio,这是一个基于统一表示的大语言模型,专门用于语音任务。该模型能够联合处理语音的理解、生成与编辑,实现了多种语音功能的集成。它通过统一的框架,将传统上分离的语音识别、合成和修改任务整合进单一系统,提升了处理效率与协同能力。
SGLang 在发布首日即支持 DeepSeek-V3.2,该模型基于 DeepSeek-V3.1-Terminus 引入 DeepSeek Sparse Attention (DSA) 机制。DSA 通过 Lightning Indexer 和 Top-k Token Selection 将注意力复杂度从 O(L²) 降至 O(Lk),在 128K 长上下文下实现训练与推理效率大幅提升且质量损失可忽略。SGLang 实现了专用缓存与 Native Sparse Attention 后端,并提供了面向 NVIDIA、AMD MI350X/MI355X 及 NPU 的部署方案与容器镜像。
InclusionAI 发布并开源了 Ring-V2,这是一个基于混合专家架构的推理大语言模型。该模型采用 MoE 设计,旨在提升复杂推理任务的性能。作为开源项目,Ring-V2 可供研究者和开发者直接使用与进一步探索。
Mistral AI宣布完成1.7亿欧元C轮融资,投后估值达117亿欧元。本轮融资由半导体设备制造商ASML领投,DST Global、Andreessen Horowitz、NVIDIA等现有投资方参与。公司将利用这笔资金加速AI前沿研究,为战略行业提供定制化的分布式前沿AI解决方案,以解决复杂的工程和工业问题。此轮融资重申了公司的独立性。
DeepSeek-V3.1 以混合推理模型形式开源,用户可一键切换思考模式,同时 Agent 智能体支持性能得到增强。
Deep Ignorance 技术通过预训练数据过滤为开放权重 LLM 构建内置式防篡改安全防护。该方法在训练阶段筛选数据,将安全能力深度集成于模型权重,使其难以被后续微调或提示注入绕过。这一方案针对开放权重模型易被恶意修改的痛点,提供了从预训练源头建立安全屏障的新路径,在保障模型开放性的同时增强安全性。
Our open models are here. Both of them. http://openai.com/open-models
(1/n) 🚀 With FastVideo, you can now generate a 5-second video in 5 seconds on a single H200 GPU! Introducing FastWan se...
Mistral AI 发布了 Codestral 25.08 及其完整的企业编码解决方案栈。该方案旨在通过一个集成的系统,解决企业在采用 AI 编程工具时遇到的核心障碍,如部署限制、定制化不足和架构分散。新版 Codestral 25.08 的性能有所提升,其代码接受完成率提高30%,保留代码增加10%,失控生成减少50%。方案中的 Codestral Embed 是专为代码设计的嵌入向量模型,在代码检索基准测试中性能优于其他模型。整个解决方案支持部署在云端、VPC 或本地环境。
SGLang团队开源SpecForge训练框架,专为Eagle3投机解码设计,原生集成SGLang推理引擎实现训推无缝衔接。框架内置Training-Time Test支持,提供Online与Offline双模式,分别适配低存储多GPU与高存储低GPU场景。基于ShareGPT和UltraChat 32万样本的实验显示,Llama 4 Maverick与Scout draft模型在MT-Bench上分别实现2.18倍与2.0倍推理加速。
Mooncake团队基于OME和SGLang框架,在128张H200 GPU集群上完成了Moonshot AI 1万亿参数开源MoE模型Kimi K2的大规模部署。该方案采用PD分离与大规模专家并行技术,针对模型384个专家和每token 320亿激活参数的设计进行优化,通过跨节点通信优化与负载均衡策略,显著提升了trillion-scale模型的推理吞吐与并发处理能力。
Mistral AI 发布了开源语音理解模型 Voxtral,提供 24B 和 3B 两个参数版本,均基于 Apache 2.0 协议开放。模型支持 32k token 上下文窗口,可处理最长 30 分钟的音频转录或 40 分钟的内容理解。其 API 提供了针对转录优化的 Voxtral Mini Transcribe 版本,在成本和延迟效率上表现突出。根据基准测试,Voxtral 在英语短文本及 Mozilla Common Voice 等多项指标上超越了 OpenAI Whisper 与 ElevenLabs Scribe,实现了同等性能下价格不到同类闭源 API 一半的优势。
Mistral AI 与 All Hands AI 合作发布了新的 Devstral 模型,旨在增强 AI 智能体的编程能力。其中,Devstral Small 1.1 是一款开源模型(Apache 2.0 许可),仅有 24B 参数,在 SWE-Bench Verified 基准测试中达到 53.6% 的成绩,成为同类开源模型的新标杆。Devstral Medium 则通过 API 提供,在相同基准上取得 61.6% 的高分,性能超越 Gemini 2.5 Pro 和 GPT 4.1,且价格更具竞争力。两款模型均提供公共 API 访问。
Oracle Cloud Infrastructure 推出 OME(Open Model Engine),一款 Kubernetes-native 的模型服务框架。该系统采用模型驱动架构,通过 BaseModel、ServingRuntime 等自定义资源将模型视为一等公民,有效弥合 ML 工程师与生产团队之间的鸿沟。OME 将模型上线周期从数月压缩至数天,显著减少配置错误,并原生支持多节点推理、Prefill-decode 分离、Serverless 自动扩缩容及 Multi-LoRA 等企业级特性,集成 SGLang 运行时,实现复杂部署策略的编码复用与一键部署。
Mistral AI发布“AI for Citizens”计划,旨在帮助各国政府及公共机构本土化应用人工智能,以改善公共服务。该计划基于开放、协作、选择与自主的原则,旨在对抗当前主导的、由封闭系统主导的“一刀切”模式。它提供涵盖前沿模型的全套技术,并支持自托管、本地化数据中心部署或SaaS/API调用等多种部署方式,以确保数据主权,同时可与客户共同研发针对特定语言和文化的定制模型。Mistral AI已与法国、新加坡、荷兰等多国政府及公共机构开展合作。
In the current AI talent war, everyone is focused on the big numbers (alleged compensation packages). It misses the bigg...
Mistral AI 发布了其首个推理模型 Magistral,包含开源版 Magistral Small(24B 参数)和企业版 Magistral Medium。在 AIME2024 上,Magistral Medium 得分为 73.6%,Magistral Small 为 70.7%。该模型核心特点是支持透明的多步推理,并能在 Le Chat 中以 10 倍于多数竞品的速度运行。Magistral 原生支持包括英语、法语、简体中文在内的多语言推理。开源版 Magistral Small 以 Apache 2.0 许可证发布。
Mistral AI 推出企业级 AI 编程助手 Mistral Code。该产品基于开源项目 Continue 构建,集成了 Codestral、Codestral Embed、Devstral 和 Mistral Medium 四个模型,分别用于代码补全、代码搜索、智能体编码和对话辅助。Mistral Code 支持 80 多种编程语言,并提供私有化部署、模型微调及企业级管控功能。目前,包括 Abanca、SNCF 和 Capgemini 在内的多家企业已在混合云或本地环境中部署该产品。目前该产品已开放私有测试。
Mistral AI 与 All Hands AI 合作推出 Devstral,一款专注于解决真实世界 GitHub 问题的智能体大语言模型。该模型需在 OpenHands 或 SWE-Agent 等代码智能体框架中运行。在 SWE-Bench Verified 基准测试中,Devstral 获得 46.8% 的分数,超越此前的开源最先进模型超过 6 个百分点。在相同测试框架下,其表现优于 DeepSeek-V3-0324 和 Qwen3 232B-A22B,并且比闭源的 GPT-4.1-mini 高出超过 20%。Devstral 以 Apache 2.0 许可证开源,可在单张 RTX 4090 或配备 32GB 内存的 Mac 上本地部署,亦可通过 API 调用。
Mistral AI 发布 Mistral Medium 3 模型,主打顶尖性能与高性价比。该模型在各项基准测试中达到或超过 Claude Sonnet 3.7 表现的90%,但成本显著更低(API 定价为 $0.4 / 百万输入 token 和 $2 / 百万输出 token)。其性能超越 Llama 4 Maverick 等开源模型及 Cohere Command A 等企业模型,成本也优于 DeepSeek v3。该模型擅长编码和多模态理解等专业任务,并支持混合或本地部署、定制微调及集成企业系统,现已可通过多个平台调用。
SGLang团队开源了基于96块H100 GPU(12节点×8卡)的DeepSeek推理系统实现,采用PD分离(Prefill-Decode Disaggregation)与大规模专家并行(EP)架构,集成DeepEP、DeepGEMM和EPLB完整功能,在2000 token输入序列下达成每节点每秒52.3k输入token和22.3k输出token的吞吐量。该方案较传统张量并行提升输出吞吐量5倍,将成本压缩至每百万输出token仅0.20美元,约为官方API价格的五分之一,是首个在开源实现中接近官方DeepSeek报告性能的大规模部署方案。
Excited to announce GR00T N1, the world's first open foundation model for humanoid robots! We are on a mission to democr...
Mistral AI 于2025年3月17日发布 Mistral Small 3.1。该模型在 Mistral Small 3 基础上改进,支持最高 128k tokens 上下文窗口,推理速度达 150 tokens/秒,并支持多模态理解。官方称其性能超越了 Gemma 3 和 GPT-4o Mini 等同量级模型。Mistral Small 3.1 以 Apache 2.0 许可开源,基础模型与指令微调模型均已发布。模型轻量化,可在单张 RTX 4090 或配备 32GB RAM 的 Mac 上运行,适用于对话助手、函数调用、专业领域微调及构建推理模型等多种场景。
DeepSeek AI 预告开源周活动,将于下周起陆续开源 5 个代码仓库。作为探索 AGI 的小团队,他们计划透明分享那些已在生产环境中实战验证的代码模块。团队相信开源社区的集体力量能加速行业进步,强调此次发布将摒弃象牙塔式的封闭开发,以"车库能量"和社区驱动创新的形式呈现。
Today, we are excited to announce Thinking Machines Lab (https://thinkingmachines.ai/), an artificial intelligence resea...
OpenRouter 新增 Cloudflare 作为模型提供商,即日起提供 Google 的 Gemma 模型及多个流行的 Llama 系列模型。