3月5日

00:53

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/AReaL-tau2-retail-sft-30B 发布

inclusionAI 发布了针对零售业优化的 AReaL-tau2-retail-sft-30B 模型，参数量达 300 亿，采用监督微调技术。该模型致力于通过开源与开放科学推动人工智能的进步与普及，旨在降低技术使用门槛，促进AI在零售领域的专业化应用与创新。

开源/仓库模型发布端侧

00:30

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/AReaL-tau2-airline-sft-30B 发布

inclusionAI团队发布了AReaL-tau2-airline-sft-30B模型。这是一个基于开源与开放科学理念开发的、参数规模达300亿的大型语言模型。该模型的发布旨在推动人工智能技术的进步与民主化，其具体训练数据与性能指标尚未在本次公告中详细披露。

开源/仓库模型发布部署/工程

3月4日

16:25

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/ZwZ-2B

inclusionAI 发布了 ZwZ-2B 模型，这是一个拥有 20 亿参数的开源语言模型。该模型旨在通过开源和开放科学的方式推动人工智能的进步与民主化。其上下文处理长度扩展至 128K，并在多项基准测试中性能显著提升，特别是在代码生成和数学推理任务上表现出色。ZwZ-2B 的发布为研究者和开发者提供了一个更易获取的高性能 AI 工具。

开源/仓库模型发布端侧

09:00

公众号：阶跃星辰（Step）

阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源

阶跃星辰将 Step 3.5 Flash 的预训练、中训练和训练框架全部开源，支持开发者进行更深度模型定制，以打造专属 AI 智能体。

开源/仓库开源生态数据/训练

3月2日

17:58

公众号：小红书技术（dots.llm）

FireRed-OCR 开源发布：端到端方案新SOTA！小红书提出低成本文档识别训练范式

FireRed-OCR 开源发布，为端到端方案新SOTA，小红书提出低成本文档识别训练范式，无缝兼容Qwen系列加速方案，是开箱即用的工业级OCR结构化专家。

多模态开源/仓库

3月1日

17:56

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/AReaL-SEA-235B-A22B

inclusionAI团队宣布推出AReaL-SEA-235B-A22B模型，致力于通过开源与开放科学推动人工智能技术的进步与民主化。该举措旨在降低AI研究与应用的参与门槛，促进全球开发者及研究者更广泛地获取和使用先进AI工具。模型规模达2350亿参数，体现了其在处理复杂任务方面的潜力，同时强调开放协作对加速AI创新与社会普惠的关键作用。

开源/仓库推理模型发布

2月27日

21:02

公众号：月之暗面（Kimi）

Kimi API：用90%缓存命中率，把价格打到25%

Kimi K2.5 多模态模型的 API 输入成本，在 90% 缓存命中率下，实际价格为 1.03 元/M tokens，仅为标准定价 4 元/M tokens 的 2.5 折。Kimi API 缓存命中率通常在 85%-95% 之间波动，核心支撑是与清华大学合作研发的 Mooncake 推理架构，该架构获存储顶会 FAST 2025 最佳论文，并已开源。

开源/仓库推理教程/实践部署/工程

2月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 在 NVIDIA GB300 NVL72 上实现 25 倍推理性能突破

SGLang 与 NVIDIA 合作，在最新 GB300 NVL72 服务器上实现相比 H200 最高 25 倍的推理性能提升。基于 Blackwell Ultra GPU 的架构升级包括 1.5 倍 FP4 算力和 2 倍 Softmax 吞吐量，结合 NVFP4 GEMM 低精度计算、计算通信重叠及与 NVIDIA Dynamo 的集成优化，DeepSeek R1 等 MoE 模型在 InferenceXv2 基准测试中达成突破性表现。同时，GB200 NVL72 平台性能在 4 个月内提升 8 倍，显著降低大模型部署的延迟与成本。

开源/仓库推理部署/工程

2月19日

00:00

LMSYS：Blog（Chatbot Arena 团队）

GB300 NVL72部署DeepSeek R1优化方案：长上下文推理性能突破

NVIDIA与SGLang团队发布DeepSeek R1-NVFP4在GB300 NVL72上的优化部署方案，针对128K/8K长上下文推理实现显著性能提升。通过PD分离、分块流水线并行、宽专家并行及多Token预测（MTP）等技术，系统在GB300上达226 TPS/GPU峰值吞吐量，较GB200提升1.53倍；相同延迟下性能领先1.4–1.6倍。MTP可再提升每用户TPS达1.87倍，128K预填充首Token延迟降至8.6秒。

DeepSeek 开源/仓库推理部署/工程

2月16日

09:52

公众号：蚂蚁百灵（Ling）

Ling-2.5-1T 开源发布：深度思考模型拉升智能上限，即时模型平衡效率与覆盖

蚂蚁百灵发布并开源 Ling-2.5-1T，包含深度思考模型（thinking model）与即时模型（instant model）两类。深度思考模型旨在拉高智能上限，即时模型则在效率与效果之间取得平衡，拓宽智能覆盖范围。该版本在模型架构、token 效率、偏好对齐等维度实现全面升级。

开源/仓库推理模型发布

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang-Diffusion：面向生产级视频生成的高级优化

SGLang-Diffusion发布六项生产级优化，包括Token级序列分片替代帧级方案，消除14.3%的padding开销并将通信量降至0.875倍；并行折叠技术解耦文本编码器与DiT的并行策略；并行VAE实现分布式编解码，消除高分辨率视频内存瓶颈。同时修复Cache-DiT多请求稳定性问题，优化视频保存I/O性能，并针对WanVideo融合LayerNorm内核。这些改进显著提升了视频生成框架的可扩展性、效率与稳定性。

开源/仓库视频部署/工程

2月12日

18:22

公众号：小红书技术（dots.llm）

小红书发布 FireRed-Image-Edit：图像编辑新 SOTA

小红书基础模型 FireRed-Image-Edit 在 GitHub 上正式亮相，该模型专注于图像编辑任务，并达到新的最佳性能（新 SOTA）。

GitHub 图像生成开源/仓库模型发布

16:52

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/ZwZ-8B

inclusionAI发布了ZwZ-8B模型，这是一个拥有80亿参数的开源人工智能模型。该模型旨在通过开源和开放科学的方式，推动人工智能技术的进步与普及。此举是inclusionAI推进AI民主化进程的一部分，致力于让更广泛的社区能够访问和利用先进的AI技术。

开源/仓库模型发布端侧

08:00

Hugging Face：Blog（RSS）

精选83

实践中的OpenEnv：在真实环境中评估工具使用智能体

Meta与Hugging Face联合推出开源评估框架OpenEnv，旨在标准化智能体与真实系统的交互。Turing公司贡献了生产级“Calendar Gym”环境，用于在权限控制、时间推理等现实约束下研究工具使用智能体。该框架采用类似Gymnasium的API，通过标准接口连接真实工具，将评估重点从受控演示转向真实世界可靠性。日历系统因涉及多用户、多步骤工作流等复杂性，成为评估智能体实际能力的强大测试平台。

智能体 Hugging Face MCP/工具 Meta

推荐理由：提供生产级基准测试，帮助开发者评估和改进 AI 代理在复杂环境中的表现。

2月11日

18:55

蚂蚁 inclusionAI：GitHub 新仓库

精选61

inclusionAI 发布高性能量化推理 GEMM 内核库 Humming

inclusionAI 开源了 Humming，这是一个专为量化推理设计的高性能、轻量级即时编译 GEMM 内核库。它支持在 FP16、BF16、FP8 等多种激活数据类型下进行 8 比特以下任意权重类型的推理，兼容多种量化策略与缩放类型，并同时支持稠密 GEMM 和混合专家 GEMM 运算。该库兼容 SM75+ 及以上的所有 NVIDIA GPU，在多种计算场景下能提供业界领先的吞吐量和效率。其依赖极简，仅需 PyTorch 和 NVCC，软件包大小仅约 100 KB，便于超轻量化部署。

开源/仓库推理部署/工程

推荐理由：蚂蚁 inclusionAI 开源了一个 100KB 级的量化 GEMM 库，支持从 INT1 到 FP8 全家桶，SM75+ 全覆盖，做推理部署的工程师值得花半小时跑一下 benchmark，看看能不能替换掉现有的 Marlin 方案。

18:52

蚂蚁 inclusionAI：GitHub 新仓库

精选65

inclusionAI发布新一代即时大模型Ling-2.5-1T

inclusionAI推出新一代旗舰即时模型Ling-2.5-1T，其总参数量达1T，活跃参数为63B，预训练语料扩展至29T tokens。该模型采用混合线性注意力架构，支持1M tokens上下文长度，并通过结合“正确性”与“过程冗余”的复合奖励机制，在相近的token效率下，其推理能力显著超越前代，接近前沿思维模型水平。经双向RL反馈和智能体验证等对齐策略优化，模型在创意写作和指令遵循任务上表现提升。它已兼容主流智能体平台，并在通用工具调用基准BFCL-V4上取得领先的开源性能。

开源/仓库推理模型发布部署/工程

推荐理由：蚂蚁把 1T 参数的即时模型开源了，63B 活跃参数加 1M 上下文，主打效率而非堆算力，对国内做开源推理模型的团队来说是个值得对标的基线。

18:52

蚂蚁 inclusionAI：GitHub 新仓库

精选78

inclusionAI发布全球首个开源万亿参数思维模型Ring-2.5-1T

inclusionAI发布了全球首个基于混合线性注意力架构的开源万亿参数思维模型Ring-2.5-1T。该模型通过高效的1:7 MLA与闪电线性注意力提升了推理速度与探索能力，并借助扩展的强化学习训练增强了深度思考和长程任务执行能力。其在IMO 2025和CMO 2025数学竞赛中均达到了金牌级别的性能。模型支持128K上下文长度，并可通过YaRN技术扩展至256K，现已于Hugging Face和ModelScope平台开源。部署方面，已支持SGLang，并提供了多GPU节点的服务器启动示例。

开源/仓库推理模型发布部署/工程

推荐理由：蚂蚁把万亿参数的开源 thinking model 放出来了，混合线性注意力架构是真新路线而非换皮，IMO/CMO 金牌级数学推理说明这不是纯堆参数。做开源大模型部署的团队值得认真看看它的架构选择。

2月10日

20:09

公众号：小红书技术（dots.llm）

懂剪辑，更懂叙事：FireRed-OpenStoryline--首个开源具备导演思维的视频剪辑Agent

FireRed-OpenStoryline 今日正式开源，成为首个具备导演思维的视频剪辑Agent，将大模型能力从文本、图像拓展至视频剪辑领域。

智能体多模态开源/仓库视频

11:39

公众号：腾讯混元

首个产业级2Bit量化新突破，腾讯混元开源0.3B端侧模型

腾讯混元开源0.3B端侧模型，实现首个产业级2Bit量化突破。在真实端侧设备上，相比原始精度模型，生成速度提升2—3倍。

开源/仓库模型发布端侧

2月9日

18:47

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/LLaDA2.1-flash

inclusionAI 团队发布了 LLaDA2.1-flash 模型，致力于通过开源与开放科学推动人工智能的进步与民主化。该版本在推理速度与内存效率上显著提升，响应延迟降低约40%，同时保持与前一版本相当的准确率。模型参数规模为70亿，支持多模态输入，并优化了边缘设备部署能力。这一进展旨在降低AI技术应用门槛，促进更广泛的研究与产业落地。

开源/仓库模型发布端侧

15:55

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/UI-Venus-1.5-30B-A3B 发布

inclusionAI 团队发布了 UI-Venus-1.5-30B-A3B 模型。该模型参数量达到 300亿（30B），是 Venus 系列的最新版本。此次发布延续了通过开源和开放科学来推进人工智能民主化的核心目标，旨在让先进AI技术更广泛可及。新版本预计在模型性能或效率上有所提升，具体技术细节和基准测试结果有待进一步公布。

开源/仓库模型发布端侧

08:00

Hugging Face：Blog（RSS）

精选76

Transformers.js v4：现已在 NPM 上发布！

Transformers.js 发布第四个主要版本 v4，该版本现已通过 NPM 包管理器提供。这一更新延续了项目通过开源与开放科学推动人工智能技术进步与普及的使命，使开发者能够更便捷地获取并在项目中集成这一机器学习库。

Hugging Face 开源/仓库端侧部署/工程

推荐理由：浏览器和 Node.js 直接跑 HF 模型的大版本升级，前端开发者可零门槛接入 AI

2月6日

00:52

Hugging Face：Blog（RSS）

ServiceNow AI 发布 SyGra Studio：低代码知识图谱构建平台

ServiceNow AI 在 Hugging Face 上推出了 SyGra Studio，这是一个低代码平台，旨在简化知识图谱的构建、可视化与分析。该平台允许用户通过直观界面整合多源数据，并支持与 GPT、Claude 等大语言模型集成，以增强语义理解和推理能力，显著降低了领域专家构建知识图谱的技术门槛。

Hugging Face 开源/仓库部署/工程

2月5日

11:24

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Ling 项目官网

inclusionAI 正式推出 Ling 项目的官方网站，该网站约 95% 的内容和功能由人工智能技术构建完成。这一举措展示了 AI 在网站开发与内容生成领域的高度参与度，标志着项目在技术整合与应用层面的重要进展。

开源/仓库行业动态

2月4日

18:40

公众号：腾讯混元

腾讯混元开源HPC-Ops算子库，推理吞吐提升30%

腾讯混元开源生产级高性能LLM推理核心算子库HPC-Ops，可带来30%的推理吞吐提升。

开源/仓库推理部署/工程

2月2日

21:03

Nathan Lambert：Interconnects（RSS）

本期开源模型动态涵盖 Arcee 400B MoE、LiquidAI 1B 及新版 Kimi 等实用小众模型。Arcee 发布 4000 亿参数 MoE 架构模型，LiquidAI 推出性能被低估的 10 亿参数方案，Kimi 迎来重要更新。业界预期本月将迎来密集的大模型发布潮，多款重要产品即将面世。

开源/仓库开源生态端侧

1月30日

15:55

蚂蚁 inclusionAI：GitHub 新仓库

精选61

高效离线推理框架 Flood：吞吐量显著领先，支持多模态与量化

Flood 是一款面向离线应用的高效大语言模型推理框架。它采用流水线并行降低通信开销，并通过分段式KV缓存管理提升连续性。框架支持连续批处理、分块预填充、FP8/INT8量化及多模态模型推理。性能测试表明，其在多种模型和硬件上的吞吐量最高可达 vLLM 的 2.4 倍。其专用内核 SegmentAttention 在处理长序列时，解码速度较 FlashAttention 最高提升 3.16 倍。该项目于 2025 年 3 月开源并快速迭代，已支持前瞻解码等新特性。

开源/仓库推理部署/工程

推荐理由：蚂蚁的 FLOOD 框架用流水线并行替代张量并行来压通信开销，实测吞吐比 vLLM 高 1.4 到 2.4 倍，做离线推理部署的团队值得花半小时跑一下 benchmark 看看自家场景能不能吃这个红利。

1月29日

00:00

Qwen：Blog Retrieval（API）

Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源：鲁棒、流式、多语言！

Qwen3-ASR 与 Qwen3-ForcedAligner 正式开源，具备鲁棒性、流式处理与多语言能力。Qwen Studio 同步集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能。

开源/仓库开源生态语音

1月27日

19:11

公众号：月之暗面（Kimi）

精选61

Kimi 发布并开源 K2.5 模型，带来全新视觉理解、代码和 Agent 集群能力

智能体多模态开源/仓库模型发布

推荐理由：Kimi K2.5把视觉理解和Agent集群能力打包开源，国内模型里比较早做这个组合的，虽然参数规模争议不小，但对想搭多模态Agent的团队是个可用的起点。

1月22日

00:00

Qwen：Blog Retrieval（API）

Qwen3-TTS 系列现已开源：支持语音设计、克隆与生成！

Qwen Studio 功能全面，涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 artifacts 等模块。

开源/仓库语音

00:00

Moonshot AI：Kimi Blog

精选

Kimi 供应商验证器

Kimi 发布 K2.5 模型时开源 Kimi Vendor Verifier（KVV），用于验证第三方推理实现的准确性。针对开源模型部署渠道多样化导致的质量失控问题，KVV 提供六项关键基准测试，覆盖参数约束验证、多模态流水线、长输出压力测试、工具调用一致性及编程能力评估。项目与 vLLM/SGLang 社区合作修复根因，并提供预发布验证和实时更新的公开排行榜。完整评估在双 H20 8 卡服务器上约需 15 小时。

开源/仓库评测/基准部署/工程

推荐理由：Kimi开源Vendor Verifier，系统性解决开源模型第三方部署质量验证难题

1月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang-Diffusion：发布两月进展综述

SGLang-Diffusion 最新版本（lmsysorg/sglang:dev-pr-17247）性能较初始版本提升2.5倍，在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型，完整支持LoRA格式与HTTP API，并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠，支持SP/TP混合并行及SageAttention系列后端，兼容AMD、4090、5090及MUSA硬件。

图像生成开源/仓库部署/工程

1月15日

08:00

Hugging Face：Blog（RSS）

精选80

开放回应：你需要知道的事

OpenAI 正通过开源与开放科学推进人工智能的民主化进程。其核心目标是降低 AI 技术的门槛，促进更广泛的参与和创新。这一举措将推动研究透明化，加速技术迭代，并鼓励全球协作共同构建 AI 的未来。

产品更新开源/仓库开源生态

推荐理由：开源替代方案降低 AI API 依赖，开发者多一个免费可控的选择

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 优化 Pipeline Parallelism 支持百万 Token 超长上下文

SGLang 发布面向超长上下文推理的 Pipeline Parallelism（PP）优化实现，集成 Chunked PP、异步 P2P 通信与动态分块机制。在 H20 集群 PP4 TP8 配置下，DeepSeek-V3.1 的 Prefill Throughput 较 TP8 提升 3.31 倍，较 TP32 领先 30.5%，TTFT 降低 67.9%，强扩展效率达 82.8%。该方案兼容 PD 分离与 HiCache，为万亿参数模型百万 Token 上下文推理提供高效开源路径。

开源/仓库部署/工程

1月12日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang EPD 分离架构：视觉语言模型的弹性编码器扩展

SGLang推出EPD（Encoder-Prefill-Decode）分离架构，将视觉编码与语言处理解耦，支持编码器独立横向扩展以替代低效的张量并行。该方案兼容现有PD分离，支持ZMQ、Mooncake等传输后端及视觉嵌入缓存。测试表明，在图像密集型场景（如多图输入）且1 QPS负载下，首token生成时间（TTFT）较同机部署降低约6–8倍；但在图像轻量场景中，网络开销可能导致性能下降。

多模态开源/仓库部署/工程

12月23日

00:00

MiniMax：Blog（网页）

MiniMax M2.1：显著增强多语言编程能力，专为现实世界复杂任务打造

MiniMax 发布 M2.1 模型，是对 M2 的更新。其核心升级在于系统提升了在 Rust、Java、Golang 等多语言编程任务上的性能，并达到行业领先水平。同时，模型显著增强了原生 Android 与 iOS 开发能力，以及在 Web/App 场景下的设计理解与美学表达。M2.1 优化了复合指令约束以更好地支持办公场景，响应更简洁高效。该模型在 Claude Code、Cline 等各类编程工具与 AI 智能体框架中表现出色。在衡量全栈开发能力的 VIBE 新基准上，取得了平均 88.6 分的成绩。

开源/仓库模型发布编码

00:00

LMSYS：Blog（Chatbot Arena 团队）

SpecBundle与SpecForge v0.2发布：生产级投机解码模型与框架

SpecForge团队联合蚂蚁、美团、Nex-AGI与EigenAI发布SpecBundle第一阶段及SpecForge v0.2框架。SpecBundle提供基于大规模数据集训练的生产级EAGLE-3草稿模型，覆盖Llama-3.1/3.3/4、Qwen3、Kimi-K2等十余种主流架构，解决开源社区高质量草稿模型稀缺问题。SpecForge v0.2重构数据处理管道，数据再生速度提升10倍，并新增多后端支持，进一步增强系统可扩展性与生产就绪能力。

开源/仓库开源生态部署/工程

12月19日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang实现扩散LLM框架：支持LLaDA 2.0-flash

Ant Group DeepXPU团队与SGLang团队合作，在SGLang推理引擎中实现了扩散大语言模型（dLLM）框架，为100B参数的LLaDA 2.0-flash提供首日支持。该方案复用现有Chunked-Prefill机制适配Block Diffusion架构，通过修改prefill adder和chunked reqs组件实现多Diffusion Blocks批处理，无需改动SGLang核心即可继承生产级推理优化，并支持用户灵活定制扩散解码算法。

开源/仓库推理部署/工程

12月18日

09:00

公众号：蚂蚁百灵（Ling）

AEnvironment - 面向 Agentic RL 时代的环境系统，开箱即用，万物互联

AEnvironment 是专为 Agentic RL 打造的基础设施，将环境搭建从写脚本转变为调用服务，实现开箱即用和万物互联。

智能体开源/仓库部署/工程

08:00

Hugging Face：Blog（RSS）

精选73

Transformers v5 中的分词：更简单、清晰与模块化

Transformers v5 发布了全新的分词处理架构，核心变化是引入了更简单、统一的 API 设计，将分词器、后处理器和解码器模块化。新版移除了大量遗留代码，使代码库体积减少了约 40%，并显著提升了处理长文本和特殊 token 的灵活性。这一改进旨在降低开发者使用门槛，同时为各类大语言模型（如 GPT、Claude、LLaMA）提供更高效、一致的分词支持。

Hugging Face 开源/仓库数据/训练

推荐理由：Transformers库tokenization模块重构，开发者可更高效处理文本数据。