1月21日

00:00

Mistral AI：News（网页）

在生产环境中，使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时，团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长，最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现，初步调查指向了传输层。团队从Python内存分析工具入手，但常规工具未能定位到根源，调查随后深入到底层与UCX和Infiniband相关的交互中。

教程/实践部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

Novita AI 优化 GLM4-MoE：基于 SGLang 实现 TTFT 降低 65%

Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案，通过共享专家融合、Qknorm 融合与异步传输三项核心技术，在 H200 集群 TP8/FP8 配置下实现首 token 延迟（TTFT）降低 65%、每 token 输出时间（TPOT）提升 22%。针对 Agentic Coding 场景，团队提出无需额外训练草稿模型的 Suffix Decoding 技术，利用历史输出模式重复率进一步加速推理。

智能体教程/实践编码部署/工程

1月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang-Diffusion：发布两月进展综述

SGLang-Diffusion 最新版本（lmsysorg/sglang:dev-pr-17247）性能较初始版本提升2.5倍，在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型，完整支持LoRA格式与HTTP API，并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠，支持SP/TP混合并行及SageAttention系列后端，兼容AMD、4090、5090及MUSA硬件。

图像生成开源/仓库部署/工程

1月15日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 优化 Pipeline Parallelism 支持百万 Token 超长上下文

SGLang 发布面向超长上下文推理的 Pipeline Parallelism（PP）优化实现，集成 Chunked PP、异步 P2P 通信与动态分块机制。在 H20 集群 PP4 TP8 配置下，DeepSeek-V3.1 的 Prefill Throughput 较 TP8 提升 3.31 倍，较 TP32 领先 30.5%，TTFT 降低 67.9%，强扩展效率达 82.8%。该方案兼容 PD 分离与 HiCache，为万亿参数模型百万 Token 上下文推理提供高效开源路径。

开源/仓库部署/工程

1月14日

00:00

智谱：研究（网页内嵌数据）

精选

智谱联合华为开源首个国产芯片训练的多模态SOTA模型

智谱联合华为开源多模态生成模型GLM-Image，为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构，在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一，支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张，代码已开源至GitHub、Hugging Face及魔搭社区。

图像生成开源生态模型发布部署/工程

推荐理由：首个国产昇腾芯片训练的SOTA多模态模型开源，文字渲染能力开源第一，生成一张图仅需0.1元

1月12日