在生产环境中,使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时,团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长,最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现,初步调查指向了传输层。团队从Python内存分析工具入手,但常规工具未能定位到根源,调查随后深入到底层与UCX和Infiniband相关的交互中。
在生产环境中,使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时,团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长,最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现,初步调查指向了传输层。团队从Python内存分析工具入手,但常规工具未能定位到根源,调查随后深入到底层与UCX和Infiniband相关的交互中。
Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案,通过共享专家融合、Qknorm 融合与异步传输三项核心技术,在 H200 集群 TP8/FP8 配置下实现首 token 延迟(TTFT)降低 65%、每 token 输出时间(TPOT)提升 22%。针对 Agentic Coding 场景,团队提出无需额外训练草稿模型的 Suffix Decoding 技术,利用历史输出模式重复率进一步加速推理。
SGLang-Diffusion 最新版本(lmsysorg/sglang:dev-pr-17247)性能较初始版本提升2.5倍,在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型,完整支持LoRA格式与HTTP API,并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠,支持SP/TP混合并行及SageAttention系列后端,兼容AMD、4090、5090及MUSA硬件。
SGLang 发布面向超长上下文推理的 Pipeline Parallelism(PP)优化实现,集成 Chunked PP、异步 P2P 通信与动态分块机制。在 H20 集群 PP4 TP8 配置下,DeepSeek-V3.1 的 Prefill Throughput 较 TP8 提升 3.31 倍,较 TP32 领先 30.5%,TTFT 降低 67.9%,强扩展效率达 82.8%。该方案兼容 PD 分离与 HiCache,为万亿参数模型百万 Token 上下文推理提供高效开源路径。
智谱联合华为开源多模态生成模型GLM-Image,为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构,在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一,支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张,代码已开源至GitHub、Hugging Face及魔搭社区。
SGLang推出EPD(Encoder-Prefill-Decode)分离架构,将视觉编码与语言处理解耦,支持编码器独立横向扩展以替代低效的张量并行。该方案兼容现有PD分离,支持ZMQ、Mooncake等传输后端及视觉嵌入缓存。测试表明,在图像密集型场景(如多图输入)且1 QPS负载下,首token生成时间(TTFT)较同机部署降低约6–8倍;但在图像轻量场景中,网络开销可能导致性能下降。
OpenRouter 1月发布聚焦优先选择快速大语言模型、探索提供商、自定义自动路由、在SDK中加载技能,以及大幅性能改进。
OpenRouter 发布1月更新,新增快速LLM优先级排序功能,用户可优先选择低延迟模型;支持浏览和切换不同提供商;自动路由可自定义策略;SDK新增加载技能(skills)的能力;同时带来重大性能改进。
本次发布聚焦于提升大型语言模型(LLM)的速度与性能。核心更新包括优先支持快速LLM、探索更多模型提供商选项,以及允许用户自定义自动路由。软件开发工具包(SDK)现已支持加载技能,同时系统实现了显著的性能改进。这些更新旨在优化开发者的使用体验与模型运行效率。
xAI发布Grok Business和Grok Enterprise企业版。Business版定价30美元/座位/月,支持自助开通,提供团队管理、统一账单及Google Drive集成(保留原文件权限),并承诺用户数据永不用于模型训练。Enterprise版面向大型组织,提供Custom SSO、Directory Sync及高级审计控制;可选的Enterprise Vault插件提供独立数据平面与客户自管加密密钥(CMEK),实现应用级加密隔离。平台支持实时使用监控、安全对话共享及Projects功能。
NVIDIA推出NeMo Data Designer工具,帮助企业生成合规的合成数据工作流,用于定制化大模型训练。该工具通过创建“许可证安全”的合成数据,规避版权风险,并支持构建可蒸馏的轻量级模型。它为在特定领域数据受限的企业提供了端到端的合成数据生成与管理解决方案,助力模型高效微调与优化。
ServiceNow AI团队在Hugging Face发布了AprielGuard框架。该框架专为提升LLM在生产环境中的安全性而设计,通过集成多层检测与过滤机制,防御对抗性攻击和恶意输入,以增强系统的整体稳健性。
SpecForge团队联合蚂蚁、美团、Nex-AGI与EigenAI发布SpecBundle第一阶段及SpecForge v0.2框架。SpecBundle提供基于大规模数据集训练的生产级EAGLE-3草稿模型,覆盖Llama-3.1/3.3/4、Qwen3、Kimi-K2等十余种主流架构,解决开源社区高质量草稿模型稀缺问题。SpecForge v0.2重构数据处理管道,数据再生速度提升10倍,并新增多后端支持,进一步增强系统可扩展性与生产就绪能力。
xAI 被美国战争部(DOW)选中,为其 GenAI.Mil 套件提供 Frontier AI 系统。基于 Grok 模型的解决方案将覆盖 DOW 旗下 300 万军事和文职人员,支持 Impact Level 5(IL5)级别的企业 AI 和关键任务用例,可嵌入从五角大楼到战术边缘的日常工作流,并支持机密作战工作负载。DOW 用户还可独家获取 X 平台实时全球洞察。
关联讨论 1 条xAI:News(网页)Grok 推出 Collections API,支持上传 PDF、Excel、代码库等文件构建知识库,提供语义、关键词及混合搜索三种检索方式,帮助开发者零基础设施构建 RAG 应用。首周文件索引与存储免费,检索定价 $2.50/千次。基准测试显示,其在金融(93.0%)、法律(73.9%)、编码(86%)场景的检索准确率均优于 Gemini Pro 3 和 GPT 5.1。
Ant Group DeepXPU团队与SGLang团队合作,在SGLang推理引擎中实现了扩散大语言模型(dLLM)框架,为100B参数的LLaDA 2.0-flash提供首日支持。该方案复用现有Chunked-Prefill机制适配Block Diffusion架构,通过修改prefill adder和chunked reqs组件实现多Diffusion Blocks批处理,无需改动SGLang核心即可继承生产级推理优化,并支持用户灵活定制扩散解码算法。
AEnvironment 是专为 Agentic RL 打造的基础设施,将环境搭建从写脚本转变为调用服务,实现开箱即用和万物互联。
OpenRouter 推出 Response Healing 新功能,可在响应到达应用前自动修复大语言模型产生的格式错误的 JSON,从而将 JSON 缺陷减少 80% 以上。
OpenRouter 推出结构化输出的响应修复(Response Healing)功能,新增聊天室通知,发布长上下文模型排行榜,并位列 Brex 增长最快 AI 基础设施榜单第一。
OpenRouter 十二月版本更新引入响应修复(Response Healing)机制以提升结构化输出可靠性,新增聊天室通知功能,并推出长上下文模型排名。此外,OpenRouter 在 Brex 评选的增长最快 AI 基础设施公司榜单中位列第一。
Anthropic 在十二月多项更新中重点推出结构化输出的 Response Healing 功能,可自动修复格式错误。平台新增聊天室通知系统,并发布长上下文模型性能排行榜,Claude 3.5 Sonnet 在 200K 上下文评测中领先。公司同时宣布其 AI 基础设施在 Brex 年度榜单中位列增长最快首位。
OpenRouter 推出新功能 Response Healing,可在 LLM 生成的畸形 JSON 响应抵达用户应用前自动修复。该功能旨在将 JSON 格式错误减少超过 80%,直接提升 API 响应的结构完整性与可靠性,减少下游应用的处理负担。
NVIDIA在Hugging Face发布博客,介绍Nemotron 3 Nano模型,并通过NeMo Evaluator工具进行开放标准基准测试。评估覆盖代码生成、数学推理和常识问答等任务,以透明、可复现的方式量化模型性能,体现NVIDIA推动开源评估生态的努力。
Gemini 3 Flash 正式发布,在大幅降低使用成本的同时提供前沿级智能,主打极速推理性能,为需要快速响应的 AI 应用提供高性价比选择。
inclusionAI 发布了 AEnvironment,这是一个用于智能体 AI 开发的标准化环境基础设施。该平台旨在为 AI 智能体的构建、测试和部署提供统一、可复现的环境,解决开发过程中因环境差异导致的兼容性与一致性问题。它通过预配置的标准化设置,简化了开发流程,提升了协作效率与系统可靠性。
小米发布 MiMo-V2-Flash 推理模型,SGLang 提供首日支持。该模型拥有 309B 总参数和 15B 激活参数,采用滑动窗口注意力(SWA)和 3 层多级 MTP 设计,将注意力复杂度降至线性并提升解码效率。通过硬件感知配置平衡计算与内存,在 H200 上即使 64K 长上下文仍保持 150 TPS 单请求吞吐量。SGLang Spec v2 实现完全重叠 MTP 调度,隐藏 CPU 开销并减少 GPU 气泡,最大化硬件利用率。
SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构,总参数 30B 但仅激活 3.6B,支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时,在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式,并支持"思考预算"功能以减少过度推理,适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。
llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。
细粒度激活卸载(Fine-grained Activation Offloading)采用模块级粒度,将计算与内存传输重叠,并兼容全并行设计,在主流大模型训练中同时降低峰值显存开销并提升吞吐性能,实现显存开销与吞吐性能的联合最优,获得显著性能收益和显存收益。
蚂蚁集团 DeepXPU 团队与 SGLang 团队联合发布 Tensor R-Fork(Tensor Remote Fork)技术,通过 GPU-Direct RDMA 实现节点间设备到设备的零拷贝权重传输。该技术可将 Deepseek-R1 模型的加载时间从数分钟缩短至数秒,减少约 600GB 的本地磁盘与 DRAM 存储占用,并提供 NCCL 和 TransferEngine 两种后端方案,后者可在不干扰线上推理服务的情况下完成权重迁移。
swift-huggingface 是一个全新的 Swift 客户端,旨在彻底解决旧库下载模型缓慢、不可靠且不支持断点续传的问题。它提供完整的 Hub API 覆盖,核心改进包括具备进度跟踪和断点续传的可靠下载、与 Python 生态共享缓存以避免重复下载,以及通过灵活的 TokenProvider 模式简化身份验证。该库现已独立发布,并将很快集成到 swift-transformers 中取代原有实现,未来还将支持 Xet 存储后端以实现更快的下载。
蚂蚁集团开源了AState,这是一个专为强化学习设计的高性能通用状态数据管理系统。它旨在解决RL训练与推理中的I/O效率低下、权重同步性能不足及状态恢复不鲁棒等核心挑战。系统采用三层架构:提供张量原生接口的API层、支持多种部署模式的服务层以及具备高效可扩展传输能力的基础层。其关键特性包括统一的张量级API、高性能权重同步和拓扑感知设计。在万亿参数规模下,AState能在约6秒内完成权重同步,远低于业界常见的分钟级延迟,目前已作为ASystem的关键组件在蚂蚁内部生产环境部署。
SGLang 最新版本原生集成 NVIDIA Model Optimizer,支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步,支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比,优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升,显著降低延迟与内存占用。
Transformers v5正式发布,其每日pip安装量从v4的2万次大幅提升至300万次以上,总安装量突破12亿次。模型架构数量从40个扩展至超400个,Hub上兼容的模型检查点从约1,000个增至75万个。新版本聚焦于简化模型定义、训练、推理与生产部署,通过引入AttentionInterface等模块化设计,显著降低了代码贡献与维护成本。此外,库将明确以PyTorch为唯一后端,逐步淘汰Flax/TensorFlow支持,并简化分词处理,以推动标准化与生态兼容性。
Vertex AI团队推出基于EAGLE-3的推测解码加速方案,通过为目标模型(如Llama 70B)添加仅占2-5%参数量的轻量级draft head,取代传统独立draft模型,实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路:构建合成数据生成管道解决版权与PII问题,采用离线训练策略预计算embeddings,并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用,最终解决CPU瓶颈问题实现规模化部署。
该项目是一个针对NCCL通信库的扩展库,核心功能是高效卸载NCCL所分配的GPU内存。它通过将NCCL占用的显存资源进行智能释放与转移,旨在缓解大规模分布式训练中的显存压力,从而提升整体系统效率与资源利用率。
连续批处理是优化大型语言模型推理吞吐量的核心技术,通过并行处理多个对话并在生成完成后动态交换任务,以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发,文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度,但连续批处理允许查询、键和值张量容纳不同长度的令牌序列,从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本,适用于高负载服务场景,提升响应速度。
Tavily团队因模型迭代重建了深度研究系统,核心是从工作流转向智能体架构,并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索,高效获取高相关度内容,避免信息过载。智能体设计模仿人类研究模式:收集信息、提炼要点、决策下一步,仅在生成最终交付物时引用原始资料,大幅减少令牌消耗,实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则,以构建能随模型进化而持续改进的智能体系统。
OVHcloud 现已正式加入 Hugging Face Hub 的推理服务提供商生态。用户可直接在模型页面使用其全托管、无服务器化的 AI 端点服务,便捷调用 gpt-oss、Qwen3 等热门开源模型。该服务基于欧洲数据中心,保障数据主权与低延迟,首 token 响应时间低于 200 毫秒,并支持结构化输出等高级功能。定价为每百万 token 0.04 欧元起,用户可选择使用自定义 API 密钥或通过 Hugging Face 账户路由请求并计费。
InfiXAI、Ant Group AQ、SGLang RL 与 Miles 团队联合实现了端到端 FP8 强化学习训练与采样方案。实验表明,MoE 模型在使用 BF16 训练与 FP8 推理时,规模越大训练-推理差异越显著;统一采用 FP8 进行训练和推理可有效消除量化误差导致的不一致性,显著提升训练速度与稳定性。该方案已支持 Qwen3-4B 和 Qwen3-30B-A3B 模型,并在 miles 框架中开箱即用。