Transformers v5正式发布,其每日pip安装量从v4的2万次大幅提升至300万次以上,总安装量突破12亿次。模型架构数量从40个扩展至超400个,Hub上兼容的模型检查点从约1,000个增至75万个。新版本聚焦于简化模型定义、训练、推理与生产部署,通过引入AttentionInterface等模块化设计,显著降低了代码贡献与维护成本。此外,库将明确以PyTorch为唯一后端,逐步淘汰Flax/TensorFlow支持,并简化分词处理,以推动标准化与生态兼容性。
Transformers v5正式发布,其每日pip安装量从v4的2万次大幅提升至300万次以上,总安装量突破12亿次。模型架构数量从40个扩展至超400个,Hub上兼容的模型检查点从约1,000个增至75万个。新版本聚焦于简化模型定义、训练、推理与生产部署,通过引入AttentionInterface等模块化设计,显著降低了代码贡献与维护成本。此外,库将明确以PyTorch为唯一后端,逐步淘汰Flax/TensorFlow支持,并简化分词处理,以推动标准化与生态兼容性。
Vertex AI团队推出基于EAGLE-3的推测解码加速方案,通过为目标模型(如Llama 70B)添加仅占2-5%参数量的轻量级draft head,取代传统独立draft模型,实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路:构建合成数据生成管道解决版权与PII问题,采用离线训练策略预计算embeddings,并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用,最终解决CPU瓶颈问题实现规模化部署。
该项目是一个针对NCCL通信库的扩展库,核心功能是高效卸载NCCL所分配的GPU内存。它通过将NCCL占用的显存资源进行智能释放与转移,旨在缓解大规模分布式训练中的显存压力,从而提升整体系统效率与资源利用率。
连续批处理是优化大型语言模型推理吞吐量的核心技术,通过并行处理多个对话并在生成完成后动态交换任务,以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发,文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度,但连续批处理允许查询、键和值张量容纳不同长度的令牌序列,从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本,适用于高负载服务场景,提升响应速度。
Tavily团队因模型迭代重建了深度研究系统,核心是从工作流转向智能体架构,并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索,高效获取高相关度内容,避免信息过载。智能体设计模仿人类研究模式:收集信息、提炼要点、决策下一步,仅在生成最终交付物时引用原始资料,大幅减少令牌消耗,实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则,以构建能随模型进化而持续改进的智能体系统。
OVHcloud 现已正式加入 Hugging Face Hub 的推理服务提供商生态。用户可直接在模型页面使用其全托管、无服务器化的 AI 端点服务,便捷调用 gpt-oss、Qwen3 等热门开源模型。该服务基于欧洲数据中心,保障数据主权与低延迟,首 token 响应时间低于 200 毫秒,并支持结构化输出等高级功能。定价为每百万 token 0.04 欧元起,用户可选择使用自定义 API 密钥或通过 Hugging Face 账户路由请求并计费。
InfiXAI、Ant Group AQ、SGLang RL 与 Miles 团队联合实现了端到端 FP8 强化学习训练与采样方案。实验表明,MoE 模型在使用 BF16 训练与 FP8 推理时,规模越大训练-推理差异越显著;统一采用 FP8 进行训练和推理可有效消除量化误差导致的不一致性,显著提升训练速度与稳定性。该方案已支持 Qwen3-4B 和 Qwen3-30B-A3B 模型,并在 miles 框架中开箱即用。
RapidFire AI 发布了一套加速 TRL 微调的工具,通过自适应分块调度方案,允许在单个或多个 GPU 上并发启动多个训练配置并实时比较。内部基准测试显示,实验吞吐量比顺序执行高出约 16 至 24 倍。该工具提供即插即用的 TRL 配置包装器、分块并发训练、支持实时停止/恢复/克隆修改的交互式控制操作、自动多 GPU 编排以及 MLflow 仪表板,使用户能快速筛选最优配置,极大提升微调效率。
AnyLanguageModel 是一个 Swift 包,旨在为苹果平台上的大语言模型集成提供统一解决方案。它作为苹果原生 Foundation Models 框架的替代品,允许开发者通过相同的 API 接口,灵活调用本地模型(如通过 Core ML、MLX、llama.cpp 运行)与云端服务(如 OpenAI、Anthropic)。该方案复用苹果精心设计的 API 作为基础,大幅降低了在不同模型提供商之间切换的代码修改成本,并利用 Swift 的包特性功能避免依赖膨胀,从而简化开发流程,鼓励对本地开源模型的探索。
xAI 与沙特阿拉伯及 PIF 旗下 HUMAIN 签署框架协议,将在沙特建设超大规模 GPU 数据中心,并全国范围内部署 Grok 至 HUMAIN ONE 平台,为政府和企业提供实时智能与自主工作流。这是 Grok 首次在国家层面全面落地。
Mistral AI宣布在德国的多项长期战略承诺。公司正与SAP建立多年期合作伙伴关系,将Mistral模型整合至SAP AI Foundation,为德国和欧洲构建完全自主可控的AI技术栈,并针对复杂行业和管理部门共同开发解决方案。同时,与Helsing合作加速开发用于现实防务与安全应用的视觉语言动作模型,以支持欧洲的战略自主性。Mistral AI计划未来几个月内在德国设立办公室,并大幅扩充本地团队,旨在让德国乃至欧洲的客户能够拥有自己的AI发展路径,无需牺牲战略自主性或将关键数据送出境外。
RadixArk团队发布企业级强化学习框架Miles,专为大规模MoE训练设计。该框架基于曾支撑GLM-4.6训练的slime构建,首创True On-Policy技术,实现训练与推理零KL散度对齐。新版本引入在线草稿模型推测解码,rollout加速超25%,并针对GB300等新硬件优化内存管理,支持Flash Attention 3与DeepGEMM。框架采用模块化架构,四大核心组件完全解耦,兼顾研究灵活性与企业级稳定性。
inclusionAI 发布了 asystem-awex,这是一个专为强化学习工作流设计的高性能训练-推理权重同步框架。该框架的核心目标是实现从训练到推理的秒级参数更新,从而显著提升强化学习模型的迭代效率与部署实时性。它解决了传统流程中参数同步延迟高的问题,为需要快速在线学习和决策的应用场景提供了关键技术支撑。
Hugging Face的kernels库简化了高性能深度学习内核的构建与共享,支持CUDA、ROCm等多种后端。本文以ROCm兼容内核为例,展示如何利用kernel-builder工具构建、测试并共享内核。以RadeonFlow的GEMM内核为具体案例,该内核是针对AMD Instinct MI300X GPU优化的FP8块状矩阵乘法实现,采用e4m3fnuz浮点格式和每块缩放因子以保持低精度计算准确性,并在2025年AMD开发者挑战赛中获最高奖。指南涵盖项目设置、构建配置及通过kernels社区分享的完整步骤。
AutoRound 与 SGLang 宣布合作,支持 INT2-INT8 低比特量化模型的高效推理部署。基于符号梯度优化算法,AutoRound 在 INT2 精度下准确率较主流基线提升 2.1 倍,单 GPU 量化 72B 模型仅需 37 分钟。开发者可将 GPTQ、AWQ 或 GGUF 格式的量化模型直接部署至 SGLang v0.5.4.post2+,兼容 LLM、VLM 及 MoE 架构,在最小精度损失下显著降低推理延迟。
Hugging Face与Google Cloud宣布建立深度战略合作,旨在将Google Cloud打造为使用开放模型的最佳平台。双方将合作构建CDN网关,把Hugging Face上的模型和数据集直接缓存在Google Cloud上,显著提升下载速度并增强供应链稳定性。Google Cloud客户在Vertex AI、GKE等服务中部署模型时将获得更快的首次响应。同时,Hugging Face的1000万开发者将受益于更多新型计算实例、价格下降以及通过Google安全技术强化的模型安全性。此次合作还将推动TPU在开放模型开发中的普及应用。
SGLang 推出 Diffusion 推理引擎,将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型,在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术,提供 OpenAI 兼容 API、CLI 及 Python 接口,并与 FastVideo 合作覆盖从训练到部署的全流程。
inclusionAI 发布了 dFactory 平台,旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度,显著降低了技术门槛与计算成本。用户无需深厚专业知识,即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%,并支持多节点协作训练,提升了模型迭代效率。
随着AI智能体通过模型上下文协议(MCP)连接的工具数量激增,传统预先加载所有工具定义并通过上下文传递中间结果的方法,导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间,且中间结果(如完整会议记录)在多次工具调用间重复传递,额外消耗数万令牌。文章提出解决方案:将MCP服务器呈现为代码API,使智能体能按需加载工具,并在执行环境中处理数据,仅将精简结果传回模型,从而显著减少令牌消耗、提升效率并降低成本。
MiniMax发布新一代旗舰模型M2,采用230B总参数、10B激活参数的MoE架构,已在SGLang平台提供首日支持。团队从M1的Lightning Attention回退至Full Attention,指出高效注意力机制虽能降低理论计算复杂度,但在实际工业部署中面临多重挑战:标准基准无法暴露多跳推理等深层能力缺陷,与前缀缓存、推测解码等系统兼容性不足,且受内存带宽限制难以兑现理论效率。MiniMax认为,开放场景部署中模型质量优先于计算效率。
Hugging Face发布博客,分析了全球AI计算资源的分布与流动趋势。当前格局正从高度集中转向更为分散,开源模型与社区驱动的计算集群影响力增强。关键变化包括企业专用计算与公共云资源的比例调整,以及新兴地区计算中心的崛起。这一变迁直接影响了大型语言模型(如GPT、Claude、LLaMA)的开发成本与可及性,预示着未来AI创新将更依赖于多元化的计算基础设施。
SGLang团队发布基于Jax和XLA的开源推理引擎SGLang-Jax,专为原生TPU推理优化。该引擎采用纯Jax架构,集成Ragged Paged Attention v3、EAGLE推测解码及MoE内核优化,支持连续批处理与前缀缓存。关键性能指标显示,重叠调度器将Qwen3-32B批处理间隔从12毫秒压缩至38微秒,EPMoE策略带来3-4倍延迟加速。基准测试表明,其性能匹配或超越现有TPU推理方案。
企业AI团队常将原型卡在生产环节,主要瓶颈在于缺乏一套系统来跟踪模型输出变化、复现结果、监控真实使用数据、运行领域特定评估、私有增量微调模型以及满足安全合规的部署。Mistral AI Studio 作为生产级AI平台,基于 Mistral 运营大规模系统的经验而构建,为团队提供构建、评估和运行AI所需的基础设施。其核心功能包括:用于数据驱动闭环的可观测性、基于 Temporal 的有状态智能体运行时,以及用于模型和提示词版本管理的 AI 注册表。
OpenRouter 在公告中提出问题:是否应将提供隐式缓存(implicit caching)的供应商视为“ZDR”?
OpenRouter 向客户提问:是否应将提供隐式缓存的供应商视为“ZDR”(零数据保留)?该公告未提供更多背景或结论。
文章探讨了AI服务提供商采用的隐式缓存技术是否应被视为零数据保留策略。隐式缓存指服务商为提高响应速度与效率,在系统内部临时存储用户提示词与生成结果,而非明确告知用户。这引发了数据隐私与透明度争议,关键问题在于这种未声明的缓存行为是否违背了用户对数据立即删除的预期。客户需评估该技术是否满足其数据保留要求,尤其在处理敏感信息时。
AI基础设施建设正面临晶圆厂资本支出过剩的风险,同时算力扩张带来每周1吉瓦的能源消耗压力。文章指出,在长周期基础设施竞赛中,中国凭借产业链整合优势占据有利地位。分析涵盖了AI基建中的产能过剩隐忧、电力瓶颈挑战,以及地缘政治背景下的技术长跑格局,揭示了算力军备竞赛背后的资本与能源约束。
SGLang现已集成KTransformers后端,为DeepSeek-V3等稀疏MoE模型提供CPU/GPU混合推理加速。该技术采用Intel AMX优化内核,使单路Xeon算力达21.3 TFLOPS,较PyTorch原生实现快3.9倍;通过NUMA感知张量并行和CUDA Graph调度,双路服务器解码吞吐量提升63%,GPU内核启动开销从20%降至接近零;专家延迟机制支持跨层重排计算以重叠CPU与GPU执行,在精度变化低于0.5%的情况下使解码吞吐量再提高1.45倍。
OpenRouter 推出 Exacto,旨在回答同一个大语言模型在不同 AI 服务供应商上是否表现不同的问题。该工具帮助用户量化供应商间的性能差异,为模型部署选择提供参考。
OpenRouter 发布 Exacto 功能,旨在解决同一模型在不同 AI 提供商之间的表现差异问题。该工具帮助用户识别并评估不同部署环境下的模型输出质量变化。
同一AI模型在不同服务提供商上的性能表现可能存在显著差异。为了量化这种“提供商方差”,研究团队推出了Exacto评估平台。该平台通过标准化测试揭示,即使是相同的模型(如GPT-4、Claude或LLaMA),在不同云服务或API提供商处运行时,其输出质量、响应速度和稳定性都可能产生高达30%的波动。这一发现对企业和开发者的模型部署策略具有直接影响,强调在选择服务商时需进行针对性性能基准测试。
inclusionAI 开源了专为大语言模型训练设计的高性能内核库 Linghe。该库旨在优化 LLM 训练过程中的计算效率,通过底层内核创新提升训练速度并降低资源消耗。Linghe 支持当前主流的 Transformer 架构模型,为开发者和研究者提供了更高效的训练工具,有望加速 LLM 的开发与迭代进程。
SGLang与NVIDIA针对Blackwell架构(GB200 NVL72)深度优化,在DeepSeek R1模型上实现每GPU 26k输入与13k输出tokens/秒的高吞吐。通过Prefill-Decode分离架构、大规模专家并行及FP8/NVFP4内核优化,SGLang在SemiAnalysis InferenceMAX基准测试中较Hopper代际获得4倍性能提升,并被选为该基准在NVIDIA与AMD硬件上运行DeepSeek模型的默认推理引擎。
NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片,在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型,双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽,该设备更适合小模型批处理推理与AI原型开发,而非大模型生产部署。支持SGLang和Ollama框架,为开发者提供本地AI开发新选择。
OpenRouter 向每位客户每月提供100万次“Bring Your Own Key”(BYOK)请求,完全免费。
OpenRouter 为每位客户每月免费提供 100 万次 BYOK(Bring Your Own Key)请求,用户可携带自有 API 密钥使用服务。
所有客户每月可免费获得 100 万次“自带密钥”(BYOK)请求。这一政策将 BYOK 功能从付费服务转变为免费提供的基础配额,大幅降低了企业使用自有密钥管理数据安全的技术与成本门槛。免费额度覆盖了绝大多数中小规模企业的典型月请求量。
inclusionAI团队发布了dInfer,一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术,显著提升了推理效率,能够更快地生成文本,同时降低计算成本,为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。
SGLang 在发布首日即支持 DeepSeek-V3.2,该模型基于 DeepSeek-V3.1-Terminus 引入 DeepSeek Sparse Attention (DSA) 机制。DSA 通过 Lightning Indexer 和 Top-k Token Selection 将注意力复杂度从 O(L²) 降至 O(Lk),在 128K 长上下文下实现训练与推理效率大幅提升且质量损失可忽略。SGLang 实现了专用缓存与 Native Sparse Attention 后端,并提供了面向 NVIDIA、AMD MI350X/MI355X 及 NPU 的部署方案与容器镜像。
SGLang 团队推出 PD-Multiplexing 服务范式,利用 NVIDIA GreenContext(CUDA 12.4+)的 GPU 细粒度分区能力,通过单卡内部空间共享多路复用 prefill 与 decode 阶段,消除传统 PD 分离的跨实例 KV 缓存迁移开销。该方案将 prefill 切分为小块以消除 GPU 气泡,结合离线训练的延迟预测器实现 SLO 感知调度,动态分配 SM 资源以适应负载变化,从而在满足 TTFT 与 ITL 延迟 SLO 的同时显著提升模型即服务(MaaS)的 goodput。