12月1日

08:00

Hugging Face：Blog（RSS）

精选93

Transformers v5正式发布，其每日pip安装量从v4的2万次大幅提升至300万次以上，总安装量突破12亿次。模型架构数量从40个扩展至超400个，Hub上兼容的模型检查点从约1,000个增至75万个。新版本聚焦于简化模型定义、训练、推理与生产部署，通过引入AttentionInterface等模块化设计，显著降低了代码贡献与维护成本。此外，库将明确以PyTorch为唯一后端，逐步淘汰Flax/TensorFlow支持，并简化分词处理，以推动标准化与生态兼容性。

Hugging Face 开源/仓库部署/工程

推荐理由：Transformers v5 大幅简化模型集成，提升训练推理效率，开发者可快速上手最新 AI 模型。

00:00

LMSYS：Blog（Chatbot Arena 团队）

从研究到生产：在Vertex AI上用EAGLE-3加速开源大模型

Vertex AI团队推出基于EAGLE-3的推测解码加速方案，通过为目标模型（如Llama 70B）添加仅占2-5%参数量的轻量级draft head，取代传统独立draft模型，实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路：构建合成数据生成管道解决版权与PII问题，采用离线训练策略预计算embeddings，并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用，最终解决CPU瓶颈问题实现规模化部署。

Google 数据/训练论文/研究部署/工程

11月26日

17:00

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/asystem-amem

该项目是一个针对NCCL通信库的扩展库，核心功能是高效卸载NCCL所分配的GPU内存。它通过将NCCL占用的显存资源进行智能释放与转移，旨在缓解大规模分布式训练中的显存压力，从而提升整体系统效率与资源利用率。

开源/仓库部署/工程

11月25日

08:00

Hugging Face：Blog（RSS）

精选76

从第一性原理看连续批处理

连续批处理是优化大型语言模型推理吞吐量的核心技术，通过并行处理多个对话并在生成完成后动态交换任务，以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发，文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度，但连续批处理允许查询、键和值张量容纳不同长度的令牌序列，从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本，适用于高负载服务场景，提升响应速度。

Hugging Face 推理教程/实践部署/工程

推荐理由：深入理解LLM推理优化原理，助力高效模型部署。

01:40

Hugging Face：Blog（RSS）

精选83

构建深度研究智能体：实现顶尖水平的经验

Tavily团队因模型迭代重建了深度研究系统，核心是从工作流转向智能体架构，并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索，高效获取高相关度内容，避免信息过载。智能体设计模仿人类研究模式：收集信息、提炼要点、决策下一步，仅在生成最终交付物时引用原始资料，大幅减少令牌消耗，实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则，以构建能随模型进化而持续改进的智能体系统。

智能体 Hugging Face 教程/实践部署/工程

推荐理由：分享构建高效 AI 代理的实战技巧，优化上下文工程以提升性能。

00:08

Hugging Face：Blog（RSS）

精选73

OVHcloud 成为 Hugging Face 官方推理服务提供商

OVHcloud 现已正式加入 Hugging Face Hub 的推理服务提供商生态。用户可直接在模型页面使用其全托管、无服务器化的 AI 端点服务，便捷调用 gpt-oss、Qwen3 等热门开源模型。该服务基于欧洲数据中心，保障数据主权与低延迟，首 token 响应时间低于 200 毫秒，并支持结构化输出等高级功能。定价为每百万 token 0.04 欧元起，用户可选择使用自定义 API 密钥或通过 Hugging Face 账户路由请求并计费。

Hugging Face 产品更新部署/工程

推荐理由：欧洲开发者可低成本合规访问前沿AI模型，推理选项更丰富。

00:00

LMSYS：Blog（Chatbot Arena 团队）

统一 FP8：超越混合精度，实现稳定且加速的 MoE RL

InfiXAI、Ant Group AQ、SGLang RL 与 Miles 团队联合实现了端到端 FP8 强化学习训练与采样方案。实验表明，MoE 模型在使用 BF16 训练与 FP8 推理时，规模越大训练-推理差异越显著；统一采用 FP8 进行训练和推理可有效消除量化误差导致的不一致性，显著提升训练速度与稳定性。该方案已支持 Qwen3-4B 和 Qwen3-30B-A3B 模型，并在 miles 框架中开箱即用。

数据/训练论文/研究部署/工程

11月21日

08:00

Hugging Face：Blog（RSS）

精选80

RapidFire AI 实现20倍更快的 TRL 微调

RapidFire AI 发布了一套加速 TRL 微调的工具，通过自适应分块调度方案，允许在单个或多个 GPU 上并发启动多个训练配置并实时比较。内部基准测试显示，实验吞吐量比顺序执行高出约 16 至 24 倍。该工具提供即插即用的 TRL 配置包装器、分块并发训练、支持实时停止/恢复/克隆修改的交互式控制操作、自动多 GPU 编排以及 MLflow 仪表板，使用户能快速筛选最优配置，极大提升微调效率。

Hugging Face 开源/仓库数据/训练部署/工程

推荐理由：开发者可并发测试多个微调配置，大幅提升实验效率。

11月20日

08:00

Hugging Face：Blog（RSS）

精选83

介绍 AnyLanguageModel：为苹果平台提供本地与云端大语言模型的统一 API

AnyLanguageModel 是一个 Swift 包，旨在为苹果平台上的大语言模型集成提供统一解决方案。它作为苹果原生 Foundation Models 框架的替代品，允许开发者通过相同的 API 接口，灵活调用本地模型（如通过 Core ML、MLX、llama.cpp 运行）与云端服务（如 OpenAI、Anthropic）。该方案复用苹果精心设计的 API 作为基础，大幅降低了在不同模型提供商之间切换的代码修改成本，并利用 Swift 的包特性功能避免依赖膨胀，从而简化开发流程，鼓励对本地开源模型的探索。

开源/仓库开源生态部署/工程

推荐理由：Apple开发者可一键切换本地与云端模型，大幅降低AI应用开发门槛。

11月19日

08:00

xAI：News（网页）

精选

Grok 与沙特阿拉伯达成全国性部署合作

xAI 与沙特阿拉伯及 PIF 旗下 HUMAIN 签署框架协议，将在沙特建设超大规模 GPU 数据中心，并全国范围内部署 Grok 至 HUMAIN ONE 平台，为政府和企业提供实时智能与自主工作流。这是 Grok 首次在国家层面全面落地。

智能体 xAI 行业动态部署/工程

推荐理由：xAI与沙特达成国家级合作，将全国部署Grok并建设超大规模AI算力基础设施

00:00

Mistral AI：News（网页）

Mistral AI 宣布在德国的长期战略承诺

Mistral AI宣布在德国的多项长期战略承诺。公司正与SAP建立多年期合作伙伴关系，将Mistral模型整合至SAP AI Foundation，为德国和欧洲构建完全自主可控的AI技术栈，并针对复杂行业和管理部门共同开发解决方案。同时，与Helsing合作加速开发用于现实防务与安全应用的视觉语言动作模型，以支持欧洲的战略自主性。Mistral AI计划未来几个月内在德国设立办公室，并大幅扩充本地团队，旨在让德国乃至欧洲的客户能够拥有自己的AI发展路径，无需牺牲战略自主性或将关键数据送出境外。

数据/训练行业动态部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

RadixArk发布Miles：面向大规模MoE训练的企业级强化学习框架

RadixArk团队发布企业级强化学习框架Miles，专为大规模MoE训练设计。该框架基于曾支撑GLM-4.6训练的slime构建，首创True On-Policy技术，实现训练与推理零KL散度对齐。新版本引入在线草稿模型推测解码，rollout加速超25%，并针对GB300等新硬件优化内存管理，支持Flash Attention 3与DeepGEMM。框架采用模块化架构，四大核心组件完全解耦，兼顾研究灵活性与企业级稳定性。

开源/仓库数据/训练部署/工程

11月17日

10:43

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/asystem-awex

inclusionAI 发布了 asystem-awex，这是一个专为强化学习工作流设计的高性能训练-推理权重同步框架。该框架的核心目标是实现从训练到推理的秒级参数更新，从而显著提升强化学习模型的迭代效率与部署实时性。它解决了传统流程中参数同步延迟高的问题，为需要快速在线学习和决策的应用场景提供了关键技术支撑。

开源/仓库数据/训练部署/工程

08:00

Hugging Face：Blog（RSS）

精选73

使用Hugging Face轻松构建和共享ROCm内核

Hugging Face的kernels库简化了高性能深度学习内核的构建与共享，支持CUDA、ROCm等多种后端。本文以ROCm兼容内核为例，展示如何利用kernel-builder工具构建、测试并共享内核。以RadeonFlow的GEMM内核为具体案例，该内核是针对AMD Instinct MI300X GPU优化的FP8块状矩阵乘法实现，采用e4m3fnuz浮点格式和每块缩放因子以保持低精度计算准确性，并在2025年AMD开发者挑战赛中获最高奖。指南涵盖项目设置、构建配置及通过kernels社区分享的完整步骤。

Hugging Face 开源生态教程/实践部署/工程

推荐理由：AMD GPU开发者可快速上手构建高性能AI内核，提升部署效率。

11月14日

00:00

LMSYS：Blog（Chatbot Arena 团队）

AutoRound 与 SGLang 正式集成，实现低比特量化模型高效推理

AutoRound 与 SGLang 宣布合作，支持 INT2-INT8 低比特量化模型的高效推理部署。基于符号梯度优化算法，AutoRound 在 INT2 精度下准确率较主流基线提升 2.1 倍，单 GPU 量化 72B 模型仅需 37 分钟。开发者可将 GPTQ、AWQ 或 GGUF 格式的量化模型直接部署至 SGLang v0.5.4.post2+，兼容 LLM、VLM 及 MoE 架构，在最小精度损失下显著降低推理延迟。

开源/仓库部署/工程

11月13日

08:00

Hugging Face：Blog（RSS）

精选88

共建开放未来：Hugging Face与Google Cloud达成新合作

Hugging Face与Google Cloud宣布建立深度战略合作，旨在将Google Cloud打造为使用开放模型的最佳平台。双方将合作构建CDN网关，把Hugging Face上的模型和数据集直接缓存在Google Cloud上，显著提升下载速度并增强供应链稳定性。Google Cloud客户在Vertex AI、GKE等服务中部署模型时将获得更快的首次响应。同时，Hugging Face的1000万开发者将受益于更多新型计算实例、价格下降以及通过Google安全技术强化的模型安全性。此次合作还将推动TPU在开放模型开发中的普及应用。

Google Hugging Face 开源生态行业动态

推荐理由：开发者将享受更快的模型下载、TPU 原生支持和增强安全，简化 AI 部署流程。

11月7日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang Diffusion：加速视频与图像生成

SGLang 推出 Diffusion 推理引擎，将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型，在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术，提供 OpenAI 兼容 API、CLI 及 Python 接口，并与 FastVideo 合作覆盖从训练到部署的全流程。

图像生成开源/仓库视频部署/工程

11月5日

17:54

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/dFactory：轻松高效的 dLLM 微调

inclusionAI 发布了 dFactory 平台，旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度，显著降低了技术门槛与计算成本。用户无需深厚专业知识，即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%，并支持多节点协作训练，提升了模型迭代效率。

开源/仓库数据/训练部署/工程

11月4日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选74

通过代码执行提升MCP智能体效率

随着AI智能体通过模型上下文协议（MCP）连接的工具数量激增，传统预先加载所有工具定义并通过上下文传递中间结果的方法，导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间，且中间结果（如完整会议记录）在多次工具调用间重复传递，额外消耗数万令牌。文章提出解决方案：将MCP服务器呈现为代码API，使智能体能按需加载工具，并在执行环境中处理数据，仅将精简结果传回模型，从而显著减少令牌消耗、提升效率并降低成本。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」，用代码执行替代直接工具调用，token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition，这篇是必读的架构升级指南。