11月21日

08:00

Hugging Face：Blog（RSS）

精选80

RapidFire AI 发布了一套加速 TRL 微调的工具，通过自适应分块调度方案，允许在单个或多个 GPU 上并发启动多个训练配置并实时比较。内部基准测试显示，实验吞吐量比顺序执行高出约 16 至 24 倍。该工具提供即插即用的 TRL 配置包装器、分块并发训练、支持实时停止/恢复/克隆修改的交互式控制操作、自动多 GPU 编排以及 MLflow 仪表板，使用户能快速筛选最优配置，极大提升微调效率。

Hugging Face 开源/仓库数据/训练部署/工程

推荐理由：开发者可并发测试多个微调配置，大幅提升实验效率。

11月20日

08:00

Hugging Face：Blog（RSS）

精选83

介绍 AnyLanguageModel：为苹果平台提供本地与云端大语言模型的统一 API

AnyLanguageModel 是一个 Swift 包，旨在为苹果平台上的大语言模型集成提供统一解决方案。它作为苹果原生 Foundation Models 框架的替代品，允许开发者通过相同的 API 接口，灵活调用本地模型（如通过 Core ML、MLX、llama.cpp 运行）与云端服务（如 OpenAI、Anthropic）。该方案复用苹果精心设计的 API 作为基础，大幅降低了在不同模型提供商之间切换的代码修改成本，并利用 Swift 的包特性功能避免依赖膨胀，从而简化开发流程，鼓励对本地开源模型的探索。

开源/仓库开源生态部署/工程

推荐理由：Apple开发者可一键切换本地与云端模型，大幅降低AI应用开发门槛。

11月19日

08:00

xAI：News（网页）

精选

Grok 与沙特阿拉伯达成全国性部署合作

xAI 与沙特阿拉伯及 PIF 旗下 HUMAIN 签署框架协议，将在沙特建设超大规模 GPU 数据中心，并全国范围内部署 Grok 至 HUMAIN ONE 平台，为政府和企业提供实时智能与自主工作流。这是 Grok 首次在国家层面全面落地。

智能体 xAI 行业动态部署/工程

推荐理由：xAI与沙特达成国家级合作，将全国部署Grok并建设超大规模AI算力基础设施

00:00

Mistral AI：News（网页）

Mistral AI 宣布在德国的长期战略承诺

Mistral AI宣布在德国的多项长期战略承诺。公司正与SAP建立多年期合作伙伴关系，将Mistral模型整合至SAP AI Foundation，为德国和欧洲构建完全自主可控的AI技术栈，并针对复杂行业和管理部门共同开发解决方案。同时，与Helsing合作加速开发用于现实防务与安全应用的视觉语言动作模型，以支持欧洲的战略自主性。Mistral AI计划未来几个月内在德国设立办公室，并大幅扩充本地团队，旨在让德国乃至欧洲的客户能够拥有自己的AI发展路径，无需牺牲战略自主性或将关键数据送出境外。

数据/训练行业动态部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

RadixArk发布Miles：面向大规模MoE训练的企业级强化学习框架

RadixArk团队发布企业级强化学习框架Miles，专为大规模MoE训练设计。该框架基于曾支撑GLM-4.6训练的slime构建，首创True On-Policy技术，实现训练与推理零KL散度对齐。新版本引入在线草稿模型推测解码，rollout加速超25%，并针对GB300等新硬件优化内存管理，支持Flash Attention 3与DeepGEMM。框架采用模块化架构，四大核心组件完全解耦，兼顾研究灵活性与企业级稳定性。

开源/仓库数据/训练部署/工程

11月17日

10:43

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/asystem-awex

inclusionAI 发布了 asystem-awex，这是一个专为强化学习工作流设计的高性能训练-推理权重同步框架。该框架的核心目标是实现从训练到推理的秒级参数更新，从而显著提升强化学习模型的迭代效率与部署实时性。它解决了传统流程中参数同步延迟高的问题，为需要快速在线学习和决策的应用场景提供了关键技术支撑。

开源/仓库数据/训练部署/工程

08:00

Hugging Face：Blog（RSS）

精选73

使用Hugging Face轻松构建和共享ROCm内核

Hugging Face的kernels库简化了高性能深度学习内核的构建与共享，支持CUDA、ROCm等多种后端。本文以ROCm兼容内核为例，展示如何利用kernel-builder工具构建、测试并共享内核。以RadeonFlow的GEMM内核为具体案例，该内核是针对AMD Instinct MI300X GPU优化的FP8块状矩阵乘法实现，采用e4m3fnuz浮点格式和每块缩放因子以保持低精度计算准确性，并在2025年AMD开发者挑战赛中获最高奖。指南涵盖项目设置、构建配置及通过kernels社区分享的完整步骤。

Hugging Face 开源生态教程/实践部署/工程

推荐理由：AMD GPU开发者可快速上手构建高性能AI内核，提升部署效率。

11月14日

00:00

LMSYS：Blog（Chatbot Arena 团队）

AutoRound 与 SGLang 正式集成，实现低比特量化模型高效推理

AutoRound 与 SGLang 宣布合作，支持 INT2-INT8 低比特量化模型的高效推理部署。基于符号梯度优化算法，AutoRound 在 INT2 精度下准确率较主流基线提升 2.1 倍，单 GPU 量化 72B 模型仅需 37 分钟。开发者可将 GPTQ、AWQ 或 GGUF 格式的量化模型直接部署至 SGLang v0.5.4.post2+，兼容 LLM、VLM 及 MoE 架构，在最小精度损失下显著降低推理延迟。

开源/仓库部署/工程

11月13日

08:00

Hugging Face：Blog（RSS）

精选88

共建开放未来：Hugging Face与Google Cloud达成新合作

Hugging Face与Google Cloud宣布建立深度战略合作，旨在将Google Cloud打造为使用开放模型的最佳平台。双方将合作构建CDN网关，把Hugging Face上的模型和数据集直接缓存在Google Cloud上，显著提升下载速度并增强供应链稳定性。Google Cloud客户在Vertex AI、GKE等服务中部署模型时将获得更快的首次响应。同时，Hugging Face的1000万开发者将受益于更多新型计算实例、价格下降以及通过Google安全技术强化的模型安全性。此次合作还将推动TPU在开放模型开发中的普及应用。

Google Hugging Face 开源生态行业动态

推荐理由：开发者将享受更快的模型下载、TPU 原生支持和增强安全，简化 AI 部署流程。

11月7日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang Diffusion：加速视频与图像生成

SGLang 推出 Diffusion 推理引擎，将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型，在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术，提供 OpenAI 兼容 API、CLI 及 Python 接口，并与 FastVideo 合作覆盖从训练到部署的全流程。

图像生成开源/仓库视频部署/工程

11月5日

17:54

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/dFactory：轻松高效的 dLLM 微调

inclusionAI 发布了 dFactory 平台，旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度，显著降低了技术门槛与计算成本。用户无需深厚专业知识，即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%，并支持多节点协作训练，提升了模型迭代效率。

开源/仓库数据/训练部署/工程

11月4日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选74

通过代码执行提升MCP智能体效率

随着AI智能体通过模型上下文协议（MCP）连接的工具数量激增，传统预先加载所有工具定义并通过上下文传递中间结果的方法，导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间，且中间结果（如完整会议记录）在多次工具调用间重复传递，额外消耗数万令牌。文章提出解决方案：将MCP服务器呈现为代码API，使智能体能按需加载工具，并在执行环境中处理数据，仅将精简结果传回模型，从而显著减少令牌消耗、提升效率并降低成本。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」，用代码执行替代直接工具调用，token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition，这篇是必读的架构升级指南。