3月11日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 宣布首日支持 NVIDIA Nemotron 3 Super，助力构建高效多智能体系统

SGLang 首日支持 NVIDIA Nemotron 3 Super 开源模型。该模型采用 120B 总参数、12B 激活参数的混合 MoE 架构，支持 1M token 超长上下文，专为多智能体协作设计。相比前代，吞吐量提升 5 倍，在 Artificial Analysis 智能指数上准确率提高 2 倍。集成 Transformer-Mamba 架构与多 Token 预测技术，兼容 B200、H100 等 GPU，提供完全开放的权重与数据集，适用于代码生成、工具调用等复杂推理场景。

智能体模型发布部署/工程

3月10日

08:00

Hugging Face：Blog（RSS）

精选83

保持令牌流动：16个开源强化学习库的教训

同步强化学习训练中，数据生成是主要瓶颈，如在320亿参数模型上生成3.2万令牌样本需数小时，导致训练GPU闲置。业界主流解决方案是将推理与训练解耦到不同GPU池，通过rollout缓冲区连接并异步传输权重。本文调研了16个实现此模式的开源库，从编排原语、缓冲区设计、权重同步协议、陈旧数据处理、部分rollout支持、LoRA支持及分布式训练后端七个维度比较。关键发现：Ray在编排层占主导（8/16库使用），NCCL广播是默认权重传输方式，LoRA训练支持普遍不足，而分布式MoE支持正成为新差异化特性。

推理论文/研究部署/工程

推荐理由：异步RL训练架构对比，助开发者优化训练效率与库选型。

08:00

Hugging Face：Blog（RSS）

精选83

Hugging Face Hub 正式推出 Storage Buckets 存储服务

Hugging Face Hub 发布 Storage Buckets，这是一种为机器学习工作流设计的可变、类 S3 的对象存储服务。它基于 Xet 存储后端，能对跨文件共享内容的 ML 工件进行高效去重，从而节省带宽、加速传输并降低存储成本。该服务还提供“预暖”功能，可将数据预先迁移至靠近计算资源的云区域，以提升分布式训练等场景的效率。目前支持 AWS 和 GCP，用户可通过 CLI 或 Python 库在 2 分钟内快速创建和同步存储桶。

Hugging Face 产品更新数据/训练部署/工程

推荐理由：ML 开发者可高效管理训练数据和检查点，节省存储成本并加速工作流。

3月9日

08:00

Hugging Face：Blog（RSS）

精选76

Ulysses Sequence Parallelism：实现百万令牌上下文的训练

研究团队发布了Ulysses序列并行方法，这是一种用于训练大型语言模型的新技术。该方法通过将长序列在设备间进行特定维度的分割与重组，实现了对极长上下文的并行处理。其核心变化在于能高效训练上下文长度高达百万令牌的模型，突破了现有方法在序列长度上的扩展瓶颈。这一进展使得在保持高训练效率的同时，处理书籍、长文档等超长文本成为可能，为推进AI的民主化与开源发展提供了关键技术支撑。

数据/训练论文/研究部署/工程

推荐理由：百万 token 训练的序列并行方案，长上下文模型训练的关键工程突破

3月5日

00:30

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/AReaL-tau2-airline-sft-30B 发布

inclusionAI团队发布了AReaL-tau2-airline-sft-30B模型。这是一个基于开源与开放科学理念开发的、参数规模达300亿的大型语言模型。该模型的发布旨在推动人工智能技术的进步与民主化，其具体训练数据与性能指标尚未在本次公告中详细披露。

开源/仓库模型发布部署/工程

3月4日

00:35

Google DeepMind：Blog（RSS）

Gemini 3.1 Flash-Lite：专为规模化智能构建

Google 发布 Gemini 3.1 Flash-Lite，为 Gemini 3 系列中速度最快、成本效益最高的模型，面向大规模智能应用场景优化。

DeepMind Google 模型发布端侧

2月28日

20:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

OpenAI 与 Department of War 的协议

OpenAI 披露与 Department of War 达成的协议内容，详细划定 AI 部署的安全红线，明确相关法律保障措施，并具体说明 AI 系统接入机密环境的部署方式。

OpenAI 安全/对齐部署/工程

推荐理由：OpenAI官方披露与军方合作的安全红线与机密部署框架

2月27日

21:02

公众号：月之暗面（Kimi）

Kimi API：用90%缓存命中率，把价格打到25%

Kimi K2.5 多模态模型的 API 输入成本，在 90% 缓存命中率下，实际价格为 1.03 元/M tokens，仅为标准定价 4 元/M tokens 的 2.5 折。Kimi API 缓存命中率通常在 85%-95% 之间波动，核心支撑是与清华大学合作研发的 Mooncake 推理架构，该架构获存储顶会 FAST 2025 最佳论文，并已开源。

开源/仓库推理教程/实践部署/工程

13:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 与 Amazon 宣布战略合作

OpenAI 与 Amazon 达成战略合作，将 Frontier 平台引入 AWS，涵盖 AI 基础设施、定制模型及企业 AI 智能体。

智能体 OpenAI 行业动态部署/工程

13:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

Amazon Bedrock 推出面向 Agents 的有状态运行时环境

Amazon Bedrock 发布 Stateful Runtime for Agents，为 OpenAI 驱动的多步骤 AI 工作流提供持久化编排、记忆能力和安全执行环境。

智能体 OpenAI 产品更新部署/工程

2月26日

08:00

蚂蚁百灵：Developer Blog（网页）

精选86

Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践

为提升超长上下文下的计算效率，Ling 2.5架构将Ling 2.0的GQA改造为1:7的Lightning Attention与MLA混合线性注意力。此举旨在利用Lightning Attention提升长序列吞吐，并通过MLA极致压缩KV Cache。为确保改造后性能无损，团队设计了精细的平滑迁移训练策略，包括权重转换、QK Norm融合与Partial RoPE改造等多阶段加训。Scaling Law实验确定了1:7为最优混合比例，最终使万亿参数模型实现了更低的计算成本与更高的长文本推理效率。

开源生态推理论文/研究部署/工程

关联讨论 1 条

推荐理由：为大模型长上下文优化提供可落地的工程实践参考。

2月23日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 二月亮点发布：模型页面基准测试、免费模型路由与供应商成本透明度改进

OpenRouter 在模型页面新增基准测试数据，方便用户对比不同模型的性能；推出免费模型路由服务，可自动选择最优供应商；同时改进了成本透明度，让各供应商之间的定价差异更加清晰。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

OpenRouter 二月发布亮点：模型页面基准测试、免费模型路由与成本透明度改进

OpenRouter 在模型页面上新增了基准测试数据，推出了新的免费模型路由功能，并改进了不同提供商之间的成本透明度。

产品更新推理部署/工程

08:00

OpenRouter：Announcements（RSS）

February Release Spotlight

本次发布在模型页面新增了基准测试功能，并推出了一款全新的免费模型路由工具。同时，平台提升了不同服务提供商之间的成本透明度，使用户能更清晰地比较和选择。这些更新旨在帮助开发者更高效地评估模型性能、优化调用路径并管理使用成本。

产品更新部署/工程

2月22日

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5技术报告

GLM-5参数规模达7440亿，训练Token 28.5万亿。核心创新包括DSA稀疏注意力机制降低算力开销，异步RL基础设施与异步Agent RL算法提升长周期交互与自主决策能力。全面原生适配华为昇腾、寒武纪等七大国产芯片平台，通过W4A8混合精度量化与定制融合算子实现高效部署。模型支持复杂软件工程、终端操作、PPT生成等长程Agent任务，提供交错思考、保留思考等多种推理模式。

智能体模型发布编码部署/工程

推荐理由：智谱发布744B参数GLM-5，全面适配七大国产芯片平台，Agent与编码能力突出

2月20日