9月10日

15:01

Thinking Machines Lab：官方博客（RSS）

精选60

LLM推理的再现性是科学进步的基础，但即使在温度设为0的贪心采样下，ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于：部分GPU内核是非确定性的，但LLM前向传播使用的内核均为确定性；推理服务器前向传播本身是确定性的，用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解，并探讨如何实现真正可重现的LLM推理输出。

开源/仓库推理教程/实践部署/工程

推荐理由：Horace He 把 LLM 推理非确定性的锅从并发浮点转向 batch-size，并给出了可落地的 batch-invariant 内核实现，做推理部署和 RL 的工程师都该看看。

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang HiCache：支持多种存储后端的快速分层 KV 缓存

SGLang 发布 HiCache 分层 KV 缓存系统，通过 HiRadixTree 页表管理 GPU、CPU 及外部存储中的缓存数据，支持 Mooncake、3FS、NIXL 等多种后端。系统采用 GPU 辅助 I/O 内核和层间重叠机制加速数据传输，在 Qwen3-Coder-480B 编码场景中将 TTFT 降低 56%、吞吐量翻倍、缓存命中率提升至 80%；在 DeepSeek-R1-671B 部署中实现缓存命中时 TTFT 降低 84%，整体吞吐量最高提升 6 倍。

开源/仓库部署/工程

9月1日

00:00

LMSYS：Blog（Chatbot Arena 团队）

美团开源LongCat-Flash：基于SGLang的高效Agentic MoE模型

美团开源Agentic MoE模型LongCat-Flash，总参数量560B，每token仅激活27B。该模型基于SGLang框架，采用PD分离架构与SBO技术，通过四阶段流水线在单batch内实现计算与通信重叠，突破吞吐与延迟的权衡瓶颈。相比同类模型推理成本降低50%以上，在Agent任务中表现优异，适用于复杂实时智能体应用。

智能体模型发布部署/工程

8月28日

00:00

LMSYS：Blog（Chatbot Arena 团队）

gpt-oss MXFP4 微调和部署：ModelOpt + SGLang（8月29日更新）

OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化，但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练（QAT）方案，允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型，无需转换为 BF16 而牺牲性能。实测显示，经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%，在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署，保持 MXFP4 格式的推理速度与内存优势。

OpenAI 教程/实践数据/训练部署/工程

8月27日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 支持 gpt-oss：从 Day 0 支持到性能增强

SGLang 针对 openai/gpt-oss-120b 发布重大性能优化，prefill 吞吐量提升 2.1 倍，decode 吞吐量提升 2.25 倍。新版本集成 FlashInfer 内核以释放 NVIDIA Blackwell 性能，通过 FlashAttention-3 加速 Hopper GPU，并原生支持 AMD MI350。在 B200 上 MXFP4 精度下单批次解码速度达 416.02 tok/s。同时引入 EAGLE3 投机解码支持，GPQA 基准测试验证精度与官方报告一致，确保高性能不损失推理能力。

智能体 OpenAI 开源/仓库部署/工程

8月26日

08:00

OpenRouter：Announcements（RSS）

首个图像模型在 OpenRouter 上线

Gemini 2.5 Flash Image Preview 模型已在 OpenRouter 平台正式发布。该模型是首个在该平台上线的图像生成模型，具备当前最优的图像生成能力。其核心特性包括出色的角色一致性和支持多图像输出功能，为开发者与用户提供了新的图像生成工具选项。

产品更新图像生成部署/工程

8月4日

08:00

OpenRouter：Announcements（RSS）

为应用添加 Audio Inputs 和 PDF URLs 支持

平台宣布为所有模型的应用新增音频输入与通过URL发送PDF文件的功能。用户现在可以直接使用语音与各类模型（如GPT、Claude、LLaMA）进行交互，同时支持通过链接直接上传PDF文档进行处理。这两项更新旨在提升多模态交互的便捷性，扩展了应用处理非文本输入和数据获取的方式，无需再依赖传统的文件上传步骤。

产品更新多模态部署/工程

7月29日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 推出 Presets 特性：跨应用无缝迁移模型配置

OpenRouter 新增服务器端预设（Presets）功能，用户可一次定制模型配置并在不同应用间无缝使用，简化模型工作流。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

OpenRouter 推出服务端 Presets 功能

OpenRouter 上线服务端 Presets，支持用户一次定制模型配置（如参数、提示词）后跨应用直接调用，无需重复设置，简化跨平台模型工作流。

智能体产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

Presets：如何在应用间无缝迁移模型配置

新推出的服务端 Presets 功能实现了模型配置的“一次定制，处处使用”。该功能允许用户将包括模型、参数、提示词和工具在内的完整配置保存为可复用的预设方案，并能通过链接或代码片段跨应用无缝共享。这简化了从开发到生产的工作流，避免了重复配置，提升了团队协作与部署效率。

MCP/工具产品更新部署/工程

7月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang开源SpecForge：加速Eagle3投机解码训练

SGLang团队开源SpecForge训练框架，专为Eagle3投机解码设计，原生集成SGLang推理引擎实现训推无缝衔接。框架内置Training-Time Test支持，提供Online与Offline双模式，分别适配低存储多GPU与高存储低GPU场景。基于ShareGPT和UltraChat 32万样本的实验显示，Llama 4 Maverick与Scout draft模型在MT-Bench上分别实现2.18倍与2.0倍推理加速。

开源/仓库开源生态部署/工程

7月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

基于PD分离与大规模专家并行在128张H200 GPU上部署Kimi K2

Mooncake团队基于OME和SGLang框架，在128张H200 GPU集群上完成了Moonshot AI 1万亿参数开源MoE模型Kimi K2的大规模部署。该方案采用PD分离与大规模专家并行技术，针对模型384个专家和每token 320亿激活参数的设计进行优化，通过跨节点通信优化与负载均衡策略，显著提升了trillion-scale模型的推理吞吐与并发处理能力。

开源生态教程/实践部署/工程

7月17日

00:00

LMSYS：Blog（Chatbot Arena 团队）

使用多 Token 预测（MTP）加速 SGLang：吞吐量提升 60% 的推理优化方案

SGLang 推理框架现已支持多 Token 预测（MTP）技术，并与大规模专家并行（EP）、预填充-解码分离（PD Disaggregation）等特性无缝集成。该技术通过轻量级草稿模型预测多个未来 Token，再由完整目标模型并行验证，在保持生成质量不变的前提下，可将 DeepSeek V3 等模型的输出吞吐量提升高达 60%。在 16 张 H200 GPU 的小规模部署场景中，该方案显著优化了长序列推理效率，为生产环境提供即插即用的性能增益。

开源/仓库推理部署/工程

7月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

在 SGLang 中支持新 VLMs：NVILA 案例研究

NVILA 团队发布技术博客，详解如何在 SGLang 推理框架中集成新型视觉语言模型。文章以 NVILA 为实践案例，提供从模型适配、推理优化到部署的完整开发指南与代码实践。随着多模态大模型成为行业焦点，该方案填补了 SGLang 生态在视觉理解模型支持方面的文档空白，为开发者快速接入新 VLM 提供了标准化技术路径与最佳实践。

多模态教程/实践部署/工程

7月15日

08:00

OpenRouter：Announcements（RSS）

Venice 上线 OpenRouter：主打隐私与无审查

Venice 作为新提供商加入 OpenRouter，提供其旗舰无审查模型，主打隐私、高性能和非限制性 AI 体验。

行业动态部署/工程

08:00

OpenRouter：Announcements（RSS）

OpenRouter 新增隐私优先提供商 Venice

Venice 作为新提供商加入 OpenRouter，提供其旗舰未审查模型，主打隐私、强大且无限制的 AI 体验。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

专注隐私的新提供商上线：Venice

专注隐私的AI提供商Venice正式加入OpenRouter平台，并推出了其旗舰模型。该模型主打无审查、功能强大且限制少的特点，旨在为用户提供私密且不受限制的人工智能体验。这一新增服务为寻求高度隐私保护和内容自由度的用户提供了新的选择。

行业动态部署/工程

7月10日

08:00

OpenRouter：Announcements（RSS）

精选55

OpenRouter 免费套餐更新：引入新模型维持可访问 AI 推理

OpenRouter 发布免费套餐更新，通过引入新模型来维持可持续的 AI 推理服务，旨在继续为广大用户提供可访问的 AI 能力。

产品更新推理部署/工程

关联讨论 1 条

推荐理由：OpenRouter 一年前把几个新模型塞进免费层，当时对白嫖开发者是利好，但现在点开只能闻到时间的灰尘。

08:00

OpenRouter：Announcements（RSS）

免费服务层更新：持续为所有人提供可访问的AI

平台对其免费服务层进行了重要更新，旨在通过引入新的模型来维持可访问的AI推理能力。此次调整的核心是确保免费服务的长期可持续性，同时继续向广大用户提供AI服务。更新后，用户将能使用到性能更强或更高效的新模型，但部分原有模型的访问权限或速率可能会相应调整。平台承诺，核心目标依然是让每个人都能接触和使用AI技术。

产品更新部署/工程

7月9日

00:00

LMSYS：Blog（Chatbot Arena 团队）

slime：面向 RL 扩展的 SGLang 原生后训练框架

slime 团队发布面向大规模 RL 训练的后训练框架 slime，原生集成 SGLang 推理引擎与 Megatron-LM 训练引擎。框架通过 sgl-router 提供可定制 rollout 接口与灵活训练配置，支持同地/解耦部署、同步/异步训练及 SFT 冷启动。用户可通过 OpenAI 兼容 API 与智能体环境交互，无需修改环境代码。框架完整支持 SGLang 优化参数（如 EP MoE、DP Attention）及 Megatron 并行策略（TP/PP/EP/CP），提供独立调试模式与检查点转换工具，基础镜像基于 lmsysorg/sglang:dev。

开源/仓库数据/训练部署/工程

7月8日

00:00

LMSYS：Blog（Chatbot Arena 团队）

OME：以模型驱动架构革新 LLM 基础设施

Oracle Cloud Infrastructure 推出 OME（Open Model Engine），一款 Kubernetes-native 的模型服务框架。该系统采用模型驱动架构，通过 BaseModel、ServingRuntime 等自定义资源将模型视为一等公民，有效弥合 ML 工程师与生产团队之间的鸿沟。OME 将模型上线周期从数月压缩至数天，显著减少配置错误，并原生支持多节点推理、Prefill-decode 分离、Serverless 自动扩缩容及 Multi-LoRA 等企业级特性，集成 SGLang 运行时，实现复杂部署策略的编码复用与一键部署。

开源/仓库开源生态部署/工程

6月26日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 推出 Presets：从仪表盘管理 LLM 配置

OpenRouter 现已上线 Presets 功能，用户可通过仪表盘集中管理大语言模型（LLM）配置，从而加速迭代、清理代码。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

OpenRouter Presets 发布：从 Dashboard 管理 LLM 配置

OpenRouter 上线了 Presets 功能，用户可通过 Dashboard 集中管理大语言模型配置，从而加速迭代并清理代码。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

Introducing Presets：从仪表板管理 LLM 配置！

OpenRouter 正式上线了 Presets 功能。用户现在可以通过仪表板集中管理 LLM 配置，无需再将参数硬编码在应用程序中。此举旨在将 LLM 逻辑集中化，从而帮助开发者更快地进行迭代，并清理冗余代码，提升开发效率。

产品更新部署/工程

6月25日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 推出开发者与 BYOK 更新：Uptime API 及更智能的密钥管理

OpenRouter 新增 Uptime API，允许用户通过接口追踪模型正常运行时间。BYOK（自带密钥）管理同时升级，支持设置使用限制以及可测试密钥，进一步强化密钥控制能力。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

OpenRouter 推出开发者与 BYOK 更新：可用性 API + 更智能的密钥管理

OpenRouter 新增通过 API 追踪模型可用性的功能，并增强了 BYOK 密钥管理，支持设置使用限制和可测试密钥。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

Dev & BYOK 更新：Uptime API 与更智能的密钥管理

Anthropic 为其开发者和 BYOK 客户推出两项重要更新。新发布的 Uptime API 允许开发者通过编程接口直接追踪模型运行状态与可用性。同时，BYOK 密钥管理功能得到增强，用户现在可以对密钥设置使用量限制，并创建可测试的密钥，从而实现对加密密钥更精细化的控制与验证。

产品更新部署/工程

6月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

在GB200 NVL72上部署DeepSeek 671B：PD与大规模EP架构实现2.7倍解码加速

SGLang团队在GB200 NVL72集群部署DeepSeek 671B模型，采用预填充-解码分离（PD）与大规模专家并行（EP）架构，结合Blackwell专用优化组件（DeepGEMM、DeepEP等），实现单GPU解码吞吐7,583 tokens/秒。在2,000 token输入下，性能较H100提升2.7倍，整体加速比达2.5-3.4倍。系统利用NVLink全互联降低通信延迟，依托更大显存支持高批次处理，显著提升MoE模型推理效率。

DeepSeek 开源/仓库推理部署/工程

6月11日

00:00

Mistral AI：News（网页）

Mistral Compute：面向全球的私有AI基础设施服务

Mistral AI 推出 Mistral Compute，这是一项私有、集成化的 AI 基础设施服务，旨在让用户能够从基础设施层开始，自主构建并拥有完整的 AI 技术栈。该服务提供从裸机服务器到完全托管 PaaS 的多种交付形式，包含 GPU、编排、API 及产品。作为一项在欧洲前所未有的举措，Mistral Compute 为全球各国政府、企业及研究机构提供了美国或中国云厂商之外的替代选择，以支持其在国防、制药、金融等领域开发 AI 工作负载。该服务基于 NVIDIA 最新的参考架构，提供数万 GPU，并特别强调数据主权与可持续性。

产品更新部署/工程

6月9日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 推出更简单透明的平台费用结构

OpenRouter 正在推出更简单、更透明的平台费用结构。

行业动态部署/工程

08:00

OpenRouter：Announcements（RSS）

OpenRouter 简化平台费用结构

OpenRouter 正在推行一套更简单、透明的平台费用结构，旨在简化计费方式并提升透明度。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

简化我们的平台费用

平台宣布推出更简单、更透明的费用结构。此次调整旨在简化原有收费模式，提升费用透明度，让用户更清晰地理解相关成本。新结构将逐步实施，预计会影响平台上的各项服务收费方式。

产品更新部署/工程

6月4日

08:00

OpenRouter：Announcements（RSS）

GIF提示、Omni搜索、工具缓存与BYOK标志

多项新功能正式上线，包括GIF提示支持、Omni全平台搜索、Anthropic工具调用缓存以及自带密钥（BYOK）确认标志。这些更新显著提升了工作流程效率，实现了更智能的工具调用机制，并优化了图像支持体验。用户现可更快捷地生成GIF动图、跨平台检索内容、缓存常用工具以加速响应，并通过BYOK标志明确数据控制权限。

MCP/工具产品更新部署/工程

00:00

Mistral AI：News（网页）

Mistral Code 发布：企业级 AI 编程助手

Mistral AI 推出企业级 AI 编程助手 Mistral Code。该产品基于开源项目 Continue 构建，集成了 Codestral、Codestral Embed、Devstral 和 Mistral Medium 四个模型，分别用于代码补全、代码搜索、智能体编码和对话辅助。Mistral Code 支持 80 多种编程语言，并提供私有化部署、模型微调及企业级管控功能。目前，包括 Abanca、SNCF 和 Capgemini 在内的多家企业已在混合云或本地环境中部署该产品。目前该产品已开放私有测试。

产品更新开源生态编码部署/工程

5月28日

08:00

OpenRouter：Announcements（RSS）

精选56

OpenRouter 推出推理流摘要、加密货币发票等多项新功能

OpenRouter 上线了推理流摘要（Reasoning Streams）功能，支持流式推理过程摘要，同时新增加密货币发票支付、最终用户 ID（End-User IDs）、速率限制保护以及密钥锁定等特性。

产品更新推理部署/工程

推荐理由：如果你在用 OpenRouter 做应用，这几个更新挺实用，推理流输出让代理开发更可控，加密支付和端用户 ID 也降低了商业化门槛。

08:00

OpenRouter：Announcements（RSS）

OpenRouter 新功能：推理流、加密发票、终端用户 ID 等

OpenRouter 上线了一系列新功能：推理流（Reasoning Streams）支持流式推理摘要，保护速率限制，加密发票（Crypto Invoices）允许用加密货币支付，终端用户 ID（End-User IDs）实现密钥锁定。所有功能现已可用。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

新功能发布：推理流、加密货币支付、终端用户ID等

OpenRouter平台上线多项新功能。核心更新包括“推理流”，允许开发者在模型生成完整回复前实时获取并处理中间推理步骤，提升交互应用的响应速度。平台新增加密货币支付选项，支持通过加密货币开具发票。同时引入“终端用户ID”功能，帮助开发者更好地追踪和管理最终用户的使用情况，以保护API速率限制。此外，密钥锁定机制也已上线，增强了密钥管理的安全性。

产品更新部署/工程

5月22日

08:00

OpenRouter：Announcements（RSS）

Passkeys、开发者体验升级与TypeScript智能体新指南

Anthropic发布了多项平台更新。用户现可使用Passkeys无密码方式登录以增强账户安全。开发者体验获得升级，包括引入“provider slugs”功能以简化模型调用流程。同时，官方推出了全新的TypeScript智能体构建指南与更新后的文档，旨在帮助开发者更高效地创建基于Claude的AI智能体。

智能体产品更新部署/工程

5月7日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 新增提供商：Cerebras 上线

OpenRouter 引入 Cerebras 作为新提供商，专为速度和规模构建，实现从晶圆到模型 token 的全链路优化。该提供商消除了内存瓶颈，使大规模推理成为可能。

产品更新推理部署/工程

08:00

OpenRouter：Announcements（RSS）

新提供商上线：Cerebras 来了

Cerebras 作为新提供商加入 OpenRouter，其平台专为速度和规模构建，从晶圆到模型 token 突破了内存瓶颈，实现高效 AI 推理。

产品更新推理部署/工程