AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 497 条
全部一手资讯X论文
标签「部署/工程」清除
1月21日周三
00:00Mistral AI:News(网页)46调试vLLM中的内存泄漏
00:00LMSYS:Blog(Chatbot Arena 团队)Novita AI 优化 GLM4-MoE:基于 SGLang 实现 TTFT 降低 65%
1月16日周五
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang-Diffusion:发布两月进展综述
1月15日周四
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 优化 Pipeline Parallelism 支持百万 Token 超长上下文
1月14日周三
00:00智谱:研究(网页内嵌数据)精选智谱联合华为开源首个国产芯片训练的多模态SOTA模型
1月12日周一
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang EPD 分离架构:视觉语言模型的弹性编码器扩展
1月9日周五
08:00OpenRouter:Announcements(RSS)50OpenRouter 1月发布:优先快速LLM、探索提供商、自定义自动路由、SDK技能加载与性能大提升
08:00OpenRouter:Announcements(RSS)51OpenRouter 1月更新:快速LLM优先、自定义自动路由、SDK技能加载与性能提升
08:00OpenRouter:Announcements(RSS)50January Release Spotlight
12月30日周二
08:00xAI:News(网页)精选xAI推出Grok Business与Enterprise企业版
12月24日周三
08:00OpenRouter:Announcements(RSS)50利用NeMo Data Designer构建可蒸馏模型与合成数据管道
12月23日周二
22:07Hugging Face:Blog(RSS)66AprielGuard:现代大语言模型系统的安全与对抗鲁棒性护栏
00:00LMSYS:Blog(Chatbot Arena 团队)SpecBundle与SpecForge v0.2发布:生产级投机解码模型与框架
12月22日周一
08:00xAI:News(网页)精选以 AI 支持 DOW 的使命
08:00xAI:News(网页)Grok 发布 Collections API
12月19日周五
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang实现扩散LLM框架:支持LLaDA 2.0-flash
12月18日周四
09:00公众号:蚂蚁百灵(Ling)32AEnvironment - 面向 Agentic RL 时代的环境系统,开箱即用,万物互联
08:00OpenRouter:Announcements(RSS)57精选OpenRouter 推出 Response Healing:将 JSON 缺陷减少 80% 以上
08:00OpenRouter:Announcements(RSS)54OpenRouter 12月发布亮点:结构化输出响应修复、聊天室通知与长上下文模型排名
08:00OpenRouter:Announcements(RSS)40OpenRouter 十二月发布:响应修复、聊天室通知、长上下文模型排名,登顶 Brex 最快增长 AI 基础设施榜单
08:00OpenRouter:Announcements(RSS)40十二月发布亮点
08:00OpenRouter:Announcements(RSS)61精选Response Healing:将 JSON 缺陷减少 80% 以上
12月17日周三
21:22Hugging Face:Blog(RSS)66开放评估标准:使用NeMo Evaluator对NVIDIA Nemotron 3 Nano进行基准测试
19:58Google DeepMind:Blog(RSS)精选Gemini 3 Flash:专为速度打造的前沿智能
12月16日周二
16:55蚂蚁 inclusionAI:GitHub 新仓库49inclusionAI/AEnvironment
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 首日支持 MiMo-V2-Flash 模型
12月15日周一
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型,NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量
12月11日周四
23:47Hugging Face:Blog(RSS)76精选llama.cpp 服务器新增多模型管理功能
18:00公众号:小红书技术(dots.llm)52小红书技术提出细粒度激活卸载:大模型训练显存与吞吐性能联合最优方案
12月10日周三
00:00LMSYS:Blog(Chatbot Arena 团队)让张量飞起来 -- 用 R-Fork 加速大模型权重加载
12月5日周五
08:00Hugging Face:Blog(RSS)76精选介绍 swift-huggingface:完整的 Hugging Face Swift 客户端
12月3日周三
21:45蚂蚁 inclusionAI:GitHub 新仓库63精选蚂蚁集团开源AState:面向强化学习的高性能状态管理系统
12月2日周二
00:00LMSYS:Blog(Chatbot Arena 团队)加速 SGLang 推理:原生集成 NVIDIA Model Optimizer 实现无缝量化与部署(12月2日更新)
12月1日周一
08:00Hugging Face:Blog(RSS)93精选Transformers v5:以简化模型定义驱动AI生态
00:00LMSYS:Blog(Chatbot Arena 团队)从研究到生产:在Vertex AI上用EAGLE-3加速开源大模型
11月26日周三
17:00蚂蚁 inclusionAI:GitHub 新仓库39inclusionAI/asystem-amem
11月25日周二
08:00Hugging Face:Blog(RSS)76精选从第一性原理看连续批处理
01:40Hugging Face:Blog(RSS)83精选构建深度研究智能体:实现顶尖水平的经验
00:08Hugging Face:Blog(RSS)73精选OVHcloud 成为 Hugging Face 官方推理服务提供商
00:00LMSYS:Blog(Chatbot Arena 团队)统一 FP8:超越混合精度,实现稳定且加速的 MoE RL
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
1月21日
00:00
Mistral AI:News(网页)
46
调试vLLM中的内存泄漏

在生产环境中,使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时,团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长,最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现,初步调查指向了传输层。团队从Python内存分析工具入手,但常规工具未能定位到根源,调查随后深入到底层与UCX和Infiniband相关的交互中。

教程/实践部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
Novita AI 优化 GLM4-MoE:基于 SGLang 实现 TTFT 降低 65%

Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案,通过共享专家融合、Qknorm 融合与异步传输三项核心技术,在 H200 集群 TP8/FP8 配置下实现首 token 延迟(TTFT)降低 65%、每 token 输出时间(TPOT)提升 22%。针对 Agentic Coding 场景,团队提出无需额外训练草稿模型的 Suffix Decoding 技术,利用历史输出模式重复率进一步加速推理。

智能体教程/实践编码部署/工程
1月16日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang-Diffusion:发布两月进展综述

SGLang-Diffusion 最新版本(lmsysorg/sglang:dev-pr-17247)性能较初始版本提升2.5倍,在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型,完整支持LoRA格式与HTTP API,并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠,支持SP/TP混合并行及SageAttention系列后端,兼容AMD、4090、5090及MUSA硬件。

图像生成开源/仓库部署/工程
1月15日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 优化 Pipeline Parallelism 支持百万 Token 超长上下文

SGLang 发布面向超长上下文推理的 Pipeline Parallelism(PP)优化实现,集成 Chunked PP、异步 P2P 通信与动态分块机制。在 H20 集群 PP4 TP8 配置下,DeepSeek-V3.1 的 Prefill Throughput 较 TP8 提升 3.31 倍,较 TP32 领先 30.5%,TTFT 降低 67.9%,强扩展效率达 82.8%。该方案兼容 PD 分离与 HiCache,为万亿参数模型百万 Token 上下文推理提供高效开源路径。

开源/仓库部署/工程
1月14日
00:00
智谱:研究(网页内嵌数据)
精选
智谱联合华为开源首个国产芯片训练的多模态SOTA模型

智谱联合华为开源多模态生成模型GLM-Image,为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构,在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一,支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张,代码已开源至GitHub、Hugging Face及魔搭社区。

图像生成开源生态模型发布部署/工程

推荐理由:首个国产昇腾芯片训练的SOTA多模态模型开源,文字渲染能力开源第一,生成一张图仅需0.1元
1月12日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang EPD 分离架构:视觉语言模型的弹性编码器扩展

SGLang推出EPD(Encoder-Prefill-Decode)分离架构,将视觉编码与语言处理解耦,支持编码器独立横向扩展以替代低效的张量并行。该方案兼容现有PD分离,支持ZMQ、Mooncake等传输后端及视觉嵌入缓存。测试表明,在图像密集型场景(如多图输入)且1 QPS负载下,首token生成时间(TTFT)较同机部署降低约6–8倍;但在图像轻量场景中,网络开销可能导致性能下降。

多模态开源/仓库部署/工程
1月9日
08:00
OpenRouter:Announcements(RSS)
50
OpenRouter 1月发布:优先快速LLM、探索提供商、自定义自动路由、SDK技能加载与性能大提升

OpenRouter 1月发布聚焦优先选择快速大语言模型、探索提供商、自定义自动路由、在SDK中加载技能,以及大幅性能改进。

智能体产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
51
OpenRouter 1月更新:快速LLM优先、自定义自动路由、SDK技能加载与性能提升

OpenRouter 发布1月更新,新增快速LLM优先级排序功能,用户可优先选择低延迟模型;支持浏览和切换不同提供商;自动路由可自定义策略;SDK新增加载技能(skills)的能力;同时带来重大性能改进。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
50
January Release Spotlight

本次发布聚焦于提升大型语言模型(LLM)的速度与性能。核心更新包括优先支持快速LLM、探索更多模型提供商选项,以及允许用户自定义自动路由。软件开发工具包(SDK)现已支持加载技能,同时系统实现了显著的性能改进。这些更新旨在优化开发者的使用体验与模型运行效率。

MCP/工具产品更新部署/工程
12月30日
08:00
xAI:News(网页)
精选
xAI推出Grok Business与Enterprise企业版

xAI发布Grok Business和Grok Enterprise企业版。Business版定价30美元/座位/月,支持自助开通,提供团队管理、统一账单及Google Drive集成(保留原文件权限),并承诺用户数据永不用于模型训练。Enterprise版面向大型组织,提供Custom SSO、Directory Sync及高级审计控制;可选的Enterprise Vault插件提供独立数据平面与客户自管加密密钥(CMEK),实现应用级加密隔离。平台支持实时使用监控、安全对话共享及Projects功能。

智能体xAI产品更新部署/工程

推荐理由:xAI 推出 Grok 企业版,主打隐私保护与 Agent 能力,月费 30 美元起
12月24日
08:00
OpenRouter:Announcements(RSS)
50
利用NeMo Data Designer构建可蒸馏模型与合成数据管道

NVIDIA推出NeMo Data Designer工具,帮助企业生成合规的合成数据工作流,用于定制化大模型训练。该工具通过创建“许可证安全”的合成数据,规避版权风险,并支持构建可蒸馏的轻量级模型。它为在特定领域数据受限的企业提供了端到端的合成数据生成与管理解决方案,助力模型高效微调与优化。

产品更新数据/训练部署/工程
12月23日
22:07
Hugging Face:Blog(RSS)
66
AprielGuard:现代大语言模型系统的安全与对抗鲁棒性护栏

ServiceNow AI团队在Hugging Face发布了AprielGuard框架。该框架专为提升LLM在生产环境中的安全性而设计,通过集成多层检测与过滤机制,防御对抗性攻击和恶意输入,以增强系统的整体稳健性。

Hugging Face安全/对齐部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SpecBundle与SpecForge v0.2发布:生产级投机解码模型与框架

SpecForge团队联合蚂蚁、美团、Nex-AGI与EigenAI发布SpecBundle第一阶段及SpecForge v0.2框架。SpecBundle提供基于大规模数据集训练的生产级EAGLE-3草稿模型,覆盖Llama-3.1/3.3/4、Qwen3、Kimi-K2等十余种主流架构,解决开源社区高质量草稿模型稀缺问题。SpecForge v0.2重构数据处理管道,数据再生速度提升10倍,并新增多后端支持,进一步增强系统可扩展性与生产就绪能力。

开源/仓库开源生态部署/工程
12月22日
08:00
xAI:News(网页)
精选
以 AI 支持 DOW 的使命

xAI 被美国战争部(DOW)选中,为其 GenAI.Mil 套件提供 Frontier AI 系统。基于 Grok 模型的解决方案将覆盖 DOW 旗下 300 万军事和文职人员,支持 Impact Level 5(IL5)级别的企业 AI 和关键任务用例,可嵌入从五角大楼到战术边缘的日常工作流,并支持机密作战工作负载。DOW 用户还可独家获取 X 平台实时全球洞察。

智能体xAI行业动态部署/工程
关联讨论 1 条xAI:News(网页)
推荐理由:xAI获美国国防部大单,Grok将覆盖300万军事人员并提供实时情报支持
08:00
xAI:News(网页)
Grok 发布 Collections API

Grok 推出 Collections API,支持上传 PDF、Excel、代码库等文件构建知识库,提供语义、关键词及混合搜索三种检索方式,帮助开发者零基础设施构建 RAG 应用。首周文件索引与存储免费,检索定价 $2.50/千次。基准测试显示,其在金融(93.0%)、法律(73.9%)、编码(86%)场景的检索准确率均优于 Gemini Pro 3 和 GPT 5.1。

检索增强xAI产品更新部署/工程
12月19日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang实现扩散LLM框架:支持LLaDA 2.0-flash

Ant Group DeepXPU团队与SGLang团队合作,在SGLang推理引擎中实现了扩散大语言模型(dLLM)框架,为100B参数的LLaDA 2.0-flash提供首日支持。该方案复用现有Chunked-Prefill机制适配Block Diffusion架构,通过修改prefill adder和chunked reqs组件实现多Diffusion Blocks批处理,无需改动SGLang核心即可继承生产级推理优化,并支持用户灵活定制扩散解码算法。

开源/仓库推理部署/工程
12月18日
09:00
公众号:蚂蚁百灵(Ling)
32
AEnvironment - 面向 Agentic RL 时代的环境系统,开箱即用,万物互联

AEnvironment 是专为 Agentic RL 打造的基础设施,将环境搭建从写脚本转变为调用服务,实现开箱即用和万物互联。

智能体开源/仓库部署/工程
08:00
OpenRouter:Announcements(RSS)
精选57
OpenRouter 推出 Response Healing:将 JSON 缺陷减少 80% 以上

OpenRouter 推出 Response Healing 新功能,可在响应到达应用前自动修复大语言模型产生的格式错误的 JSON,从而将 JSON 缺陷减少 80% 以上。

产品更新部署/工程

推荐理由:如果你无数次被 LLM 返回的残缺 JSON 搞到崩溃,OpenRouter 这个 response healing 能自动修复 80% 的缺陷,以后 debug 可以少肝半小时。
08:00
OpenRouter:Announcements(RSS)
54
OpenRouter 12月发布亮点:结构化输出响应修复、聊天室通知与长上下文模型排名

OpenRouter 推出结构化输出的响应修复(Response Healing)功能,新增聊天室通知,发布长上下文模型排行榜,并位列 Brex 增长最快 AI 基础设施榜单第一。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
40
OpenRouter 十二月发布:响应修复、聊天室通知、长上下文模型排名,登顶 Brex 最快增长 AI 基础设施榜单

OpenRouter 十二月版本更新引入响应修复(Response Healing)机制以提升结构化输出可靠性,新增聊天室通知功能,并推出长上下文模型排名。此外,OpenRouter 在 Brex 评选的增长最快 AI 基础设施公司榜单中位列第一。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
40
十二月发布亮点

Anthropic 在十二月多项更新中重点推出结构化输出的 Response Healing 功能,可自动修复格式错误。平台新增聊天室通知系统,并发布长上下文模型性能排行榜,Claude 3.5 Sonnet 在 200K 上下文评测中领先。公司同时宣布其 AI 基础设施在 Brex 年度榜单中位列增长最快首位。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
精选61
Response Healing:将 JSON 缺陷减少 80% 以上

OpenRouter 推出新功能 Response Healing,可在 LLM 生成的畸形 JSON 响应抵达用户应用前自动修复。该功能旨在将 JSON 格式错误减少超过 80%,直接提升 API 响应的结构完整性与可靠性,减少下游应用的处理负担。

智能体产品更新部署/工程

推荐理由:做 Agent 的人最怕 JSON 解析炸掉整个 pipeline,OpenRouter 这个 Response Healing 相当于在网关层加了自动纠错,接入成本几乎为零,值得试试。
12月17日
21:22
Hugging Face:Blog(RSS)
66
开放评估标准:使用NeMo Evaluator对NVIDIA Nemotron 3 Nano进行基准测试

NVIDIA在Hugging Face发布博客,介绍Nemotron 3 Nano模型,并通过NeMo Evaluator工具进行开放标准基准测试。评估覆盖代码生成、数学推理和常识问答等任务,以透明、可复现的方式量化模型性能,体现NVIDIA推动开源评估生态的努力。

Hugging Face评测/基准部署/工程
19:58
Google DeepMind:Blog(RSS)
精选
Gemini 3 Flash:专为速度打造的前沿智能

Gemini 3 Flash 正式发布,在大幅降低使用成本的同时提供前沿级智能,主打极速推理性能,为需要快速响应的 AI 应用提供高性价比选择。

Google模型发布端侧部署/工程

推荐理由:Google发布Gemini 3 Flash轻量模型,兼顾前沿性能与推理速度
12月16日
16:55
蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/AEnvironment

inclusionAI 发布了 AEnvironment,这是一个用于智能体 AI 开发的标准化环境基础设施。该平台旨在为 AI 智能体的构建、测试和部署提供统一、可复现的环境,解决开发过程中因环境差异导致的兼容性与一致性问题。它通过预配置的标准化设置,简化了开发流程,提升了协作效率与系统可靠性。

智能体开源/仓库部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 首日支持 MiMo-V2-Flash 模型

小米发布 MiMo-V2-Flash 推理模型,SGLang 提供首日支持。该模型拥有 309B 总参数和 15B 激活参数,采用滑动窗口注意力(SWA)和 3 层多级 MTP 设计,将注意力复杂度降至线性并提升解码效率。通过硬件感知配置平衡计算与内存,在 H200 上即使 64K 长上下文仍保持 150 TPS 单请求吞吐量。SGLang Spec v2 实现完全重叠 MTP 调度,隐藏 CPU 开销并减少 GPU 气泡,最大化硬件利用率。

推理模型发布部署/工程
12月15日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型,NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量

SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构,总参数 30B 但仅激活 3.6B,支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时,在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式,并支持"思考预算"功能以减少过度推理,适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。

推理模型发布部署/工程
12月11日
23:47
Hugging Face:Blog(RSS)
精选76
llama.cpp 服务器新增多模型管理功能

llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。

开源/仓库端侧部署/工程

推荐理由:本地跑模型终于能像 Ollama 一样热切换,开发调试效率大幅提升
18:00
公众号:小红书技术(dots.llm)
52
小红书技术提出细粒度激活卸载:大模型训练显存与吞吐性能联合最优方案

细粒度激活卸载(Fine-grained Activation Offloading)采用模块级粒度,将计算与内存传输重叠,并兼容全并行设计,在主流大模型训练中同时降低峰值显存开销并提升吞吐性能,实现显存开销与吞吐性能的联合最优,获得显著性能收益和显存收益。

教程/实践数据/训练部署/工程
12月10日
00:00
LMSYS:Blog(Chatbot Arena 团队)
让张量飞起来 -- 用 R-Fork 加速大模型权重加载

蚂蚁集团 DeepXPU 团队与 SGLang 团队联合发布 Tensor R-Fork(Tensor Remote Fork)技术,通过 GPU-Direct RDMA 实现节点间设备到设备的零拷贝权重传输。该技术可将 Deepseek-R1 模型的加载时间从数分钟缩短至数秒,减少约 600GB 的本地磁盘与 DRAM 存储占用,并提供 NCCL 和 TransferEngine 两种后端方案,后者可在不干扰线上推理服务的情况下完成权重迁移。

DeepSeek开源/仓库开源生态部署/工程
12月5日
08:00
Hugging Face:Blog(RSS)
精选76
介绍 swift-huggingface:完整的 Hugging Face Swift 客户端

swift-huggingface 是一个全新的 Swift 客户端,旨在彻底解决旧库下载模型缓慢、不可靠且不支持断点续传的问题。它提供完整的 Hub API 覆盖,核心改进包括具备进度跟踪和断点续传的可靠下载、与 Python 生态共享缓存以避免重复下载,以及通过灵活的 TokenProvider 模式简化身份验证。该库现已独立发布,并将很快集成到 swift-transformers 中取代原有实现,未来还将支持 Xet 存储后端以实现更快的下载。

Hugging Face开源/仓库部署/工程

推荐理由:Swift 开发者可无缝集成 Hugging Face 模型,下载更可靠且与 Python 共享缓存。
12月3日
21:45
蚂蚁 inclusionAI:GitHub 新仓库
精选63
蚂蚁集团开源AState:面向强化学习的高性能状态管理系统

蚂蚁集团开源了AState,这是一个专为强化学习设计的高性能通用状态数据管理系统。它旨在解决RL训练与推理中的I/O效率低下、权重同步性能不足及状态恢复不鲁棒等核心挑战。系统采用三层架构:提供张量原生接口的API层、支持多种部署模式的服务层以及具备高效可扩展传输能力的基础层。其关键特性包括统一的张量级API、高性能权重同步和拓扑感知设计。在万亿参数规模下,AState能在约6秒内完成权重同步,远低于业界常见的分钟级延迟,目前已作为ASystem的关键组件在蚂蚁内部生产环境部署。

智能体开源/仓库部署/工程

推荐理由:蚂蚁把万亿参数 RL 训练的权重同步从分钟级压到 6 秒,这套 AState 系统是真刀真枪的工程解法,做大规模 RL infra 的团队值得拆一拆它的 RDMA P2P 架构。
12月2日
00:00
LMSYS:Blog(Chatbot Arena 团队)
加速 SGLang 推理:原生集成 NVIDIA Model Optimizer 实现无缝量化与部署(12月2日更新)

SGLang 最新版本原生集成 NVIDIA Model Optimizer,支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步,支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比,优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升,显著降低延迟与内存占用。

开源/仓库编码部署/工程
12月1日
08:00
Hugging Face:Blog(RSS)
精选93
Transformers v5:以简化模型定义驱动AI生态

Transformers v5正式发布,其每日pip安装量从v4的2万次大幅提升至300万次以上,总安装量突破12亿次。模型架构数量从40个扩展至超400个,Hub上兼容的模型检查点从约1,000个增至75万个。新版本聚焦于简化模型定义、训练、推理与生产部署,通过引入AttentionInterface等模块化设计,显著降低了代码贡献与维护成本。此外,库将明确以PyTorch为唯一后端,逐步淘汰Flax/TensorFlow支持,并简化分词处理,以推动标准化与生态兼容性。

Hugging Face开源/仓库部署/工程

推荐理由:Transformers v5 大幅简化模型集成,提升训练推理效率,开发者可快速上手最新 AI 模型。
00:00
LMSYS:Blog(Chatbot Arena 团队)
从研究到生产:在Vertex AI上用EAGLE-3加速开源大模型

Vertex AI团队推出基于EAGLE-3的推测解码加速方案,通过为目标模型(如Llama 70B)添加仅占2-5%参数量的轻量级draft head,取代传统独立draft模型,实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路:构建合成数据生成管道解决版权与PII问题,采用离线训练策略预计算embeddings,并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用,最终解决CPU瓶颈问题实现规模化部署。

Google数据/训练论文/研究部署/工程
11月26日
17:00
蚂蚁 inclusionAI:GitHub 新仓库
39
inclusionAI/asystem-amem

该项目是一个针对NCCL通信库的扩展库,核心功能是高效卸载NCCL所分配的GPU内存。它通过将NCCL占用的显存资源进行智能释放与转移,旨在缓解大规模分布式训练中的显存压力,从而提升整体系统效率与资源利用率。

开源/仓库部署/工程
11月25日
08:00
Hugging Face:Blog(RSS)
精选76
从第一性原理看连续批处理

连续批处理是优化大型语言模型推理吞吐量的核心技术,通过并行处理多个对话并在生成完成后动态交换任务,以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发,文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度,但连续批处理允许查询、键和值张量容纳不同长度的令牌序列,从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本,适用于高负载服务场景,提升响应速度。

Hugging Face推理教程/实践部署/工程

推荐理由:深入理解LLM推理优化原理,助力高效模型部署。
01:40
Hugging Face:Blog(RSS)
精选83
构建深度研究智能体:实现顶尖水平的经验

Tavily团队因模型迭代重建了深度研究系统,核心是从工作流转向智能体架构,并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索,高效获取高相关度内容,避免信息过载。智能体设计模仿人类研究模式:收集信息、提炼要点、决策下一步,仅在生成最终交付物时引用原始资料,大幅减少令牌消耗,实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则,以构建能随模型进化而持续改进的智能体系统。

智能体Hugging Face教程/实践部署/工程

推荐理由:分享构建高效 AI 代理的实战技巧,优化上下文工程以提升性能。
00:08
Hugging Face:Blog(RSS)
精选73
OVHcloud 成为 Hugging Face 官方推理服务提供商

OVHcloud 现已正式加入 Hugging Face Hub 的推理服务提供商生态。用户可直接在模型页面使用其全托管、无服务器化的 AI 端点服务,便捷调用 gpt-oss、Qwen3 等热门开源模型。该服务基于欧洲数据中心,保障数据主权与低延迟,首 token 响应时间低于 200 毫秒,并支持结构化输出等高级功能。定价为每百万 token 0.04 欧元起,用户可选择使用自定义 API 密钥或通过 Hugging Face 账户路由请求并计费。

Hugging Face产品更新部署/工程

推荐理由:欧洲开发者可低成本合规访问前沿AI模型,推理选项更丰富。
00:00
LMSYS:Blog(Chatbot Arena 团队)
统一 FP8:超越混合精度,实现稳定且加速的 MoE RL

InfiXAI、Ant Group AQ、SGLang RL 与 Miles 团队联合实现了端到端 FP8 强化学习训练与采样方案。实验表明,MoE 模型在使用 BF16 训练与 FP8 推理时,规模越大训练-推理差异越显著;统一采用 FP8 进行训练和推理可有效消除量化误差导致的不一致性,显著提升训练速度与稳定性。该方案已支持 Qwen3-4B 和 Qwen3-30B-A3B 模型,并在 miles 框架中开箱即用。

数据/训练论文/研究部署/工程
‹ 上一页
1…7891011…13
下一页 ›