AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1386 条
全部一手资讯X论文
标签「部署/工程」清除
2月6日周五
00:45Dwarkesh Patel:Podcast & Blog(RSS)精选埃隆·马斯克--「36个月内,部署AI最便宜的地方将是太空」
2月4日周三
18:40公众号:腾讯混元55腾讯混元开源HPC-Ops算子库,推理吞吐提升30%
1月30日周五
15:55蚂蚁 inclusionAI:GitHub 新仓库61精选高效离线推理框架 Flood:吞吐量显著领先,支持多模态与量化
1月29日周四
08:00Hugging Face:Blog(RSS)63发布 Daggr:以编程方式链接应用,以可视化方式进行检查
1月26日周一
00:00LMSYS:Blog(Chatbot Arena 团队)单卡H200部署1TB模型:INT4 QAT RL端到端实践
1月22日周四
00:00Moonshot AI:Kimi Blog精选Kimi 供应商验证器
1月21日周三
00:00Mistral AI:News(网页)46调试vLLM中的内存泄漏
00:00LMSYS:Blog(Chatbot Arena 团队)Novita AI 优化 GLM4-MoE:基于 SGLang 实现 TTFT 降低 65%
1月16日周五
08:13Hacker News:AI 热帖Show HN:Gambit,开源 AI agent 框架,用类型化 deck 构建可靠工作流
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang-Diffusion:发布两月进展综述
1月15日周四
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 优化 Pipeline Parallelism 支持百万 Token 超长上下文
1月14日周三
00:00智谱:研究(网页内嵌数据)精选智谱联合华为开源首个国产芯片训练的多模态SOTA模型
1月12日周一
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang EPD 分离架构:视觉语言模型的弹性编码器扩展
1月9日周五
08:00OpenRouter:Announcements(RSS)50OpenRouter 1月发布:优先快速LLM、探索提供商、自定义自动路由、SDK技能加载与性能大提升
08:00OpenRouter:Announcements(RSS)51OpenRouter 1月更新:快速LLM优先、自定义自动路由、SDK技能加载与性能提升
08:00OpenRouter:Announcements(RSS)50January Release Spotlight
12月30日周二
08:00xAI:News(网页)精选xAI推出Grok Business与Enterprise企业版
12月24日周三
08:00OpenRouter:Announcements(RSS)50利用NeMo Data Designer构建可蒸馏模型与合成数据管道
12月23日周二
22:07Hugging Face:Blog(RSS)66AprielGuard:现代大语言模型系统的安全与对抗鲁棒性护栏
00:00LMSYS:Blog(Chatbot Arena 团队)SpecBundle与SpecForge v0.2发布:生产级投机解码模型与框架
12月22日周一
08:00xAI:News(网页)精选以 AI 支持 DOW 的使命
08:00xAI:News(网页)Grok 发布 Collections API
12月19日周五
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang实现扩散LLM框架:支持LLaDA 2.0-flash
12月18日周四
09:00公众号:蚂蚁百灵(Ling)32AEnvironment - 面向 Agentic RL 时代的环境系统,开箱即用,万物互联
08:00OpenRouter:Announcements(RSS)57精选OpenRouter 推出 Response Healing:将 JSON 缺陷减少 80% 以上
08:00OpenRouter:Announcements(RSS)54OpenRouter 12月发布亮点:结构化输出响应修复、聊天室通知与长上下文模型排名
08:00OpenRouter:Announcements(RSS)40OpenRouter 十二月发布:响应修复、聊天室通知、长上下文模型排名,登顶 Brex 最快增长 AI 基础设施榜单
08:00OpenRouter:Announcements(RSS)40十二月发布亮点
08:00OpenRouter:Announcements(RSS)61精选Response Healing:将 JSON 缺陷减少 80% 以上
12月17日周三
21:22Hugging Face:Blog(RSS)66开放评估标准:使用NeMo Evaluator对NVIDIA Nemotron 3 Nano进行基准测试
19:58Google DeepMind:Blog(RSS)精选Gemini 3 Flash:专为速度打造的前沿智能
12月16日周二
16:55蚂蚁 inclusionAI:GitHub 新仓库49inclusionAI/AEnvironment
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 首日支持 MiMo-V2-Flash 模型
12月15日周一
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型,NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量
12月11日周四
23:47Hugging Face:Blog(RSS)76精选llama.cpp 服务器新增多模型管理功能
18:00公众号:小红书技术(dots.llm)52小红书技术提出细粒度激活卸载:大模型训练显存与吞吐性能联合最优方案
12月10日周三
00:00LMSYS:Blog(Chatbot Arena 团队)让张量飞起来 -- 用 R-Fork 加速大模型权重加载
12月5日周五
08:00Hugging Face:Blog(RSS)76精选介绍 swift-huggingface:完整的 Hugging Face Swift 客户端
12月3日周三
21:45蚂蚁 inclusionAI:GitHub 新仓库63精选蚂蚁集团开源AState:面向强化学习的高性能状态管理系统
12月2日周二
00:00LMSYS:Blog(Chatbot Arena 团队)加速 SGLang 推理:原生集成 NVIDIA Model Optimizer 实现无缝量化与部署(12月2日更新)
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
2月6日
00:45
Dwarkesh Patel:Podcast & Blog(RSS)
精选
埃隆·马斯克--「36个月内,部署AI最便宜的地方将是太空」

埃隆·马斯克预测,36个月后太空将成为部署人工智能成本最低的地点。他指出,长期专注于软件领域的从业者即将面临硬件层面的严峻挑战。这一判断暗示,随着AI算力需求爆发式增长,地面数据中心的能源消耗与散热限制将推高计算成本,而太空环境凭借丰富的太阳能和天然散热优势,可能在未来三年内成为AI基础设施部署的更经济选择。

xAI大佬观点部署/工程

推荐理由:Musk预判三年内太空将成为AI算力最优解,软件工程师需直面硬件物理约束
2月4日
18:40
公众号:腾讯混元
55
腾讯混元开源HPC-Ops算子库,推理吞吐提升30%

腾讯混元开源生产级高性能LLM推理核心算子库HPC-Ops,可带来30%的推理吞吐提升。

开源/仓库推理部署/工程
1月30日
15:55
蚂蚁 inclusionAI:GitHub 新仓库
精选61
高效离线推理框架 Flood:吞吐量显著领先,支持多模态与量化

Flood 是一款面向离线应用的高效大语言模型推理框架。它采用流水线并行降低通信开销,并通过分段式KV缓存管理提升连续性。框架支持连续批处理、分块预填充、FP8/INT8量化及多模态模型推理。性能测试表明,其在多种模型和硬件上的吞吐量最高可达 vLLM 的 2.4 倍。其专用内核 SegmentAttention 在处理长序列时,解码速度较 FlashAttention 最高提升 3.16 倍。该项目于 2025 年 3 月开源并快速迭代,已支持前瞻解码等新特性。

开源/仓库推理部署/工程

推荐理由:蚂蚁的 FLOOD 框架用流水线并行替代张量并行来压通信开销,实测吞吐比 vLLM 高 1.4 到 2.4 倍,做离线推理部署的团队值得花半小时跑一下 benchmark 看看自家场景能不能吃这个红利。
1月29日
08:00
Hugging Face:Blog(RSS)
63
发布 Daggr:以编程方式链接应用,以可视化方式进行检查

Meta AI 团队发布了开源工具 Daggr,旨在通过编程方式链接不同的 AI 应用,并支持对工作流进行可视化检查与调试。该工具允许开发者将多个模型(如 GPT、Claude、LLaMA)和数据处理步骤串联成自动化流程,同时提供直观的图形界面来监控数据流转和状态变化。此举是其通过开源与开放科学推进人工智能民主化进程的一部分。

智能体Hugging Face产品更新部署/工程
1月26日
00:00
LMSYS:Blog(Chatbot Arena 团队)
单卡H200部署1TB模型:INT4 QAT RL端到端实践

SGLang RL团队联合多家机构开源INT4量化感知训练端到端方案。受Kimi K2启发,训练阶段采用伪量化,推理阶段使用W4A16(INT4权重、BF16激活)真实量化,实现与BF16全精度相当的稳定性。该方案将约1TB模型压缩至单张H200(141GB)GPU即可完成rollout,彻底消除跨节点通信瓶颈,显著提升推理效率,为大规模模型训练提供高性能、低成本的开源实践参考。

数据/训练论文/研究部署/工程
1月22日
00:00
Moonshot AI:Kimi Blog
精选
Kimi 供应商验证器

Kimi 发布 K2.5 模型时开源 Kimi Vendor Verifier(KVV),用于验证第三方推理实现的准确性。针对开源模型部署渠道多样化导致的质量失控问题,KVV 提供六项关键基准测试,覆盖参数约束验证、多模态流水线、长输出压力测试、工具调用一致性及编程能力评估。项目与 vLLM/SGLang 社区合作修复根因,并提供预发布验证和实时更新的公开排行榜。完整评估在双 H20 8 卡服务器上约需 15 小时。

开源/仓库评测/基准部署/工程

推荐理由:Kimi开源Vendor Verifier,系统性解决开源模型第三方部署质量验证难题
1月21日
00:00
Mistral AI:News(网页)
46
调试vLLM中的内存泄漏

在生产环境中,使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时,团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长,最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现,初步调查指向了传输层。团队从Python内存分析工具入手,但常规工具未能定位到根源,调查随后深入到底层与UCX和Infiniband相关的交互中。

教程/实践部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
Novita AI 优化 GLM4-MoE:基于 SGLang 实现 TTFT 降低 65%

Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案,通过共享专家融合、Qknorm 融合与异步传输三项核心技术,在 H200 集群 TP8/FP8 配置下实现首 token 延迟(TTFT)降低 65%、每 token 输出时间(TPOT)提升 22%。针对 Agentic Coding 场景,团队提出无需额外训练草稿模型的 Suffix Decoding 技术,利用历史输出模式重复率进一步加速推理。

智能体教程/实践编码部署/工程
1月16日
08:13
Hacker News:AI 热帖
Show HN:Gambit,开源 AI agent 框架,用类型化 deck 构建可靠工作流

Gambit 是一款开源 AI agent 开发框架,通过组合小型、类型化的「deck」模块构建可靠 LLM 工作流,支持本地运行、流式跟踪与内置调试 UI。提供 REPL、场景模拟和评分等 CLI 工具,解决长提示词路由失控、上下文膨胀导致的高成本与幻觉问题,实现可离线测试的精细化编排。

智能体开源/仓库部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang-Diffusion:发布两月进展综述

SGLang-Diffusion 最新版本(lmsysorg/sglang:dev-pr-17247)性能较初始版本提升2.5倍,在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型,完整支持LoRA格式与HTTP API,并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠,支持SP/TP混合并行及SageAttention系列后端,兼容AMD、4090、5090及MUSA硬件。

图像生成开源/仓库部署/工程
1月15日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 优化 Pipeline Parallelism 支持百万 Token 超长上下文

SGLang 发布面向超长上下文推理的 Pipeline Parallelism(PP)优化实现,集成 Chunked PP、异步 P2P 通信与动态分块机制。在 H20 集群 PP4 TP8 配置下,DeepSeek-V3.1 的 Prefill Throughput 较 TP8 提升 3.31 倍,较 TP32 领先 30.5%,TTFT 降低 67.9%,强扩展效率达 82.8%。该方案兼容 PD 分离与 HiCache,为万亿参数模型百万 Token 上下文推理提供高效开源路径。

开源/仓库部署/工程
1月14日
00:00
智谱:研究(网页内嵌数据)
精选
智谱联合华为开源首个国产芯片训练的多模态SOTA模型

智谱联合华为开源多模态生成模型GLM-Image,为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构,在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一,支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张,代码已开源至GitHub、Hugging Face及魔搭社区。

图像生成开源生态模型发布部署/工程

推荐理由:首个国产昇腾芯片训练的SOTA多模态模型开源,文字渲染能力开源第一,生成一张图仅需0.1元
1月12日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang EPD 分离架构:视觉语言模型的弹性编码器扩展

SGLang推出EPD(Encoder-Prefill-Decode)分离架构,将视觉编码与语言处理解耦,支持编码器独立横向扩展以替代低效的张量并行。该方案兼容现有PD分离,支持ZMQ、Mooncake等传输后端及视觉嵌入缓存。测试表明,在图像密集型场景(如多图输入)且1 QPS负载下,首token生成时间(TTFT)较同机部署降低约6–8倍;但在图像轻量场景中,网络开销可能导致性能下降。

多模态开源/仓库部署/工程
1月9日
08:00
OpenRouter:Announcements(RSS)
50
OpenRouter 1月发布:优先快速LLM、探索提供商、自定义自动路由、SDK技能加载与性能大提升

OpenRouter 1月发布聚焦优先选择快速大语言模型、探索提供商、自定义自动路由、在SDK中加载技能,以及大幅性能改进。

智能体产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
51
OpenRouter 1月更新:快速LLM优先、自定义自动路由、SDK技能加载与性能提升

OpenRouter 发布1月更新,新增快速LLM优先级排序功能,用户可优先选择低延迟模型;支持浏览和切换不同提供商;自动路由可自定义策略;SDK新增加载技能(skills)的能力;同时带来重大性能改进。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
50
January Release Spotlight

本次发布聚焦于提升大型语言模型(LLM)的速度与性能。核心更新包括优先支持快速LLM、探索更多模型提供商选项,以及允许用户自定义自动路由。软件开发工具包(SDK)现已支持加载技能,同时系统实现了显著的性能改进。这些更新旨在优化开发者的使用体验与模型运行效率。

MCP/工具产品更新部署/工程
12月30日
08:00
xAI:News(网页)
精选
xAI推出Grok Business与Enterprise企业版

xAI发布Grok Business和Grok Enterprise企业版。Business版定价30美元/座位/月,支持自助开通,提供团队管理、统一账单及Google Drive集成(保留原文件权限),并承诺用户数据永不用于模型训练。Enterprise版面向大型组织,提供Custom SSO、Directory Sync及高级审计控制;可选的Enterprise Vault插件提供独立数据平面与客户自管加密密钥(CMEK),实现应用级加密隔离。平台支持实时使用监控、安全对话共享及Projects功能。

智能体xAI产品更新部署/工程

推荐理由:xAI 推出 Grok 企业版,主打隐私保护与 Agent 能力,月费 30 美元起
12月24日
08:00
OpenRouter:Announcements(RSS)
50
利用NeMo Data Designer构建可蒸馏模型与合成数据管道

NVIDIA推出NeMo Data Designer工具,帮助企业生成合规的合成数据工作流,用于定制化大模型训练。该工具通过创建“许可证安全”的合成数据,规避版权风险,并支持构建可蒸馏的轻量级模型。它为在特定领域数据受限的企业提供了端到端的合成数据生成与管理解决方案,助力模型高效微调与优化。

产品更新数据/训练部署/工程
12月23日
22:07
Hugging Face:Blog(RSS)
66
AprielGuard:现代大语言模型系统的安全与对抗鲁棒性护栏

ServiceNow AI团队在Hugging Face发布了AprielGuard框架。该框架专为提升LLM在生产环境中的安全性而设计,通过集成多层检测与过滤机制,防御对抗性攻击和恶意输入,以增强系统的整体稳健性。

Hugging Face安全/对齐部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SpecBundle与SpecForge v0.2发布:生产级投机解码模型与框架

SpecForge团队联合蚂蚁、美团、Nex-AGI与EigenAI发布SpecBundle第一阶段及SpecForge v0.2框架。SpecBundle提供基于大规模数据集训练的生产级EAGLE-3草稿模型,覆盖Llama-3.1/3.3/4、Qwen3、Kimi-K2等十余种主流架构,解决开源社区高质量草稿模型稀缺问题。SpecForge v0.2重构数据处理管道,数据再生速度提升10倍,并新增多后端支持,进一步增强系统可扩展性与生产就绪能力。

开源/仓库开源生态部署/工程
12月22日
08:00
xAI:News(网页)
精选
以 AI 支持 DOW 的使命

xAI 被美国战争部(DOW)选中,为其 GenAI.Mil 套件提供 Frontier AI 系统。基于 Grok 模型的解决方案将覆盖 DOW 旗下 300 万军事和文职人员,支持 Impact Level 5(IL5)级别的企业 AI 和关键任务用例,可嵌入从五角大楼到战术边缘的日常工作流,并支持机密作战工作负载。DOW 用户还可独家获取 X 平台实时全球洞察。

智能体xAI行业动态部署/工程
关联讨论 1 条xAI:News(网页)
推荐理由:xAI获美国国防部大单,Grok将覆盖300万军事人员并提供实时情报支持
08:00
xAI:News(网页)
Grok 发布 Collections API

Grok 推出 Collections API,支持上传 PDF、Excel、代码库等文件构建知识库,提供语义、关键词及混合搜索三种检索方式,帮助开发者零基础设施构建 RAG 应用。首周文件索引与存储免费,检索定价 $2.50/千次。基准测试显示,其在金融(93.0%)、法律(73.9%)、编码(86%)场景的检索准确率均优于 Gemini Pro 3 和 GPT 5.1。

检索增强xAI产品更新部署/工程
12月19日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang实现扩散LLM框架:支持LLaDA 2.0-flash

Ant Group DeepXPU团队与SGLang团队合作,在SGLang推理引擎中实现了扩散大语言模型(dLLM)框架,为100B参数的LLaDA 2.0-flash提供首日支持。该方案复用现有Chunked-Prefill机制适配Block Diffusion架构,通过修改prefill adder和chunked reqs组件实现多Diffusion Blocks批处理,无需改动SGLang核心即可继承生产级推理优化,并支持用户灵活定制扩散解码算法。

开源/仓库推理部署/工程
12月18日
09:00
公众号:蚂蚁百灵(Ling)
32
AEnvironment - 面向 Agentic RL 时代的环境系统,开箱即用,万物互联

AEnvironment 是专为 Agentic RL 打造的基础设施,将环境搭建从写脚本转变为调用服务,实现开箱即用和万物互联。

智能体开源/仓库部署/工程
08:00
OpenRouter:Announcements(RSS)
精选57
OpenRouter 推出 Response Healing:将 JSON 缺陷减少 80% 以上

OpenRouter 推出 Response Healing 新功能,可在响应到达应用前自动修复大语言模型产生的格式错误的 JSON,从而将 JSON 缺陷减少 80% 以上。

产品更新部署/工程

推荐理由:如果你无数次被 LLM 返回的残缺 JSON 搞到崩溃,OpenRouter 这个 response healing 能自动修复 80% 的缺陷,以后 debug 可以少肝半小时。
08:00
OpenRouter:Announcements(RSS)
54
OpenRouter 12月发布亮点:结构化输出响应修复、聊天室通知与长上下文模型排名

OpenRouter 推出结构化输出的响应修复(Response Healing)功能,新增聊天室通知,发布长上下文模型排行榜,并位列 Brex 增长最快 AI 基础设施榜单第一。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
40
OpenRouter 十二月发布:响应修复、聊天室通知、长上下文模型排名,登顶 Brex 最快增长 AI 基础设施榜单

OpenRouter 十二月版本更新引入响应修复(Response Healing)机制以提升结构化输出可靠性,新增聊天室通知功能,并推出长上下文模型排名。此外,OpenRouter 在 Brex 评选的增长最快 AI 基础设施公司榜单中位列第一。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
40
十二月发布亮点

Anthropic 在十二月多项更新中重点推出结构化输出的 Response Healing 功能,可自动修复格式错误。平台新增聊天室通知系统,并发布长上下文模型性能排行榜,Claude 3.5 Sonnet 在 200K 上下文评测中领先。公司同时宣布其 AI 基础设施在 Brex 年度榜单中位列增长最快首位。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
精选61
Response Healing:将 JSON 缺陷减少 80% 以上

OpenRouter 推出新功能 Response Healing,可在 LLM 生成的畸形 JSON 响应抵达用户应用前自动修复。该功能旨在将 JSON 格式错误减少超过 80%,直接提升 API 响应的结构完整性与可靠性,减少下游应用的处理负担。

智能体产品更新部署/工程

推荐理由:做 Agent 的人最怕 JSON 解析炸掉整个 pipeline,OpenRouter 这个 Response Healing 相当于在网关层加了自动纠错,接入成本几乎为零,值得试试。
12月17日
21:22
Hugging Face:Blog(RSS)
66
开放评估标准:使用NeMo Evaluator对NVIDIA Nemotron 3 Nano进行基准测试

NVIDIA在Hugging Face发布博客,介绍Nemotron 3 Nano模型,并通过NeMo Evaluator工具进行开放标准基准测试。评估覆盖代码生成、数学推理和常识问答等任务,以透明、可复现的方式量化模型性能,体现NVIDIA推动开源评估生态的努力。

Hugging Face评测/基准部署/工程
19:58
Google DeepMind:Blog(RSS)
精选
Gemini 3 Flash:专为速度打造的前沿智能

Gemini 3 Flash 正式发布,在大幅降低使用成本的同时提供前沿级智能,主打极速推理性能,为需要快速响应的 AI 应用提供高性价比选择。

Google模型发布端侧部署/工程

推荐理由:Google发布Gemini 3 Flash轻量模型,兼顾前沿性能与推理速度
12月16日
16:55
蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/AEnvironment

inclusionAI 发布了 AEnvironment,这是一个用于智能体 AI 开发的标准化环境基础设施。该平台旨在为 AI 智能体的构建、测试和部署提供统一、可复现的环境,解决开发过程中因环境差异导致的兼容性与一致性问题。它通过预配置的标准化设置,简化了开发流程,提升了协作效率与系统可靠性。

智能体开源/仓库部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 首日支持 MiMo-V2-Flash 模型

小米发布 MiMo-V2-Flash 推理模型,SGLang 提供首日支持。该模型拥有 309B 总参数和 15B 激活参数,采用滑动窗口注意力(SWA)和 3 层多级 MTP 设计,将注意力复杂度降至线性并提升解码效率。通过硬件感知配置平衡计算与内存,在 H200 上即使 64K 长上下文仍保持 150 TPS 单请求吞吐量。SGLang Spec v2 实现完全重叠 MTP 调度,隐藏 CPU 开销并减少 GPU 气泡,最大化硬件利用率。

推理模型发布部署/工程
12月15日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 首日支持高效开源 Nemotron 3 Nano 混合 MoE 模型,NVFP4 精度版本采用 Quantization-Aware Distillation 技术在 B200 上实现 4 倍于 FP8-H100 的吞吐量

SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构,总参数 30B 但仅激活 3.6B,支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时,在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式,并支持"思考预算"功能以减少过度推理,适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。

推理模型发布部署/工程
12月11日
23:47
Hugging Face:Blog(RSS)
精选76
llama.cpp 服务器新增多模型管理功能

llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。

开源/仓库端侧部署/工程

推荐理由:本地跑模型终于能像 Ollama 一样热切换,开发调试效率大幅提升
18:00
公众号:小红书技术(dots.llm)
52
小红书技术提出细粒度激活卸载:大模型训练显存与吞吐性能联合最优方案

细粒度激活卸载(Fine-grained Activation Offloading)采用模块级粒度,将计算与内存传输重叠,并兼容全并行设计,在主流大模型训练中同时降低峰值显存开销并提升吞吐性能,实现显存开销与吞吐性能的联合最优,获得显著性能收益和显存收益。

教程/实践数据/训练部署/工程
12月10日
00:00
LMSYS:Blog(Chatbot Arena 团队)
让张量飞起来 -- 用 R-Fork 加速大模型权重加载

蚂蚁集团 DeepXPU 团队与 SGLang 团队联合发布 Tensor R-Fork(Tensor Remote Fork)技术,通过 GPU-Direct RDMA 实现节点间设备到设备的零拷贝权重传输。该技术可将 Deepseek-R1 模型的加载时间从数分钟缩短至数秒,减少约 600GB 的本地磁盘与 DRAM 存储占用,并提供 NCCL 和 TransferEngine 两种后端方案,后者可在不干扰线上推理服务的情况下完成权重迁移。

DeepSeek开源/仓库开源生态部署/工程
12月5日
08:00
Hugging Face:Blog(RSS)
精选76
介绍 swift-huggingface:完整的 Hugging Face Swift 客户端

swift-huggingface 是一个全新的 Swift 客户端,旨在彻底解决旧库下载模型缓慢、不可靠且不支持断点续传的问题。它提供完整的 Hub API 覆盖,核心改进包括具备进度跟踪和断点续传的可靠下载、与 Python 生态共享缓存以避免重复下载,以及通过灵活的 TokenProvider 模式简化身份验证。该库现已独立发布,并将很快集成到 swift-transformers 中取代原有实现,未来还将支持 Xet 存储后端以实现更快的下载。

Hugging Face开源/仓库部署/工程

推荐理由:Swift 开发者可无缝集成 Hugging Face 模型,下载更可靠且与 Python 共享缓存。
12月3日
21:45
蚂蚁 inclusionAI:GitHub 新仓库
精选63
蚂蚁集团开源AState:面向强化学习的高性能状态管理系统

蚂蚁集团开源了AState,这是一个专为强化学习设计的高性能通用状态数据管理系统。它旨在解决RL训练与推理中的I/O效率低下、权重同步性能不足及状态恢复不鲁棒等核心挑战。系统采用三层架构:提供张量原生接口的API层、支持多种部署模式的服务层以及具备高效可扩展传输能力的基础层。其关键特性包括统一的张量级API、高性能权重同步和拓扑感知设计。在万亿参数规模下,AState能在约6秒内完成权重同步,远低于业界常见的分钟级延迟,目前已作为ASystem的关键组件在蚂蚁内部生产环境部署。

智能体开源/仓库部署/工程

推荐理由:蚂蚁把万亿参数 RL 训练的权重同步从分钟级压到 6 秒,这套 AState 系统是真刀真枪的工程解法,做大规模 RL infra 的团队值得拆一拆它的 RDMA P2P 架构。
12月2日
00:00
LMSYS:Blog(Chatbot Arena 团队)
加速 SGLang 推理:原生集成 NVIDIA Model Optimizer 实现无缝量化与部署(12月2日更新)

SGLang 最新版本原生集成 NVIDIA Model Optimizer,支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步,支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比,优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升,显著降低延迟与内存占用。

开源/仓库编码部署/工程
‹ 上一页
1…2930313233…35
下一页 ›