AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「开源/仓库」清除
12月2日周二
00:00LMSYS:Blog(Chatbot Arena 团队)加速 SGLang 推理:原生集成 NVIDIA Model Optimizer 实现无缝量化与部署(12月2日更新)
12月1日周一
08:00Hugging Face:Blog(RSS)93精选Transformers v5:以简化模型定义驱动AI生态
11月26日周三
17:00蚂蚁 inclusionAI:GitHub 新仓库39inclusionAI/asystem-amem
11月25日周二
22:20Hacker News:AI 热帖Launch HN: Onyx (YC W24) - 开源聊天 UI
11月21日周五
08:00Hugging Face:Blog(RSS)80精选RapidFire AI 实现20倍更快的 TRL 微调
11月20日周四
08:00Hugging Face:Blog(RSS)83精选介绍 AnyLanguageModel:为苹果平台提供本地与云端大语言模型的统一 API
11月19日周三
00:00LMSYS:Blog(Chatbot Arena 团队)RadixArk发布Miles:面向大规模MoE训练的企业级强化学习框架
11月17日周一
10:43蚂蚁 inclusionAI:GitHub 新仓库39inclusionAI/asystem-awex
11月14日周五
00:00LMSYS:Blog(Chatbot Arena 团队)AutoRound 与 SGLang 正式集成,实现低比特量化模型高效推理
11月7日周五
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang Diffusion:加速视频与图像生成
11月5日周三
17:54蚂蚁 inclusionAI:GitHub 新仓库49inclusionAI/dFactory:轻松高效的 dLLM 微调
10月29日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang-Jax:面向TPU的开源推理引擎
10月27日周一
08:00Thinking Machines Lab:官方博客(RSS)48在线策略蒸馏
00:00MiniMax:Blog(网页)62同事件精选MiniMax M2与AI智能体:简中见巧同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
10月22日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang集成KTransformers:基于AMX优化与专家延迟的MoE混合推理加速
10月14日周二
17:50蚂蚁 inclusionAI:GitHub 新仓库48inclusionAI/linghe
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang与NVIDIA携手加速SemiAnalysis InferenceMAX及GB200优化
10月10日周五
10:20蚂蚁 inclusionAI:GitHub 新仓库66精选Ming-VideoMAR:基于连续令牌的自回归视频生成模型
9月29日周一
16:07蚂蚁 inclusionAI:GitHub 新仓库58精选inclusionAI/dInfer
11:19蚂蚁 inclusionAI:GitHub 新仓库38inclusionAI/Ming-Freeform-Audio-Edit
11:19蚂蚁 inclusionAI:GitHub 新仓库57精选inclusionAI发布MingTok-Audio:首个统一连续语音分词器
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 发布首日支持 DeepSeek-V3.2:集成稀疏注意力机制
9月28日周日
00:00LMSYS:Blog(Chatbot Arena 团队)PD-Multiplexing:基于 GreenContext 解锁高有效吞吐 LLM 服务
9月25日周四
00:00LMSYS:Blog(Chatbot Arena 团队)GB200 NVL72部署DeepSeek V3/R1(二):PD分离与大规模EP实现3.8倍Prefill、4.8倍Decode吞吐
9月22日周一
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 实现确定性推理与可复现 RL 训练
9月21日周日
00:00LMSYS:Blog(Chatbot Arena 团队)在 AMD GPU 上优化 FP4 混合精度推理
9月10日周三
15:01Thinking Machines Lab:官方博客(RSS)60精选破解LLM推理中的非确定性
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang HiCache:支持多种存储后端的快速分层 KV 缓存
9月4日周四
14:54蚂蚁 inclusionAI:GitHub 新仓库51InclusionAI 开源 MoE 大语言模型 Ling-V2
8月28日周四
03:56Hao AI Lab49游戏强化学习训练能否提升LLM通用任务能力?
8月27日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 支持 gpt-oss:从 Day 0 支持到性能增强
8月15日周五
19:57蚂蚁 inclusionAI:GitHub 新仓库58精选inclusionAI/UI-Venus
8月7日周四
05:04Hao AI Lab81精选OpenAI开源推理模型性能评测出炉
7月30日周三
22:44Hacker News:AI 热帖Show HN: Sourcebot - 可自托管的代码库版 Perplexity
7月25日周五
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang开源SpecForge:加速Eagle3投机解码训练
7月19日周六
01:49Yann LeCunZML 推出硬件无关的 LLM 推理引擎
7月17日周四
00:00LMSYS:Blog(Chatbot Arena 团队)使用多 Token 预测(MTP)加速 SGLang:吞吐量提升 60% 的推理优化方案
7月9日周三
00:00LMSYS:Blog(Chatbot Arena 团队)slime:面向 RL 扩展的 SGLang 原生后训练框架
7月8日周二
00:00LMSYS:Blog(Chatbot Arena 团队)OME:以模型驱动架构革新 LLM 基础设施
6月28日周六
04:00Saining Xiemetaquery 现已开源--数据和代码均已开放。
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
12月2日
00:00
LMSYS:Blog(Chatbot Arena 团队)
加速 SGLang 推理:原生集成 NVIDIA Model Optimizer 实现无缝量化与部署(12月2日更新)

SGLang 最新版本原生集成 NVIDIA Model Optimizer,支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步,支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比,优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升,显著降低延迟与内存占用。

开源/仓库编码部署/工程
12月1日
08:00
Hugging Face:Blog(RSS)
精选93
Transformers v5:以简化模型定义驱动AI生态

Transformers v5正式发布,其每日pip安装量从v4的2万次大幅提升至300万次以上,总安装量突破12亿次。模型架构数量从40个扩展至超400个,Hub上兼容的模型检查点从约1,000个增至75万个。新版本聚焦于简化模型定义、训练、推理与生产部署,通过引入AttentionInterface等模块化设计,显著降低了代码贡献与维护成本。此外,库将明确以PyTorch为唯一后端,逐步淘汰Flax/TensorFlow支持,并简化分词处理,以推动标准化与生态兼容性。

Hugging Face开源/仓库部署/工程

推荐理由:Transformers v5 大幅简化模型集成,提升训练推理效率,开发者可快速上手最新 AI 模型。
11月26日
17:00
蚂蚁 inclusionAI:GitHub 新仓库
39
inclusionAI/asystem-amem

该项目是一个针对NCCL通信库的扩展库,核心功能是高效卸载NCCL所分配的GPU内存。它通过将NCCL占用的显存资源进行智能释放与转移,旨在缓解大规模分布式训练中的显存压力,从而提升整体系统效率与资源利用率。

开源/仓库部署/工程
11月25日
22:20
Hacker News:AI 热帖
Launch HN: Onyx (YC W24) - 开源聊天 UI

YC W24 项目 Onyx 在 Hacker News 发布开源聊天 UI,支持开发者自建可定制的对话界面,提供私有化部署方案。

开源/仓库
11月21日
08:00
Hugging Face:Blog(RSS)
精选80
RapidFire AI 实现20倍更快的 TRL 微调

RapidFire AI 发布了一套加速 TRL 微调的工具,通过自适应分块调度方案,允许在单个或多个 GPU 上并发启动多个训练配置并实时比较。内部基准测试显示,实验吞吐量比顺序执行高出约 16 至 24 倍。该工具提供即插即用的 TRL 配置包装器、分块并发训练、支持实时停止/恢复/克隆修改的交互式控制操作、自动多 GPU 编排以及 MLflow 仪表板,使用户能快速筛选最优配置,极大提升微调效率。

Hugging Face开源/仓库数据/训练部署/工程

推荐理由:开发者可并发测试多个微调配置,大幅提升实验效率。
11月20日
08:00
Hugging Face:Blog(RSS)
精选83
介绍 AnyLanguageModel:为苹果平台提供本地与云端大语言模型的统一 API

AnyLanguageModel 是一个 Swift 包,旨在为苹果平台上的大语言模型集成提供统一解决方案。它作为苹果原生 Foundation Models 框架的替代品,允许开发者通过相同的 API 接口,灵活调用本地模型(如通过 Core ML、MLX、llama.cpp 运行)与云端服务(如 OpenAI、Anthropic)。该方案复用苹果精心设计的 API 作为基础,大幅降低了在不同模型提供商之间切换的代码修改成本,并利用 Swift 的包特性功能避免依赖膨胀,从而简化开发流程,鼓励对本地开源模型的探索。

开源/仓库开源生态部署/工程

推荐理由:Apple开发者可一键切换本地与云端模型,大幅降低AI应用开发门槛。
11月19日
00:00
LMSYS:Blog(Chatbot Arena 团队)
RadixArk发布Miles:面向大规模MoE训练的企业级强化学习框架

RadixArk团队发布企业级强化学习框架Miles,专为大规模MoE训练设计。该框架基于曾支撑GLM-4.6训练的slime构建,首创True On-Policy技术,实现训练与推理零KL散度对齐。新版本引入在线草稿模型推测解码,rollout加速超25%,并针对GB300等新硬件优化内存管理,支持Flash Attention 3与DeepGEMM。框架采用模块化架构,四大核心组件完全解耦,兼顾研究灵活性与企业级稳定性。

开源/仓库数据/训练部署/工程
11月17日
10:43
蚂蚁 inclusionAI:GitHub 新仓库
39
inclusionAI/asystem-awex

inclusionAI 发布了 asystem-awex,这是一个专为强化学习工作流设计的高性能训练-推理权重同步框架。该框架的核心目标是实现从训练到推理的秒级参数更新,从而显著提升强化学习模型的迭代效率与部署实时性。它解决了传统流程中参数同步延迟高的问题,为需要快速在线学习和决策的应用场景提供了关键技术支撑。

开源/仓库数据/训练部署/工程
11月14日
00:00
LMSYS:Blog(Chatbot Arena 团队)
AutoRound 与 SGLang 正式集成,实现低比特量化模型高效推理

AutoRound 与 SGLang 宣布合作,支持 INT2-INT8 低比特量化模型的高效推理部署。基于符号梯度优化算法,AutoRound 在 INT2 精度下准确率较主流基线提升 2.1 倍,单 GPU 量化 72B 模型仅需 37 分钟。开发者可将 GPTQ、AWQ 或 GGUF 格式的量化模型直接部署至 SGLang v0.5.4.post2+,兼容 LLM、VLM 及 MoE 架构,在最小精度损失下显著降低推理延迟。

开源/仓库部署/工程
11月7日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang Diffusion:加速视频与图像生成

SGLang 推出 Diffusion 推理引擎,将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型,在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术,提供 OpenAI 兼容 API、CLI 及 Python 接口,并与 FastVideo 合作覆盖从训练到部署的全流程。

图像生成开源/仓库视频部署/工程
11月5日
17:54
蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/dFactory:轻松高效的 dLLM 微调

inclusionAI 发布了 dFactory 平台,旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度,显著降低了技术门槛与计算成本。用户无需深厚专业知识,即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%,并支持多节点协作训练,提升了模型迭代效率。

开源/仓库数据/训练部署/工程
10月29日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang-Jax:面向TPU的开源推理引擎

SGLang团队发布基于Jax和XLA的开源推理引擎SGLang-Jax,专为原生TPU推理优化。该引擎采用纯Jax架构,集成Ragged Paged Attention v3、EAGLE推测解码及MoE内核优化,支持连续批处理与前缀缓存。关键性能指标显示,重叠调度器将Qwen3-32B批处理间隔从12毫秒压缩至38微秒,EPMoE策略带来3-4倍延迟加速。基准测试表明,其性能匹配或超越现有TPU推理方案。

开源/仓库部署/工程
10月27日
08:00
Thinking Machines Lab:官方博客(RSS)
48
在线策略蒸馏

大语言模型后训练可分同策略(on-policy)和异策略(off-policy)。同策略强化学习让学生从自身采样学习,但奖励信号稀疏;异策略监督微调提供密集反馈,但分布偏移易导致复合误差。在线策略蒸馏融合两者:从学生模型采样完整轨迹,由高性能教师模型对每一步 token 评分,既保持同策略的上下文反馈,又提供密集细粒度梯度,从而更高效地训练更小、更强的专用模型。

开源/仓库数据/训练论文/研究
00:00
MiniMax:Blog(网页)
同事件精选62
MiniMax M2与AI智能体:简中见巧

MiniMax正式开源并发布了专为AI智能体(Agent)和代码场景设计的大语言模型MiniMax M2。该模型API定价极具竞争力,仅为Claude Sonnet价格的约8%,且推理速度更快。在关键的智能体能力方面,其工具调用和深度搜索表现接近顶尖模型,编程能力在国内处于领先地位。MiniMax M2旨在解决性能、价格与速度的“不可能三角”,为构建更普及的AI智能体应用提供基础,体现了其“智能平权”的愿景。

智能体开源/仓库模型发布编码
同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
推荐理由:MiniMax M2 把 Agent 模型的价格打到了 Claude 的 8%,速度还翻倍,开源权重直接可用,做 Agent 的开发者值得上手试试。
10月22日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang集成KTransformers:基于AMX优化与专家延迟的MoE混合推理加速

SGLang现已集成KTransformers后端,为DeepSeek-V3等稀疏MoE模型提供CPU/GPU混合推理加速。该技术采用Intel AMX优化内核,使单路Xeon算力达21.3 TFLOPS,较PyTorch原生实现快3.9倍;通过NUMA感知张量并行和CUDA Graph调度,双路服务器解码吞吐量提升63%,GPU内核启动开销从20%降至接近零;专家延迟机制支持跨层重排计算以重叠CPU与GPU执行,在精度变化低于0.5%的情况下使解码吞吐量再提高1.45倍。

DeepSeek开源/仓库推理部署/工程
10月14日
17:50
蚂蚁 inclusionAI:GitHub 新仓库
48
inclusionAI/linghe

inclusionAI 开源了专为大语言模型训练设计的高性能内核库 Linghe。该库旨在优化 LLM 训练过程中的计算效率,通过底层内核创新提升训练速度并降低资源消耗。Linghe 支持当前主流的 Transformer 架构模型,为开发者和研究者提供了更高效的训练工具,有望加速 LLM 的开发与迭代进程。

开源/仓库数据/训练部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang与NVIDIA携手加速SemiAnalysis InferenceMAX及GB200优化

SGLang与NVIDIA针对Blackwell架构(GB200 NVL72)深度优化,在DeepSeek R1模型上实现每GPU 26k输入与13k输出tokens/秒的高吞吐。通过Prefill-Decode分离架构、大规模专家并行及FP8/NVFP4内核优化,SGLang在SemiAnalysis InferenceMAX基准测试中较Hopper代际获得4倍性能提升,并被选为该基准在NVIDIA与AMD硬件上运行DeepSeek模型的默认推理引擎。

DeepSeek开源/仓库部署/工程
10月10日
10:20
蚂蚁 inclusionAI:GitHub 新仓库
精选66
Ming-VideoMAR:基于连续令牌的自回归视频生成模型

Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型,采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则,并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放,能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出,参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例(9.3%、0.5%和0.2%),同时在定量与定性评估中均实现超越。模型代码与检查点已开源,论文已被NeurIPS 2025接收。

开源/仓库数据/训练模型发布视频

推荐理由:蚂蚁把自回归视频生成的训练成本砍到 Cosmos 的 0.2% 还能赢,这个效率信号比分数本身更值得关注,做视频生成的团队该认真看看它的课程学习和渐进分辨率策略。
9月29日
16:07
蚂蚁 inclusionAI:GitHub 新仓库
精选58
inclusionAI/dInfer

inclusionAI团队发布了dInfer,一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术,显著提升了推理效率,能够更快地生成文本,同时降低计算成本,为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。

开源/仓库推理部署/工程

推荐理由:蚂蚁把扩散语言模型的推理框架开源了,这类模型的推理效率一直是落地瓶颈,做端侧或低成本部署的团队值得看看能不能接上。
11:19
蚂蚁 inclusionAI:GitHub 新仓库
38
inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集,用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务,包括语义编辑(自由形式删除、插入、替换)和声学编辑(时间拉伸、音高转换等)。音频样本源自seed-tts eval、LibriTTS等开源数据集,其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度,并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音
11:19
蚂蚁 inclusionAI:GitHub 新仓库
精选57
inclusionAI发布MingTok-Audio:首个统一连续语音分词器

inclusionAI团队推出了MingTok-Audio,这是首个能有效融合语义与声学特征的统一连续语音分词器,适用于语音理解与生成任务。该模型基于纯因果Transformer架构,去除了卷积层以提升效率,并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上,其帧率为50,在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04,SIM为0.96,STOI为0.98,显著优于对比模型。在下游ASR任务中,其在多个方言数据集上取得了更低的错误率,例如在Hunan Minnan数据集上WER低至9.80%。

开源/仓库模型发布语音

推荐理由:蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数,比第二名翻了快一倍,做语音理解和生成的团队值得拿这个当新 baseline 跑一下。
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 发布首日支持 DeepSeek-V3.2:集成稀疏注意力机制

SGLang 在发布首日即支持 DeepSeek-V3.2,该模型基于 DeepSeek-V3.1-Terminus 引入 DeepSeek Sparse Attention (DSA) 机制。DSA 通过 Lightning Indexer 和 Top-k Token Selection 将注意力复杂度从 O(L²) 降至 O(Lk),在 128K 长上下文下实现训练与推理效率大幅提升且质量损失可忽略。SGLang 实现了专用缓存与 Native Sparse Attention 后端,并提供了面向 NVIDIA、AMD MI350X/MI355X 及 NPU 的部署方案与容器镜像。

DeepSeek开源/仓库开源生态部署/工程
9月28日
00:00
LMSYS:Blog(Chatbot Arena 团队)
PD-Multiplexing:基于 GreenContext 解锁高有效吞吐 LLM 服务

SGLang 团队推出 PD-Multiplexing 服务范式,利用 NVIDIA GreenContext(CUDA 12.4+)的 GPU 细粒度分区能力,通过单卡内部空间共享多路复用 prefill 与 decode 阶段,消除传统 PD 分离的跨实例 KV 缓存迁移开销。该方案将 prefill 切分为小块以消除 GPU 气泡,结合离线训练的延迟预测器实现 SLO 感知调度,动态分配 SM 资源以适应负载变化,从而在满足 TTFT 与 ITL 延迟 SLO 的同时显著提升模型即服务(MaaS)的 goodput。

开源/仓库部署/工程
9月25日
00:00
LMSYS:Blog(Chatbot Arena 团队)
GB200 NVL72部署DeepSeek V3/R1(二):PD分离与大规模EP实现3.8倍Prefill、4.8倍Decode吞吐

SGLang团队基于GB200 NVL72优化DeepSeek V3/R1推理,采用FP8 Attention、NVFP4 MoE、大规模专家并行及PD分离等技术。2000 token输入下,单卡Prefill达26,156 tokens/s,Decode达13,386 tokens/s,较H100提升3.8倍和4.8倍。BF16/FP8配置下仍达18,471/9,087 tokens/s。FP8与NVFP4低精度内核分别带来1.8倍和1.9倍加速且精度损失可忽略。

DeepSeek开源/仓库推理部署/工程
9月22日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 实现确定性推理与可复现 RL 训练

SGLang 基于 Thinking Machines Lab 的 batch-invariant 算子实现全确定性推理,解决动态批处理导致的输出差异问题,兼容 chunked prefill、CUDA graphs 及非贪婪采样。该方案将性能开销从 61.5% 降至 34.35%,配合 CUDA graphs 可实现 2.8 倍加速。SGLang 与 slime 合作进一步实现 100% 可复现的 RL 训练,在 Qwen3-8B 验证中两次独立训练产生完全一致的曲线,为科学实验提供可靠保障。

开源/仓库数据/训练部署/工程
9月21日
00:00
LMSYS:Blog(Chatbot Arena 团队)
在 AMD GPU 上优化 FP4 混合精度推理

针对 AMD Instinct MI250/MI300 系列 GPU 缺乏原生 FP4 矩阵乘法支持的问题,研究团队推出 Petit 内核集合,通过 FP16/BF16 × FP4 混合精度计算实现在现有硬件上高效运行 FP4 量化模型。该方案使 Llama 3.3 70B 端到端推理性能提升 1.74 倍,矩阵乘法操作较 AMD 官方 hipBLASLt 库快 3.7 倍。Petit 采用离线重排、LDS 无冲突访问及芯片拓扑感知分区等优化技术,已以 BSD 协议开源并集成至 SGLang 0.4.10 版本。

开源/仓库数据/训练部署/工程
9月10日
15:01
Thinking Machines Lab:官方博客(RSS)
精选60
破解LLM推理中的非确定性

LLM推理的再现性是科学进步的基础,但即使在温度设为0的贪心采样下,ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于:部分GPU内核是非确定性的,但LLM前向传播使用的内核均为确定性;推理服务器前向传播本身是确定性的,用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解,并探讨如何实现真正可重现的LLM推理输出。

开源/仓库推理教程/实践部署/工程

推荐理由:Horace He 把 LLM 推理非确定性的锅从并发浮点转向 batch-size,并给出了可落地的 batch-invariant 内核实现,做推理部署和 RL 的工程师都该看看。
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang HiCache:支持多种存储后端的快速分层 KV 缓存

SGLang 发布 HiCache 分层 KV 缓存系统,通过 HiRadixTree 页表管理 GPU、CPU 及外部存储中的缓存数据,支持 Mooncake、3FS、NIXL 等多种后端。系统采用 GPU 辅助 I/O 内核和层间重叠机制加速数据传输,在 Qwen3-Coder-480B 编码场景中将 TTFT 降低 56%、吞吐量翻倍、缓存命中率提升至 80%;在 DeepSeek-R1-671B 部署中实现缓存命中时 TTFT 降低 84%,整体吞吐量最高提升 6 倍。

开源/仓库部署/工程
9月4日
14:54
蚂蚁 inclusionAI:GitHub 新仓库
51
InclusionAI 开源 MoE 大语言模型 Ling-V2

InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构,旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。

开源/仓库模型发布端侧
8月28日
03:56
Hao AI Lab@haoailab
49
游戏强化学习训练能否提升LLM通用任务能力?

研究探讨了基于强化学习的LLM游戏后训练能否泛化到其他任务。在相同任务族内(如6×6推箱子泛化至8×8版本),训练带来了高达56%的性能提升。但在跨领域任务中,效果有限或不稳定:Blocksworld有小幅提升,WebShop有约6%但不稳定,GSM8K则无改善。研究团队为此提出了GRL框架,这是一个以智能体为中心的多轮强化学习框架,旨在高度定制LLM与环境的交互,以系统研究泛化能力。

智能体开源/仓库论文/研究
8月27日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 支持 gpt-oss:从 Day 0 支持到性能增强

SGLang 针对 openai/gpt-oss-120b 发布重大性能优化,prefill 吞吐量提升 2.1 倍,decode 吞吐量提升 2.25 倍。新版本集成 FlashInfer 内核以释放 NVIDIA Blackwell 性能,通过 FlashAttention-3 加速 Hopper GPU,并原生支持 AMD MI350。在 B200 上 MXFP4 精度下单批次解码速度达 416.02 tok/s。同时引入 EAGLE3 投机解码支持,GPQA 基准测试验证精度与官方报告一致,确保高性能不损失推理能力。

智能体OpenAI开源/仓库部署/工程
8月15日
19:57
蚂蚁 inclusionAI:GitHub 新仓库
精选58
inclusionAI/UI-Venus

UI-Venus 是一款本地 UI 智能体,仅以屏幕截图作为输入,即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口,直接通过视觉信息理解界面结构,实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互,提升了跨平台任务执行的通用性与可靠性。

智能体GitHub多模态开源/仓库

推荐理由:蚂蚁这个纯截图驱动的 UI Agent 在当时算是早期探索,代码开源可直接用,做 GUI 自动化的值得看看底层怎么实现元素定位和导航。
8月7日
05:04
Hao AI Lab@haoailab
精选81
【Lmgame Bench】 🔥 OpenAI 刚刚发布了两款开放权重的推理模型:gpt-oss-120B(约1170亿参数)和 gpt-oss-20B(约210亿参数),它们是自 GPT-2 以来首批开放权重的 OpenAI 模型。 我们在 Lmgame Bench 中对两者进行了测试,涵盖4款互动游戏: 🧱 推箱子 | 🟦 俄罗斯方块 | 🔢 2048 | 🍬 糖果传奇 以下是它们的排名(满分25分): → gpt-oss-120b → 第12名 → gpt-oss-20b → 第13名
OpenAI开源/仓库推理模型发布

推荐理由:OpenAI 终于开源了,这是 GPT-2 之后第一次放开权重,120B 和 20B 两个尺寸直接对标 Llama 和 Qwen 的开源生态。虽然游戏 benchmark 排名不算惊艳,但信号本身比分数重要得多,所有基于开源模型做产品的团队都得重新评估选型。
7月30日
22:44
Hacker News:AI 热帖
Show HN: Sourcebot - 可自托管的代码库版 Perplexity

Sourcebot v4.6.0 新增 Ask Sourcebot 功能,支持用自然语言查询代码库并获取带内联引用的 Markdown 回答。用户需自备 LLM API key,实现类似 Perplexity 的自托管代码搜索体验。

GitHub检索增强开源/仓库编码
7月25日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang开源SpecForge:加速Eagle3投机解码训练

SGLang团队开源SpecForge训练框架,专为Eagle3投机解码设计,原生集成SGLang推理引擎实现训推无缝衔接。框架内置Training-Time Test支持,提供Online与Offline双模式,分别适配低存储多GPU与高存储低GPU场景。基于ShareGPT和UltraChat 32万样本的实验显示,Llama 4 Maverick与Scout draft模型在MT-Bench上分别实现2.18倍与2.0倍推理加速。

开源/仓库开源生态部署/工程
7月19日
01:49
Yann LeCun@ylecun
ZML 发布 LLMD 技术预览版,提供硬件无关的 LLM 推理方案。单容器同时支持 NVIDIA 与 AMD GPU,镜像仅 2.4GB,支持挂载即运行的高性能部署。

Steeve Morin: The tech preview of LLMD is out: - Easy Setup - Just mount your model and run - Cross-Platform GPU Support - Single cont...

开源/仓库部署/工程
7月17日
00:00
LMSYS:Blog(Chatbot Arena 团队)
使用多 Token 预测(MTP)加速 SGLang:吞吐量提升 60% 的推理优化方案

SGLang 推理框架现已支持多 Token 预测(MTP)技术,并与大规模专家并行(EP)、预填充-解码分离(PD Disaggregation)等特性无缝集成。该技术通过轻量级草稿模型预测多个未来 Token,再由完整目标模型并行验证,在保持生成质量不变的前提下,可将 DeepSeek V3 等模型的输出吞吐量提升高达 60%。在 16 张 H200 GPU 的小规模部署场景中,该方案显著优化了长序列推理效率,为生产环境提供即插即用的性能增益。

开源/仓库推理部署/工程
7月9日
00:00
LMSYS:Blog(Chatbot Arena 团队)
slime:面向 RL 扩展的 SGLang 原生后训练框架

slime 团队发布面向大规模 RL 训练的后训练框架 slime,原生集成 SGLang 推理引擎与 Megatron-LM 训练引擎。框架通过 sgl-router 提供可定制 rollout 接口与灵活训练配置,支持同地/解耦部署、同步/异步训练及 SFT 冷启动。用户可通过 OpenAI 兼容 API 与智能体环境交互,无需修改环境代码。框架完整支持 SGLang 优化参数(如 EP MoE、DP Attention)及 Megatron 并行策略(TP/PP/EP/CP),提供独立调试模式与检查点转换工具,基础镜像基于 lmsysorg/sglang:dev。

开源/仓库数据/训练部署/工程
7月8日
00:00
LMSYS:Blog(Chatbot Arena 团队)
OME:以模型驱动架构革新 LLM 基础设施

Oracle Cloud Infrastructure 推出 OME(Open Model Engine),一款 Kubernetes-native 的模型服务框架。该系统采用模型驱动架构,通过 BaseModel、ServingRuntime 等自定义资源将模型视为一等公民,有效弥合 ML 工程师与生产团队之间的鸿沟。OME 将模型上线周期从数月压缩至数天,显著减少配置错误,并原生支持多节点推理、Prefill-decode 分离、Serverless 自动扩缩容及 Multi-LoRA 等企业级特性,集成 SGLang 运行时,实现复杂部署策略的编码复用与一键部署。

开源/仓库开源生态部署/工程
6月28日
04:00
Saining Xie@sainingxie
metaquery 现已开源--数据和代码均已开放。

Xichen Pan: The code and instruction-tuning data for MetaQuery are now open-sourced! Code: https://github.com/facebookresearch/metaq...

Meta图像生成开源/仓库数据/训练
‹ 上一页
1…22232425
下一页 ›