全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态一手 · 187 条

全部一手资讯 X 论文

标签「开源/仓库」清除

12月16日周二

18:14Google DeepMind：Blog（RSS）Gemma Scope 2：助力 AI 安全社区深入理解复杂语言模型行为

16:55蚂蚁 inclusionAI：GitHub 新仓库49inclusionAI/AEnvironment

00:01Hugging Face：Blog（RSS）83精选CUGA 登陆 Hugging Face：普及可配置的通用 AI 智能体

12月11日周四

23:47Hugging Face：Blog（RSS）76精选llama.cpp 服务器新增多模型管理功能

23:36蚂蚁 inclusionAI：GitHub 新仓库49inclusionAI/LLaDA2.X

08:00Hugging Face：Blog（RSS）28Codex 开源其 AI 模型

12月10日周三

00:00LMSYS：Blog（Chatbot Arena 团队）让张量飞起来 -- 用 R-Fork 加速大模型权重加载

12月9日周二

00:00Mistral AI：News（网页）60Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI

12月5日周五

08:00Hugging Face：Blog（RSS）76精选介绍 swift-huggingface：完整的 Hugging Face Swift 客户端

12月4日周四

08:00Hugging Face：Blog（RSS）66DeepMath：一个基于 smolagents 的轻量级数学推理智能体

12月3日周三

21:45蚂蚁 inclusionAI：GitHub 新仓库63精选蚂蚁集团开源AState：面向强化学习的高性能状态管理系统

12月2日周二

00:00LMSYS：Blog（Chatbot Arena 团队）加速 SGLang 推理：原生集成 NVIDIA Model Optimizer 实现无缝量化与部署（12月2日更新）

12月1日周一

08:00Hugging Face：Blog（RSS）93精选Transformers v5：以简化模型定义驱动AI生态

11月26日周三

17:00蚂蚁 inclusionAI：GitHub 新仓库39inclusionAI/asystem-amem

11月21日周五

08:00Hugging Face：Blog（RSS）80精选RapidFire AI 实现20倍更快的 TRL 微调

11月20日周四

08:00Hugging Face：Blog（RSS）83精选介绍 AnyLanguageModel：为苹果平台提供本地与云端大语言模型的统一 API

11月19日周三

00:00LMSYS：Blog（Chatbot Arena 团队）RadixArk发布Miles：面向大规模MoE训练的企业级强化学习框架

11月17日周一

10:43蚂蚁 inclusionAI：GitHub 新仓库39inclusionAI/asystem-awex

11月14日周五

00:00LMSYS：Blog（Chatbot Arena 团队）AutoRound 与 SGLang 正式集成，实现低比特量化模型高效推理

11月7日周五

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang Diffusion：加速视频与图像生成

11月5日周三

17:54蚂蚁 inclusionAI：GitHub 新仓库49inclusionAI/dFactory：轻松高效的 dLLM 微调

10月29日周三

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang-Jax：面向TPU的开源推理引擎

10月27日周一

08:00Thinking Machines Lab：官方博客（RSS）48在线策略蒸馏

00:00MiniMax：Blog（网页）62同事件精选MiniMax M2与AI智能体：简中见巧同一事件，精选展示《MiniMax M2.7：自我进化的早期回声》

10月22日周三

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang集成KTransformers：基于AMX优化与专家延迟的MoE混合推理加速

10月14日周二

17:50蚂蚁 inclusionAI：GitHub 新仓库48inclusionAI/linghe

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang与NVIDIA携手加速SemiAnalysis InferenceMAX及GB200优化

10月10日周五

10:20蚂蚁 inclusionAI：GitHub 新仓库66精选Ming-VideoMAR：基于连续令牌的自回归视频生成模型

9月29日周一

16:07蚂蚁 inclusionAI：GitHub 新仓库58精选inclusionAI/dInfer

11:19蚂蚁 inclusionAI：GitHub 新仓库38inclusionAI/Ming-Freeform-Audio-Edit

11:19蚂蚁 inclusionAI：GitHub 新仓库57精选inclusionAI发布MingTok-Audio：首个统一连续语音分词器

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang 发布首日支持 DeepSeek-V3.2：集成稀疏注意力机制

9月28日周日

00:00LMSYS：Blog（Chatbot Arena 团队）PD-Multiplexing：基于 GreenContext 解锁高有效吞吐 LLM 服务

9月25日周四

00:00LMSYS：Blog（Chatbot Arena 团队）GB200 NVL72部署DeepSeek V3/R1（二）：PD分离与大规模EP实现3.8倍Prefill、4.8倍Decode吞吐

9月22日周一

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang 实现确定性推理与可复现 RL 训练

9月21日周日

00:00LMSYS：Blog（Chatbot Arena 团队）在 AMD GPU 上优化 FP4 混合精度推理

9月10日周三

15:01Thinking Machines Lab：官方博客（RSS）60精选破解LLM推理中的非确定性

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang HiCache：支持多种存储后端的快速分层 KV 缓存

9月4日周四

14:54蚂蚁 inclusionAI：GitHub 新仓库51InclusionAI 开源 MoE 大语言模型 Ling-V2

8月27日周三

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang 支持 gpt-oss：从 Day 0 支持到性能增强

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

12月16日

18:14

Google DeepMind：Blog（RSS）

Gemma Scope 2：助力 AI 安全社区深入理解复杂语言模型行为

Gemma Scope 2 正式发布，面向整个 Gemma 3 模型家族推出开放可解释性工具，助力 AI 安全社区深入理解复杂语言模型行为。

DeepMind Google 安全/对齐开源/仓库

16:55

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/AEnvironment

inclusionAI 发布了 AEnvironment，这是一个用于智能体 AI 开发的标准化环境基础设施。该平台旨在为 AI 智能体的构建、测试和部署提供统一、可复现的环境，解决开发过程中因环境差异导致的兼容性与一致性问题。它通过预配置的标准化设置，简化了开发流程，提升了协作效率与系统可靠性。

智能体开源/仓库部署/工程

00:01

Hugging Face：Blog（RSS）

精选83

CUGA 登陆 Hugging Face：普及可配置的通用 AI 智能体

开源可配置通用智能体 CUGA 现已集成至 Hugging Face Spaces，便于开发者便捷实验。该智能体在复杂任务基准测试中表现卓越，在包含 457 个 API、750 个真实任务的 AppWorld 基准排名第一，在 WebArena 基准也位居前列。其核心提供可配置的推理模式以平衡性能与成本，支持计算机使用与多工具无缝集成，并能与 Langflow 结合进行低代码工作流设计。采用 Apache 2.0 许可的 CUGA 支持多种开源模型，在高性能推理平台（如 Groq）上运行能显著提升效率。

智能体 Hugging Face MCP/工具开源/仓库

推荐理由：开源AI代理框架性能领先，集成Hugging Face和Langflow，开发者可快速构建复杂任务。

12月11日

23:47

Hugging Face：Blog（RSS）

精选76

llama.cpp 服务器新增多模型管理功能

llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构，每个模型独立运行，确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载，并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型，并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置，也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。

开源/仓库端侧部署/工程

推荐理由：本地跑模型终于能像 Ollama 一样热切换，开发调试效率大幅提升

23:36

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/LLaDA2.X

蚂蚁集团InclusionAI团队推出扩散语言模型系列LLaDA2.0。该系列模型基于扩散架构开发，专注于语言生成任务，是团队在大型语言模型领域的最新成果。

开源/仓库数据/训练模型发布

08:00

Hugging Face：Blog（RSS）

28

Codex 开源其 AI 模型

Codex 宣布将开源其人工智能模型。这一举措旨在通过开源和开放科学的方式，推动人工智能技术的进步与民主化。公司表示，开源模型将允许更广泛的研究人员和开发者访问、使用并在此基础上进行创新，从而加速AI领域的发展。此举也呼应了当前AI社区对增加透明度与协作的呼声。

12月10日

00:00

LMSYS：Blog（Chatbot Arena 团队）

让张量飞起来 -- 用 R-Fork 加速大模型权重加载

蚂蚁集团 DeepXPU 团队与 SGLang 团队联合发布 Tensor R-Fork（Tensor Remote Fork）技术，通过 GPU-Direct RDMA 实现节点间设备到设备的零拷贝权重传输。该技术可将 Deepseek-R1 模型的加载时间从数分钟缩短至数秒，减少约 600GB 的本地磁盘与 DRAM 存储占用，并提供 NCCL 和 TransferEngine 两种后端方案，后者可在不干扰线上推理服务的情况下完成权重迁移。

DeepSeek 开源/仓库开源生态部署/工程

12月9日

00:00

Mistral AI：News（网页）

60

Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI

Mistral AI 发布新一代代码模型家族 Devstral 2，包含 Devstral 2 (123B) 和 Devstral Small 2 (24B) 两个开源版本。Devstral 2 采用修改的 MIT 许可证，在 SWE-bench Verified 上达到 72.2%，成本效益比 Claude Sonnet 高达 7 倍。Devstral Small 2 (24B) 采用 Apache 2.0 许可证，可部署在消费级硬件上。两者均支持 256K 上下文窗口。同步发布由 Devstral 驱动的开源命令行工具 Mistral Vibe CLI，用于在终端实现代码的自动化探索与修改。

开源/仓库模型发布编码

12月5日

08:00

Hugging Face：Blog（RSS）

精选76

介绍 swift-huggingface：完整的 Hugging Face Swift 客户端

swift-huggingface 是一个全新的 Swift 客户端，旨在彻底解决旧库下载模型缓慢、不可靠且不支持断点续传的问题。它提供完整的 Hub API 覆盖，核心改进包括具备进度跟踪和断点续传的可靠下载、与 Python 生态共享缓存以避免重复下载，以及通过灵活的 TokenProvider 模式简化身份验证。该库现已独立发布，并将很快集成到 swift-transformers 中取代原有实现，未来还将支持 Xet 存储后端以实现更快的下载。

Hugging Face 开源/仓库部署/工程

推荐理由：Swift 开发者可无缝集成 Hugging Face 模型，下载更可靠且与 Python 共享缓存。

12月4日

08:00

Hugging Face：Blog（RSS）

66

DeepMath：一个基于 smolagents 的轻量级数学推理智能体

研究团队发布了 DeepMath，一个轻量级的数学推理智能体。该智能体基于 smolagents 框架构建，旨在提升模型解决复杂数学问题的能力。DeepMath 的设计强调轻量化，力求在保持高效推理性能的同时降低计算资源消耗。其发布是团队通过开源与开放科学推动人工智能技术发展与普及的举措之一。

智能体 Hugging Face 开源/仓库推理

12月3日

21:45

蚂蚁 inclusionAI：GitHub 新仓库

精选63

蚂蚁集团开源AState：面向强化学习的高性能状态管理系统

蚂蚁集团开源了AState，这是一个专为强化学习设计的高性能通用状态数据管理系统。它旨在解决RL训练与推理中的I/O效率低下、权重同步性能不足及状态恢复不鲁棒等核心挑战。系统采用三层架构：提供张量原生接口的API层、支持多种部署模式的服务层以及具备高效可扩展传输能力的基础层。其关键特性包括统一的张量级API、高性能权重同步和拓扑感知设计。在万亿参数规模下，AState能在约6秒内完成权重同步，远低于业界常见的分钟级延迟，目前已作为ASystem的关键组件在蚂蚁内部生产环境部署。

智能体开源/仓库部署/工程

推荐理由：蚂蚁把万亿参数 RL 训练的权重同步从分钟级压到 6 秒，这套 AState 系统是真刀真枪的工程解法，做大规模 RL infra 的团队值得拆一拆它的 RDMA P2P 架构。

12月2日

00:00

LMSYS：Blog（Chatbot Arena 团队）

加速 SGLang 推理：原生集成 NVIDIA Model Optimizer 实现无缝量化与部署（12月2日更新）

SGLang 最新版本原生集成 NVIDIA Model Optimizer，支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步，支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比，优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升，显著降低延迟与内存占用。

开源/仓库编码部署/工程

12月1日

08:00

Hugging Face：Blog（RSS）

精选93

Transformers v5：以简化模型定义驱动AI生态

Transformers v5正式发布，其每日pip安装量从v4的2万次大幅提升至300万次以上，总安装量突破12亿次。模型架构数量从40个扩展至超400个，Hub上兼容的模型检查点从约1,000个增至75万个。新版本聚焦于简化模型定义、训练、推理与生产部署，通过引入AttentionInterface等模块化设计，显著降低了代码贡献与维护成本。此外，库将明确以PyTorch为唯一后端，逐步淘汰Flax/TensorFlow支持，并简化分词处理，以推动标准化与生态兼容性。

Hugging Face 开源/仓库部署/工程

推荐理由：Transformers v5 大幅简化模型集成，提升训练推理效率，开发者可快速上手最新 AI 模型。

11月26日

17:00

蚂蚁 inclusionAI：GitHub 新仓库

39

inclusionAI/asystem-amem

该项目是一个针对NCCL通信库的扩展库，核心功能是高效卸载NCCL所分配的GPU内存。它通过将NCCL占用的显存资源进行智能释放与转移，旨在缓解大规模分布式训练中的显存压力，从而提升整体系统效率与资源利用率。

开源/仓库部署/工程

11月21日

08:00

Hugging Face：Blog（RSS）

精选80

RapidFire AI 实现20倍更快的 TRL 微调

RapidFire AI 发布了一套加速 TRL 微调的工具，通过自适应分块调度方案，允许在单个或多个 GPU 上并发启动多个训练配置并实时比较。内部基准测试显示，实验吞吐量比顺序执行高出约 16 至 24 倍。该工具提供即插即用的 TRL 配置包装器、分块并发训练、支持实时停止/恢复/克隆修改的交互式控制操作、自动多 GPU 编排以及 MLflow 仪表板，使用户能快速筛选最优配置，极大提升微调效率。

Hugging Face 开源/仓库数据/训练部署/工程

推荐理由：开发者可并发测试多个微调配置，大幅提升实验效率。

11月20日

08:00

Hugging Face：Blog（RSS）

精选83

介绍 AnyLanguageModel：为苹果平台提供本地与云端大语言模型的统一 API

AnyLanguageModel 是一个 Swift 包，旨在为苹果平台上的大语言模型集成提供统一解决方案。它作为苹果原生 Foundation Models 框架的替代品，允许开发者通过相同的 API 接口，灵活调用本地模型（如通过 Core ML、MLX、llama.cpp 运行）与云端服务（如 OpenAI、Anthropic）。该方案复用苹果精心设计的 API 作为基础，大幅降低了在不同模型提供商之间切换的代码修改成本，并利用 Swift 的包特性功能避免依赖膨胀，从而简化开发流程，鼓励对本地开源模型的探索。

开源/仓库开源生态部署/工程

推荐理由：Apple开发者可一键切换本地与云端模型，大幅降低AI应用开发门槛。

11月19日

00:00

LMSYS：Blog（Chatbot Arena 团队）

RadixArk发布Miles：面向大规模MoE训练的企业级强化学习框架

RadixArk团队发布企业级强化学习框架Miles，专为大规模MoE训练设计。该框架基于曾支撑GLM-4.6训练的slime构建，首创True On-Policy技术，实现训练与推理零KL散度对齐。新版本引入在线草稿模型推测解码，rollout加速超25%，并针对GB300等新硬件优化内存管理，支持Flash Attention 3与DeepGEMM。框架采用模块化架构，四大核心组件完全解耦，兼顾研究灵活性与企业级稳定性。

开源/仓库数据/训练部署/工程

11月17日

10:43

蚂蚁 inclusionAI：GitHub 新仓库

39

inclusionAI/asystem-awex

inclusionAI 发布了 asystem-awex，这是一个专为强化学习工作流设计的高性能训练-推理权重同步框架。该框架的核心目标是实现从训练到推理的秒级参数更新，从而显著提升强化学习模型的迭代效率与部署实时性。它解决了传统流程中参数同步延迟高的问题，为需要快速在线学习和决策的应用场景提供了关键技术支撑。

开源/仓库数据/训练部署/工程

11月14日

00:00

LMSYS：Blog（Chatbot Arena 团队）

AutoRound 与 SGLang 正式集成，实现低比特量化模型高效推理

AutoRound 与 SGLang 宣布合作，支持 INT2-INT8 低比特量化模型的高效推理部署。基于符号梯度优化算法，AutoRound 在 INT2 精度下准确率较主流基线提升 2.1 倍，单 GPU 量化 72B 模型仅需 37 分钟。开发者可将 GPTQ、AWQ 或 GGUF 格式的量化模型直接部署至 SGLang v0.5.4.post2+，兼容 LLM、VLM 及 MoE 架构，在最小精度损失下显著降低推理延迟。

开源/仓库部署/工程

11月7日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang Diffusion：加速视频与图像生成

SGLang 推出 Diffusion 推理引擎，将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型，在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术，提供 OpenAI 兼容 API、CLI 及 Python 接口，并与 FastVideo 合作覆盖从训练到部署的全流程。

图像生成开源/仓库视频部署/工程

11月5日

17:54

蚂蚁 inclusionAI：GitHub 新仓库

49

inclusionAI/dFactory：轻松高效的 dLLM 微调

inclusionAI 发布了 dFactory 平台，旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度，显著降低了技术门槛与计算成本。用户无需深厚专业知识，即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%，并支持多节点协作训练，提升了模型迭代效率。

开源/仓库数据/训练部署/工程

10月29日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang-Jax：面向TPU的开源推理引擎

SGLang团队发布基于Jax和XLA的开源推理引擎SGLang-Jax，专为原生TPU推理优化。该引擎采用纯Jax架构，集成Ragged Paged Attention v3、EAGLE推测解码及MoE内核优化，支持连续批处理与前缀缓存。关键性能指标显示，重叠调度器将Qwen3-32B批处理间隔从12毫秒压缩至38微秒，EPMoE策略带来3-4倍延迟加速。基准测试表明，其性能匹配或超越现有TPU推理方案。

开源/仓库部署/工程

10月27日

08:00

Thinking Machines Lab：官方博客（RSS）

48

在线策略蒸馏

大语言模型后训练可分同策略（on-policy）和异策略（off-policy）。同策略强化学习让学生从自身采样学习，但奖励信号稀疏；异策略监督微调提供密集反馈，但分布偏移易导致复合误差。在线策略蒸馏融合两者：从学生模型采样完整轨迹，由高性能教师模型对每一步 token 评分，既保持同策略的上下文反馈，又提供密集细粒度梯度，从而更高效地训练更小、更强的专用模型。

开源/仓库数据/训练论文/研究

00:00

MiniMax：Blog（网页）

同事件精选62

MiniMax M2与AI智能体：简中见巧

MiniMax正式开源并发布了专为AI智能体（Agent）和代码场景设计的大语言模型MiniMax M2。该模型API定价极具竞争力，仅为Claude Sonnet价格的约8%，且推理速度更快。在关键的智能体能力方面，其工具调用和深度搜索表现接近顶尖模型，编程能力在国内处于领先地位。MiniMax M2旨在解决性能、价格与速度的“不可能三角”，为构建更普及的AI智能体应用提供基础，体现了其“智能平权”的愿景。

智能体开源/仓库模型发布编码

同一事件，精选展示《MiniMax M2.7：自我进化的早期回声》

推荐理由：MiniMax M2 把 Agent 模型的价格打到了 Claude 的 8%，速度还翻倍，开源权重直接可用，做 Agent 的开发者值得上手试试。

10月22日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang集成KTransformers：基于AMX优化与专家延迟的MoE混合推理加速

SGLang现已集成KTransformers后端，为DeepSeek-V3等稀疏MoE模型提供CPU/GPU混合推理加速。该技术采用Intel AMX优化内核，使单路Xeon算力达21.3 TFLOPS，较PyTorch原生实现快3.9倍；通过NUMA感知张量并行和CUDA Graph调度，双路服务器解码吞吐量提升63%，GPU内核启动开销从20%降至接近零；专家延迟机制支持跨层重排计算以重叠CPU与GPU执行，在精度变化低于0.5%的情况下使解码吞吐量再提高1.45倍。

DeepSeek 开源/仓库推理部署/工程

10月14日

17:50

蚂蚁 inclusionAI：GitHub 新仓库

48

inclusionAI/linghe

inclusionAI 开源了专为大语言模型训练设计的高性能内核库 Linghe。该库旨在优化 LLM 训练过程中的计算效率，通过底层内核创新提升训练速度并降低资源消耗。Linghe 支持当前主流的 Transformer 架构模型，为开发者和研究者提供了更高效的训练工具，有望加速 LLM 的开发与迭代进程。

开源/仓库数据/训练部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang与NVIDIA携手加速SemiAnalysis InferenceMAX及GB200优化

SGLang与NVIDIA针对Blackwell架构（GB200 NVL72）深度优化，在DeepSeek R1模型上实现每GPU 26k输入与13k输出tokens/秒的高吞吐。通过Prefill-Decode分离架构、大规模专家并行及FP8/NVFP4内核优化，SGLang在SemiAnalysis InferenceMAX基准测试中较Hopper代际获得4倍性能提升，并被选为该基准在NVIDIA与AMD硬件上运行DeepSeek模型的默认推理引擎。

DeepSeek 开源/仓库部署/工程

10月10日

10:20

蚂蚁 inclusionAI：GitHub 新仓库

精选66

Ming-VideoMAR：基于连续令牌的自回归视频生成模型

Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型，采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则，并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放，能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出，参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例（9.3%、0.5%和0.2%），同时在定量与定性评估中均实现超越。模型代码与检查点已开源，论文已被NeurIPS 2025接收。

开源/仓库数据/训练模型发布视频

推荐理由：蚂蚁把自回归视频生成的训练成本砍到 Cosmos 的 0.2% 还能赢，这个效率信号比分数本身更值得关注，做视频生成的团队该认真看看它的课程学习和渐进分辨率策略。

9月29日

16:07

蚂蚁 inclusionAI：GitHub 新仓库

精选58

inclusionAI/dInfer

inclusionAI团队发布了dInfer，一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术，显著提升了推理效率，能够更快地生成文本，同时降低计算成本，为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。

开源/仓库推理部署/工程

推荐理由：蚂蚁把扩散语言模型的推理框架开源了，这类模型的推理效率一直是落地瓶颈，做端侧或低成本部署的团队值得看看能不能接上。

11:19

蚂蚁 inclusionAI：GitHub 新仓库

38

inclusionAI/Ming-Freeform-Audio-Edit

该仓库发布了Ming-Freeform-Audio-Edit基准测试集，用于评估Ming-UniAudio模型的下游音频编辑任务。测试集涵盖7类任务，包括语义编辑（自由形式删除、插入、替换）和声学编辑（时间拉伸、音高转换等）。音频样本源自seed-tts eval、LibriTTS等开源数据集，其中语义编辑任务包含基于索引和基于内容的中英文样本。评估指标涵盖编辑区域与非编辑区域的词错误率、编辑操作准确率和说话人相似度，并提供了完整的评估脚本与参数说明。

开源/仓库论文/研究语音

11:19

蚂蚁 inclusionAI：GitHub 新仓库

精选57

inclusionAI发布MingTok-Audio：首个统一连续语音分词器

inclusionAI团队推出了MingTok-Audio，这是首个能有效融合语义与声学特征的统一连续语音分词器，适用于语音理解与生成任务。该模型基于纯因果Transformer架构，去除了卷积层以提升效率，并采用VAE进行连续特征建模以实现高质量音频重建。在语音重建性能上，其帧率为50，在SEED-ZH和SEED-EN测试集上的PESQ分别达到4.21和4.04，SIM为0.96，STOI为0.98，显著优于对比模型。在下游ASR任务中，其在多个方言数据集上取得了更低的错误率，例如在Hunan Minnan数据集上WER低至9.80%。

开源/仓库模型发布语音

推荐理由：蚂蚁把语音 tokenizer 做到了 PESQ 4.2 的离谱分数，比第二名翻了快一倍，做语音理解和生成的团队值得拿这个当新 baseline 跑一下。

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 发布首日支持 DeepSeek-V3.2：集成稀疏注意力机制

SGLang 在发布首日即支持 DeepSeek-V3.2，该模型基于 DeepSeek-V3.1-Terminus 引入 DeepSeek Sparse Attention (DSA) 机制。DSA 通过 Lightning Indexer 和 Top-k Token Selection 将注意力复杂度从 O(L²) 降至 O(Lk)，在 128K 长上下文下实现训练与推理效率大幅提升且质量损失可忽略。SGLang 实现了专用缓存与 Native Sparse Attention 后端，并提供了面向 NVIDIA、AMD MI350X/MI355X 及 NPU 的部署方案与容器镜像。

DeepSeek 开源/仓库开源生态部署/工程

9月28日

00:00

LMSYS：Blog（Chatbot Arena 团队）

PD-Multiplexing：基于 GreenContext 解锁高有效吞吐 LLM 服务

SGLang 团队推出 PD-Multiplexing 服务范式，利用 NVIDIA GreenContext（CUDA 12.4+）的 GPU 细粒度分区能力，通过单卡内部空间共享多路复用 prefill 与 decode 阶段，消除传统 PD 分离的跨实例 KV 缓存迁移开销。该方案将 prefill 切分为小块以消除 GPU 气泡，结合离线训练的延迟预测器实现 SLO 感知调度，动态分配 SM 资源以适应负载变化，从而在满足 TTFT 与 ITL 延迟 SLO 的同时显著提升模型即服务（MaaS）的 goodput。

开源/仓库部署/工程

9月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

GB200 NVL72部署DeepSeek V3/R1（二）：PD分离与大规模EP实现3.8倍Prefill、4.8倍Decode吞吐

SGLang团队基于GB200 NVL72优化DeepSeek V3/R1推理，采用FP8 Attention、NVFP4 MoE、大规模专家并行及PD分离等技术。2000 token输入下，单卡Prefill达26,156 tokens/s，Decode达13,386 tokens/s，较H100提升3.8倍和4.8倍。BF16/FP8配置下仍达18,471/9,087 tokens/s。FP8与NVFP4低精度内核分别带来1.8倍和1.9倍加速且精度损失可忽略。

DeepSeek 开源/仓库推理部署/工程

9月22日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 实现确定性推理与可复现 RL 训练

SGLang 基于 Thinking Machines Lab 的 batch-invariant 算子实现全确定性推理，解决动态批处理导致的输出差异问题，兼容 chunked prefill、CUDA graphs 及非贪婪采样。该方案将性能开销从 61.5% 降至 34.35%，配合 CUDA graphs 可实现 2.8 倍加速。SGLang 与 slime 合作进一步实现 100% 可复现的 RL 训练，在 Qwen3-8B 验证中两次独立训练产生完全一致的曲线，为科学实验提供可靠保障。

开源/仓库数据/训练部署/工程

9月21日

00:00

LMSYS：Blog（Chatbot Arena 团队）

在 AMD GPU 上优化 FP4 混合精度推理

针对 AMD Instinct MI250/MI300 系列 GPU 缺乏原生 FP4 矩阵乘法支持的问题，研究团队推出 Petit 内核集合，通过 FP16/BF16 × FP4 混合精度计算实现在现有硬件上高效运行 FP4 量化模型。该方案使 Llama 3.3 70B 端到端推理性能提升 1.74 倍，矩阵乘法操作较 AMD 官方 hipBLASLt 库快 3.7 倍。Petit 采用离线重排、LDS 无冲突访问及芯片拓扑感知分区等优化技术，已以 BSD 协议开源并集成至 SGLang 0.4.10 版本。

开源/仓库数据/训练部署/工程

9月10日

15:01

Thinking Machines Lab：官方博客（RSS）

精选60

破解LLM推理中的非确定性

LLM推理的再现性是科学进步的基础，但即使在温度设为0的贪心采样下，ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于：部分GPU内核是非确定性的，但LLM前向传播使用的内核均为确定性；推理服务器前向传播本身是确定性的，用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解，并探讨如何实现真正可重现的LLM推理输出。

开源/仓库推理教程/实践部署/工程

推荐理由：Horace He 把 LLM 推理非确定性的锅从并发浮点转向 batch-size，并给出了可落地的 batch-invariant 内核实现，做推理部署和 RL 的工程师都该看看。

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang HiCache：支持多种存储后端的快速分层 KV 缓存

SGLang 发布 HiCache 分层 KV 缓存系统，通过 HiRadixTree 页表管理 GPU、CPU 及外部存储中的缓存数据，支持 Mooncake、3FS、NIXL 等多种后端。系统采用 GPU 辅助 I/O 内核和层间重叠机制加速数据传输，在 Qwen3-Coder-480B 编码场景中将 TTFT 降低 56%、吞吐量翻倍、缓存命中率提升至 80%；在 DeepSeek-R1-671B 部署中实现缓存命中时 TTFT 降低 84%，整体吞吐量最高提升 6 倍。

开源/仓库部署/工程

9月4日

14:54

蚂蚁 inclusionAI：GitHub 新仓库

51

InclusionAI 开源 MoE 大语言模型 Ling-V2

InclusionAI 发布并开源了其混合专家大语言模型 Ling-V2。该模型采用 MoE 架构，旨在通过更高效的参数利用来提升模型性能。此次开源意味着研究者和开发者可以自由访问、使用并基于此模型进行进一步的创新与开发。

开源/仓库模型发布端侧

8月27日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 支持 gpt-oss：从 Day 0 支持到性能增强

SGLang 针对 openai/gpt-oss-120b 发布重大性能优化，prefill 吞吐量提升 2.1 倍，decode 吞吐量提升 2.25 倍。新版本集成 FlashInfer 内核以释放 NVIDIA Blackwell 性能，通过 FlashAttention-3 加速 Hopper GPU，并原生支持 AMD MI350。在 B200 上 MXFP4 精度下单批次解码速度达 416.02 tok/s。同时引入 EAGLE3 投机解码支持，GPQA 基准测试验证精度与官方报告一致，确保高性能不损失推理能力。

智能体 OpenAI 开源/仓库部署/工程