全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态一手 · 187 条

全部一手资讯 X 论文

标签「开源/仓库」清除

8月15日周五

19:57蚂蚁 inclusionAI：GitHub 新仓库58精选inclusionAI/UI-Venus

7月25日周五

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang开源SpecForge：加速Eagle3投机解码训练

7月17日周四

00:00LMSYS：Blog（Chatbot Arena 团队）使用多 Token 预测（MTP）加速 SGLang：吞吐量提升 60% 的推理优化方案

7月9日周三

00:00LMSYS：Blog（Chatbot Arena 团队）slime：面向 RL 扩展的 SGLang 原生后训练框架

7月8日周二

00:00LMSYS：Blog（Chatbot Arena 团队）OME：以模型驱动架构革新 LLM 基础设施

6月16日周一

00:00LMSYS：Blog（Chatbot Arena 团队）在GB200 NVL72上部署DeepSeek 671B：PD与大规模EP架构实现2.7倍解码加速

6月6日周五

04:00EleutherAI：BlogCommon Pile v0.1 正式发布

5月5日周一

00:00LMSYS：Blog（Chatbot Arena 团队）技术博客：在96块H100 GPU上通过PD分离与大规模专家并行部署DeepSeek

3月25日周二

21:23公众号：DeepSeek（深度求索）64同事件精选DeepSeek-V3 模型更新，各项能力全面进阶同一事件，精选展示《DeepSeek-V3 正式发布》

12月26日周四

19:17公众号：DeepSeek（深度求索）67精选DeepSeek-V3 正式发布

12月4日周三

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang v0.4：零开销批处理调度器、缓存感知负载均衡器及更快的结构化输出

11月18日周一

00:00Mistral AI：News（网页）60Mistral AI 开源多模态模型 Pixtral Large 发布

9月6日周五

19:38公众号：DeepSeek（深度求索）61精选DeepSeek-V2.5：融合通用与代码能力的全新开源模型

9月4日周三

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang v0.3 发布：DeepSeek MLA 吞吐量提升 7 倍，支持多模态视频理解

8月16日周五

20:46公众号：DeepSeek（深度求索）53DeepSeek 发布开源数学定理证明模型

7月25日周四

00:00LMSYS：Blog（Chatbot Arena 团队）使用 SGLang Runtime 实现更快的开源 Llama3 推理（对比 TensorRT-LLM、vLLM）

7月16日周二

00:00Mistral AI：News（网页）37Mistral AI 发布数学推理模型 Mathstral 7B

7月1日周一

00:00LMSYS：Blog（Chatbot Arena 团队）RouteLLM：面向高性价比 LLM 路由的开源框架

5月29日周三

00:00Mistral AI：News（网页）57Codestral：Mistral AI团队2024年5月29日发布

3月17日周日

08:00xAI：News（网页）Grok-1 开源发布

2月5日周一

00:00LMSYS：Blog（Chatbot Arena 团队）基于压缩有限状态机实现本地LLM快速JSON解码

1月17日周三

00:00LMSYS：Blog（Chatbot Arena 团队）利用 RadixAttention 与 SGLang 实现快速且灵活的 LLM 推理

11月26日周日

23:00EleutherAI：Blog第三届新英格兰 RLHF Hackers 黑客松

11月15日周三

00:00LMSYS：Blog（Chatbot Arena 团队）服务数千个并发 LoRA 适配器的方案

7月8日周六

08:00EleutherAI：BlogMinetester：基于 Minetest 构建的完全开放 RL 环境

5月23日周二

09:00EleutherAI：BlogSafetensors 通过安全审计并将成为默认格式

5月5日周六

08:00Lilian Weng：Lil'Log（RSS）31使用Tensorflow + OpenAI Gym实现深度强化学习模型

没有更多了

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

8月15日

19:57

蚂蚁 inclusionAI：GitHub 新仓库

精选58

inclusionAI/UI-Venus

UI-Venus 是一款本地 UI 智能体，仅以屏幕截图作为输入，即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口，直接通过视觉信息理解界面结构，实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互，提升了跨平台任务执行的通用性与可靠性。

智能体 GitHub 多模态开源/仓库

推荐理由：蚂蚁这个纯截图驱动的 UI Agent 在当时算是早期探索，代码开源可直接用，做 GUI 自动化的值得看看底层怎么实现元素定位和导航。

7月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang开源SpecForge：加速Eagle3投机解码训练

SGLang团队开源SpecForge训练框架，专为Eagle3投机解码设计，原生集成SGLang推理引擎实现训推无缝衔接。框架内置Training-Time Test支持，提供Online与Offline双模式，分别适配低存储多GPU与高存储低GPU场景。基于ShareGPT和UltraChat 32万样本的实验显示，Llama 4 Maverick与Scout draft模型在MT-Bench上分别实现2.18倍与2.0倍推理加速。

开源/仓库开源生态部署/工程

7月17日

00:00

LMSYS：Blog（Chatbot Arena 团队）

使用多 Token 预测（MTP）加速 SGLang：吞吐量提升 60% 的推理优化方案

SGLang 推理框架现已支持多 Token 预测（MTP）技术，并与大规模专家并行（EP）、预填充-解码分离（PD Disaggregation）等特性无缝集成。该技术通过轻量级草稿模型预测多个未来 Token，再由完整目标模型并行验证，在保持生成质量不变的前提下，可将 DeepSeek V3 等模型的输出吞吐量提升高达 60%。在 16 张 H200 GPU 的小规模部署场景中，该方案显著优化了长序列推理效率，为生产环境提供即插即用的性能增益。

开源/仓库推理部署/工程

7月9日

00:00

LMSYS：Blog（Chatbot Arena 团队）

slime：面向 RL 扩展的 SGLang 原生后训练框架

slime 团队发布面向大规模 RL 训练的后训练框架 slime，原生集成 SGLang 推理引擎与 Megatron-LM 训练引擎。框架通过 sgl-router 提供可定制 rollout 接口与灵活训练配置，支持同地/解耦部署、同步/异步训练及 SFT 冷启动。用户可通过 OpenAI 兼容 API 与智能体环境交互，无需修改环境代码。框架完整支持 SGLang 优化参数（如 EP MoE、DP Attention）及 Megatron 并行策略（TP/PP/EP/CP），提供独立调试模式与检查点转换工具，基础镜像基于 lmsysorg/sglang:dev。

开源/仓库数据/训练部署/工程

7月8日

00:00

LMSYS：Blog（Chatbot Arena 团队）

OME：以模型驱动架构革新 LLM 基础设施

Oracle Cloud Infrastructure 推出 OME（Open Model Engine），一款 Kubernetes-native 的模型服务框架。该系统采用模型驱动架构，通过 BaseModel、ServingRuntime 等自定义资源将模型视为一等公民，有效弥合 ML 工程师与生产团队之间的鸿沟。OME 将模型上线周期从数月压缩至数天，显著减少配置错误，并原生支持多节点推理、Prefill-decode 分离、Serverless 自动扩缩容及 Multi-LoRA 等企业级特性，集成 SGLang 运行时，实现复杂部署策略的编码复用与一键部署。

开源/仓库开源生态部署/工程

6月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

在GB200 NVL72上部署DeepSeek 671B：PD与大规模EP架构实现2.7倍解码加速

SGLang团队在GB200 NVL72集群部署DeepSeek 671B模型，采用预填充-解码分离（PD）与大规模专家并行（EP）架构，结合Blackwell专用优化组件（DeepGEMM、DeepEP等），实现单GPU解码吞吐7,583 tokens/秒。在2,000 token输入下，性能较H100提升2.7倍，整体加速比达2.5-3.4倍。系统利用NVLink全互联降低通信延迟，依托更大显存支持高批次处理，显著提升MoE模型推理效率。

DeepSeek 开源/仓库推理部署/工程

6月6日

04:00

EleutherAI：Blog

Common Pile v0.1 正式发布

Common Pile v0.1 正式发布，这是一个规模达 8TB 的文本数据集，专门收录公共领域及开放许可的文本内容。该数据集提供了海量可合法自由使用的语料资源，适用于大规模语言模型训练等需要合规数据源的场景，旨在解决 AI 训练中的数据版权合规问题。

开源/仓库数据/训练

5月5日

00:00

LMSYS：Blog（Chatbot Arena 团队）

技术博客：在96块H100 GPU上通过PD分离与大规模专家并行部署DeepSeek

SGLang团队开源了基于96块H100 GPU（12节点×8卡）的DeepSeek推理系统实现，采用PD分离（Prefill-Decode Disaggregation）与大规模专家并行（EP）架构，集成DeepEP、DeepGEMM和EPLB完整功能，在2000 token输入序列下达成每节点每秒52.3k输入token和22.3k输出token的吞吐量。该方案较传统张量并行提升输出吞吐量5倍，将成本压缩至每百万输出token仅0.20美元，约为官方API价格的五分之一，是首个在开源实现中接近官方DeepSeek报告性能的大规模部署方案。

开源/仓库开源生态部署/工程

3月25日

21:23

公众号：DeepSeek（深度求索）

同事件精选64

DeepSeek-V3 模型更新，各项能力全面进阶

DeepSeek-V3 新版已发布，关闭深度思考模式即可体验，模型权重同步开源。

DeepSeek 开源/仓库推理模型发布

同一事件，精选展示《DeepSeek-V3 正式发布》

推荐理由：DeepSeek-V3 发布时是开源模型的有力竞争者，但这条一年多前的旧闻如今毫无新意，对关注 AI 动态的你来说，可以直接跳过。

12月26日

19:17

公众号：DeepSeek（深度求索）

精选67

DeepSeek-V3 正式发布

深度求索正式发布 DeepSeek-V3 模型，性能比肩世界顶尖模型，速度跃升，价格更新。

DeepSeek 开源/仓库模型发布

关联讨论 1 条公众号：DeepSeek（深度求索）

推荐理由：DeepSeek-V3 是 2024 年底国产模型的一次真正跃迁，首次亮剑就逼近闭源顶尖，开源权重更是直接改变了开发者生态。时隔一年半回头看，它仍是理解 DeepSeek 路径的起点。

12月4日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang v0.4：零开销批处理调度器、缓存感知负载均衡器及更快的结构化输出

SGLang v0.4版本正式发布，通过零开销批处理调度器将CPU调度与GPU计算重叠，吞吐量提升1.1倍，较其他基线快1.3倍。新版本引入缓存感知负载均衡器，预测KV缓存命中率，使吞吐量最高提升1.9倍，缓存命中率从20%提升至75%。针对DeepSeek模型的数据并行注意力机制带来1.9倍解码吞吐量提升，XGrammar结构化输出速度提升达10倍。

DeepSeek 开源/仓库部署/工程

11月18日

00:00

Mistral AI：News（网页）

60

Mistral AI 开源多模态模型 Pixtral Large 发布

Mistral AI 基于 Mistral Large 2 发布了开源多模态模型 Pixtral Large。该模型包含 123B 多模态解码器和 1B 视觉编码器，支持 128K 上下文窗口。性能方面，它在 MathVista、DocVQA、ChartQA 和 MM-MT-Bench 等基准测试中超越 GPT-4o 与 Gemini-1.5 Pro，并在 LMSYS Vision Leaderboard 上成为得分最高的开源模型。需要注意的是，该模型已停止维护，并被更新的视觉模型所取代。

多模态开源/仓库模型发布评测/基准

9月6日

19:38

公众号：DeepSeek（深度求索）

精选61

DeepSeek-V2.5：融合通用与代码能力的全新开源模型

DeepSeek-V2.5 保留原有 Chat 模型的通用对话能力和 Coder 模型的代码处理能力，并更好地对齐人类偏好。

DeepSeek OpenAI 开源/仓库模型发布

推荐理由：DeepSeek首次将通用对话与代码能力合一的开源模型，当时直接拉低了多任务成本，今天看仍是模型混合能力演变的早期标杆。

9月4日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang v0.3 发布：DeepSeek MLA 吞吐量提升 7 倍，支持多模态视频理解

SGLang v0.3 正式发布，实现显著性能提升与新架构支持。针对 DeepSeek MLA 机制深度优化，采用权重吸收、FP8 量化等技术，在 H100 GPU 上吞吐量最高提升 7 倍。集成 torch.compile 使批量 1-32 场景延迟降低 1.5 倍。新增 LLaVA-OneVision 支持，可处理交错文本、多图像及视频输入，速度提升 4.5 倍。同时全面支持 Gemma-2 的 8K 上下文与交错窗口注意力，突破 4K 限制。

DeepSeek 开源/仓库部署/工程

8月16日

20:46

公众号：DeepSeek（深度求索）

53

DeepSeek 发布开源数学定理证明模型

DeepSeek 发布了一款开源数学定理证明模型，目标是加速“数学定理证明的 AlphaGo 时代”的到来。

DeepSeek 开源/仓库推理模型发布

7月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

使用 SGLang Runtime 实现更快的开源 Llama3 推理（对比 TensorRT-LLM、vLLM）

LMSYS.org 推出 SGLang Runtime v0.2，一个纯 Python 开发的开源 LLM 推理引擎。在覆盖 Llama-8B 至 405B 的基准测试中，该系统在 A100 和 H100 GPU 上展现出优于 vLLM 最高 3.1 倍的离线吞吐量（Llama-70B 场景），并与 TensorRT-LLM 性能相当。SGLang 支持 FP8/FP16 精度，核心调度器仅约 4000 行代码，已在 Chatbot Arena 等平台累计生成数万亿 token。

开源/仓库开源生态部署/工程

7月16日

00:00

Mistral AI：News（网页）

37

Mistral AI 发布数学推理模型 Mathstral 7B

Mistral AI 发布了专注于数学推理的 7B 参数模型 Mathstral 7B。该模型基于 Mistral 7B 构建，旨在解决需要复杂多步推理的高级数学问题。它在 MATH 和 MMLU 基准上分别达到 56.6% 和 63.47%，在同等参数规模中实现 SOTA 性能。通过增加推理时计算，其在 MATH 上的分数可借助多数投票提升至 68.37%，使用强奖励模型则可达 74.59%。该模型为指令模型，权重已托管于 HuggingFace。

开源/仓库推理模型发布

7月1日

00:00

LMSYS：Blog（Chatbot Arena 团队）

RouteLLM：面向高性价比 LLM 路由的开源框架

RouteLLM 是一个基于偏好数据训练的开源 LLM 路由框架，通过智能分配查询至强模型（如 GPT-4）或弱模型（如 Mixtral 8x7B）来平衡成本与性能。该框架提供四种路由器，其中矩阵分解模型在 MT Bench 上表现最优，仅需调用 14% 的 GPT-4 即可达到其 95% 的性能，整体成本降低 75%。在 MMLU 和 GSM8K 基准测试中，RouteLLM 分别实现 45% 和 35% 的成本削减，同时保持 95% 的 GPT-4 水平。项目已开源全部代码与数据集。

开源/仓库数据/训练部署/工程

5月29日

00:00

Mistral AI：News（网页）

57

Codestral：Mistral AI团队2024年5月29日发布

Mistral AI推出其首个专用代码模型Codestral。该模型拥有22B参数，开源权重，专为代码生成任务设计，支持80+编程语言，并具备32k的上下文窗口，在RepoBench评测中表现优于竞品。开发者可通过专用端点 codestral.mistral.ai 获得为期8周的免费Beta测试，也可通过 api.mistral.ai 按token计费使用。该模型已集成至LlamaIndex、LangChain以及Continue.dev和Tabnine等IDE工具。

开源/仓库推理模型发布编码

3月17日

08:00

xAI：News（网页）

Grok-1 开源发布

xAI 宣布开源 Grok-1 模型权重，采用 Apache 2.0 协议。该模型拥有 3140 亿参数，基于 MoE 架构，是迄今参数量最大的开源大模型之一。权重已上传至 GitHub 和 Hugging Face，可自由下载用于本地部署与商用。

xAI 开源/仓库

2月5日

00:00

LMSYS：Blog（Chatbot Arena 团队）

基于压缩有限状态机实现本地LLM快速JSON解码

SGLang团队提出Jump-Forward Decoding算法，通过压缩有限状态机中的单一路径，将多token预填充合并为单步执行，突破传统方法逐token解码的限制。该技术兼容任意正则表达式与JSON/YAML schema，相比guidance+llama.cpp和outlines+vLLM等现有方案，延迟降低2倍，吞吐量提升2.5倍，使约束解码速度超越普通解码。

开源/仓库部署/工程

1月17日

00:00

LMSYS：Blog（Chatbot Arena 团队）

利用 RadixAttention 与 SGLang 实现快速且灵活的 LLM 推理

研究团队发布 SGLang 结构化生成语言及后端技术 RadixAttention，通过基数树数据结构自动管理并重用 KV 缓存，显著减少多轮生成调用中的冗余计算。在 NVIDIA A10G GPU 上运行 Llama-7B 和 Mixtral-8x7B 模型的测试显示，该系统吞吐量较 Guidance 和 vLLM 等现有系统提升最高达 5 倍。前端提供嵌入 Python 的领域特定语言，支持解释器与编译器双模式执行，有效提升复杂 LLM 程序的编程与执行效率。

开源/仓库部署/工程

11月26日

23:00

EleutherAI：Blog

第三届新英格兰 RLHF Hackers 黑客松

第三届新英格兰 RLHF Hackers 黑客松近期举办，集中展示了多个聚焦机器学习与强化学习不同领域的创新项目。重点项目 Pink Elephants Pt 3 采用 ILQL（Inverse Learning from Q-learning）方法，基于标准 trlX 实现框架训练粉色大象模型。主办方鼓励参与者加入 Discord 社区，以获取未来活动更新与更多技术资讯。

开源/仓库数据/训练

11月15日

00:00

LMSYS：Blog（Chatbot Arena 团队）

服务数千个并发 LoRA 适配器的方案

S-LoRA 是一个专为大规模并发 LoRA 适配器服务设计的系统，通过统一分页技术动态管理 KV 缓存与适配器权重内存以减少碎片，并采用异构批处理优化不同秩的 LoRA 计算。该系统支持张量并行扩展至多 GPU，相比 HuggingFace PEFT 和 vLLM，吞吐量提升最高达 4 倍，可同时服务的适配器数量增加数个数量级。

开源/仓库数据/训练部署/工程

7月8日

08:00

EleutherAI：Blog

Minetester：基于 Minetest 构建的完全开放 RL 环境

Minetester 是一个基于开源游戏 Minetest 构建的完全开放强化学习（RL）环境。该项目概述了 Minetest 平台的技术架构及早期开发工作，为研究人员提供了一个代码完全开放、可自由修改的 AI 训练与测试平台，填补了现有 Minecraft 类 RL 环境在开放性方面的空白。

具身智能开源/仓库数据/训练

5月23日

09:00

EleutherAI：Blog

Safetensors 通过安全审计并将成为默认格式

Hugging Face 联合 EleutherAI 与 Stability AI 委托 Trail of Bits 对 Safetensors 库完成独立安全审计，结果证实该库安全可靠，具备成为默认格式的条件。三方组织宣布将推动 Safetensors 作为模型保存的默认格式。完整审计报告已公开发布，相关博客文章将进一步阐述该库的技术背景与后续实施计划。

Hugging Face 开源/仓库开源生态部署/工程

5月5日

08:00

Lilian Weng：Lil'Log（RSS）

31

使用Tensorflow + OpenAI Gym实现深度强化学习模型

该教程详细展示了如何在Tensorflow和OpenAI Gym环境中实现多种经典深度强化学习算法。文章提供了完整的实践代码，并已开源在GitHub仓库“lilianweng/deep-reinforcement-learning-gym”。内容聚焦于将理论转化为实际编程操作，旨在指导读者通过动手实践掌握模型的具体实现方法。

智能体 OpenAI 开源/仓库教程/实践

1 2 3 45

下一页 ›