Today we're releasing SAIR, the Structurally Augmented IC50 Repository. SAIR is the Largest Open-Sourced Binding Affinit...
Today we're releasing SAIR, the Structurally Augmented IC50 Repository. SAIR is the Largest Open-Sourced Binding Affinit...
Today we're releasing SAIR, the Structurally Augmented IC50 Repository. SAIR is the Largest Open-Sourced Binding Affinit...
SGLang团队在GB200 NVL72集群部署DeepSeek 671B模型,采用预填充-解码分离(PD)与大规模专家并行(EP)架构,结合Blackwell专用优化组件(DeepGEMM、DeepEP等),实现单GPU解码吞吐7,583 tokens/秒。在2,000 token输入下,性能较H100提升2.7倍,整体加速比达2.5-3.4倍。系统利用NVLink全互联降低通信延迟,依托更大显存支持高批次处理,显著提升MoE模型推理效率。
Common Pile v0.1 正式发布,这是一个规模达 8TB 的文本数据集,专门收录公共领域及开放许可的文本内容。该数据集提供了海量可合法自由使用的语料资源,适用于大规模语言模型训练等需要合规数据源的场景,旨在解决 AI 训练中的数据版权合规问题。
MCP Agent Server示例展示了将Agent工作流封装为MCP服务器的"Agent即服务"架构。提供asyncio(轻量级内存执行,适合开发测试)和Temporal(生产级持久化、支持暂停恢复)两种实现。通过装饰器暴露Agent能力,支持多Agent互操作,可与Claude Desktop等任意MCP客户端集成,实现复杂工作流的标准化封装与跨平台复用。
SGLang团队开源了基于96块H100 GPU(12节点×8卡)的DeepSeek推理系统实现,采用PD分离(Prefill-Decode Disaggregation)与大规模专家并行(EP)架构,集成DeepEP、DeepGEMM和EPLB完整功能,在2000 token输入序列下达成每节点每秒52.3k输入token和22.3k输出token的吞吐量。该方案较传统张量并行提升输出吞吐量5倍,将成本压缩至每百万输出token仅0.20美元,约为官方API价格的五分之一,是首个在开源实现中接近官方DeepSeek报告性能的大规模部署方案。
We are open-sourcing all the models in Web-SSL, from ViT-L to ViT-7B! It was super fun to train and play with these mass...
DeepSeek-V3 新版已发布,关闭深度思考模式即可体验,模型权重同步开源。
同一事件,精选展示《DeepSeek-V3 正式发布》Hyperbrowser 发布 MCP Server,为 AI agent 提供网页抓取、结构化数据提取和爬取能力。支持集成 OpenAI CUA、Claude Computer Use 和 Browser Use 等浏览器自动化工具,兼容 Cursor、Windsurf 和 Claude Desktop,可通过 npx 一键安装,MIT 协议开源。
DeepSeek发布开源并行文件系统3FS(Fire-Flyer File System),专为现代SSD和RDMA网络优化。180节点集群可实现6.6 TiB/s聚合读取吞吐量,25节点GraySort测试达3.66 TiB/min,单节点KVCache查找峰值超40 GiB/s。采用分离式架构与强一致性语义,支持训练数据预处理、检查点存取及V3/R1推理的KVCache查找。同步开源Smallpond数据处理框架。
DeepSeek开源周第二日推出DeepEP,这是首个面向MoE模型训练与推理的开源EP通信库。该库针对专家并行场景优化,支持NVLink和RDMA的all-to-all通信,既提供高吞吐kernel用于训练与推理预填充,也提供低延迟kernel用于解码阶段。同时原生支持FP8精度,并允许灵活的GPU资源控制以实现计算与通信重叠,显著提升MoE模型效率。
DeepSeek AI 预告开源周活动,将于下周起陆续开源 5 个代码仓库。作为探索 AGI 的小团队,他们计划透明分享那些已在生产环境中实战验证的代码模块。团队相信开源社区的集体力量能加速行业进步,强调此次发布将摒弃象牙塔式的封闭开发,以"车库能量"和社区驱动创新的形式呈现。
深度求索正式发布 DeepSeek-V3 模型,性能比肩世界顶尖模型,速度跃升,价格更新。
关联讨论 1 条公众号:DeepSeek(深度求索)作者展示了一个刻意追求极致低效的 GPT 实现,通过极慢的响应机制(如逐字符渲染或人工模拟)和昂贵的运行架构,打造出单次请求耗时极长、调用成本极高的反讽式大语言模型服务。
SGLang v0.4版本正式发布,通过零开销批处理调度器将CPU调度与GPU计算重叠,吞吐量提升1.1倍,较其他基线快1.3倍。新版本引入缓存感知负载均衡器,预测KV缓存命中率,使吞吐量最高提升1.9倍,缓存命中率从20%提升至75%。针对DeepSeek模型的数据并行注意力机制带来1.9倍解码吞吐量提升,XGrammar结构化输出速度提升达10倍。
Mistral AI 基于 Mistral Large 2 发布了开源多模态模型 Pixtral Large。该模型包含 123B 多模态解码器和 1B 视觉编码器,支持 128K 上下文窗口。性能方面,它在 MathVista、DocVQA、ChartQA 和 MM-MT-Bench 等基准测试中超越 GPT-4o 与 Gemini-1.5 Pro,并在 LMSYS Vision Leaderboard 上成为得分最高的开源模型。需要注意的是,该模型已停止维护,并被更新的视觉模型所取代。
DeepSeek-V2.5 保留原有 Chat 模型的通用对话能力和 Coder 模型的代码处理能力,并更好地对齐人类偏好。
SGLang v0.3 正式发布,实现显著性能提升与新架构支持。针对 DeepSeek MLA 机制深度优化,采用权重吸收、FP8 量化等技术,在 H100 GPU 上吞吐量最高提升 7 倍。集成 torch.compile 使批量 1-32 场景延迟降低 1.5 倍。新增 LLaVA-OneVision 支持,可处理交错文本、多图像及视频输入,速度提升 4.5 倍。同时全面支持 Gemma-2 的 8K 上下文与交错窗口注意力,突破 4K 限制。
LMSYS.org 推出 SGLang Runtime v0.2,一个纯 Python 开发的开源 LLM 推理引擎。在覆盖 Llama-8B 至 405B 的基准测试中,该系统在 A100 和 H100 GPU 上展现出优于 vLLM 最高 3.1 倍的离线吞吐量(Llama-70B 场景),并与 TensorRT-LLM 性能相当。SGLang 支持 FP8/FP16 精度,核心调度器仅约 4000 行代码,已在 Chatbot Arena 等平台累计生成数万亿 token。
Mistral AI 发布了专注于数学推理的 7B 参数模型 Mathstral 7B。该模型基于 Mistral 7B 构建,旨在解决需要复杂多步推理的高级数学问题。它在 MATH 和 MMLU 基准上分别达到 56.6% 和 63.47%,在同等参数规模中实现 SOTA 性能。通过增加推理时计算,其在 MATH 上的分数可借助多数投票提升至 68.37%,使用强奖励模型则可达 74.59%。该模型为指令模型,权重已托管于 HuggingFace。
RouteLLM 是一个基于偏好数据训练的开源 LLM 路由框架,通过智能分配查询至强模型(如 GPT-4)或弱模型(如 Mixtral 8x7B)来平衡成本与性能。该框架提供四种路由器,其中矩阵分解模型在 MT Bench 上表现最优,仅需调用 14% 的 GPT-4 即可达到其 95% 的性能,整体成本降低 75%。在 MMLU 和 GSM8K 基准测试中,RouteLLM 分别实现 45% 和 35% 的成本削减,同时保持 95% 的 GPT-4 水平。项目已开源全部代码与数据集。
Mistral AI推出其首个专用代码模型Codestral。该模型拥有22B参数,开源权重,专为代码生成任务设计,支持80+编程语言,并具备32k的上下文窗口,在RepoBench评测中表现优于竞品。开发者可通过专用端点 codestral.mistral.ai 获得为期8周的免费Beta测试,也可通过 api.mistral.ai 按token计费使用。该模型已集成至LlamaIndex、LangChain以及Continue.dev和Tabnine等IDE工具。
xAI 宣布开源 Grok-1 模型权重,采用 Apache 2.0 协议。该模型拥有 3140 亿参数,基于 MoE 架构,是迄今参数量最大的开源大模型之一。权重已上传至 GitHub 和 Hugging Face,可自由下载用于本地部署与商用。
SGLang团队提出Jump-Forward Decoding算法,通过压缩有限状态机中的单一路径,将多token预填充合并为单步执行,突破传统方法逐token解码的限制。该技术兼容任意正则表达式与JSON/YAML schema,相比guidance+llama.cpp和outlines+vLLM等现有方案,延迟降低2倍,吞吐量提升2.5倍,使约束解码速度超越普通解码。
研究团队发布 SGLang 结构化生成语言及后端技术 RadixAttention,通过基数树数据结构自动管理并重用 KV 缓存,显著减少多轮生成调用中的冗余计算。在 NVIDIA A10G GPU 上运行 Llama-7B 和 Mixtral-8x7B 模型的测试显示,该系统吞吐量较 Guidance 和 vLLM 等现有系统提升最高达 5 倍。前端提供嵌入 Python 的领域特定语言,支持解释器与编译器双模式执行,有效提升复杂 LLM 程序的编程与执行效率。
第三届新英格兰 RLHF Hackers 黑客松近期举办,集中展示了多个聚焦机器学习与强化学习不同领域的创新项目。重点项目 Pink Elephants Pt 3 采用 ILQL(Inverse Learning from Q-learning)方法,基于标准 trlX 实现框架训练粉色大象模型。主办方鼓励参与者加入 Discord 社区,以获取未来活动更新与更多技术资讯。
S-LoRA 是一个专为大规模并发 LoRA 适配器服务设计的系统,通过统一分页技术动态管理 KV 缓存与适配器权重内存以减少碎片,并采用异构批处理优化不同秩的 LoRA 计算。该系统支持张量并行扩展至多 GPU,相比 HuggingFace PEFT 和 vLLM,吞吐量提升最高达 4 倍,可同时服务的适配器数量增加数个数量级。
Minetester 是一个基于开源游戏 Minetest 构建的完全开放强化学习(RL)环境。该项目概述了 Minetest 平台的技术架构及早期开发工作,为研究人员提供了一个代码完全开放、可自由修改的 AI 训练与测试平台,填补了现有 Minecraft 类 RL 环境在开放性方面的空白。
Hugging Face 联合 EleutherAI 与 Stability AI 委托 Trail of Bits 对 Safetensors 库完成独立安全审计,结果证实该库安全可靠,具备成为默认格式的条件。三方组织宣布将推动 Safetensors 作为模型保存的默认格式。完整审计报告已公开发布,相关博客文章将进一步阐述该库的技术背景与后续实施计划。
该教程详细展示了如何在Tensorflow和OpenAI Gym环境中实现多种经典深度强化学习算法。文章提供了完整的实践代码,并已开源在GitHub仓库“lilianweng/deep-reinforcement-learning-gym”。内容聚焦于将理论转化为实际编程操作,旨在指导读者通过动手实践掌握模型的具体实现方法。