UI-Venus 是一款本地 UI 智能体,仅以屏幕截图作为输入,即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口,直接通过视觉信息理解界面结构,实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互,提升了跨平台任务执行的通用性与可靠性。
UI-Venus 是一款本地 UI 智能体,仅以屏幕截图作为输入,即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口,直接通过视觉信息理解界面结构,实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互,提升了跨平台任务执行的通用性与可靠性。
SGLang团队开源SpecForge训练框架,专为Eagle3投机解码设计,原生集成SGLang推理引擎实现训推无缝衔接。框架内置Training-Time Test支持,提供Online与Offline双模式,分别适配低存储多GPU与高存储低GPU场景。基于ShareGPT和UltraChat 32万样本的实验显示,Llama 4 Maverick与Scout draft模型在MT-Bench上分别实现2.18倍与2.0倍推理加速。
SGLang 推理框架现已支持多 Token 预测(MTP)技术,并与大规模专家并行(EP)、预填充-解码分离(PD Disaggregation)等特性无缝集成。该技术通过轻量级草稿模型预测多个未来 Token,再由完整目标模型并行验证,在保持生成质量不变的前提下,可将 DeepSeek V3 等模型的输出吞吐量提升高达 60%。在 16 张 H200 GPU 的小规模部署场景中,该方案显著优化了长序列推理效率,为生产环境提供即插即用的性能增益。
slime 团队发布面向大规模 RL 训练的后训练框架 slime,原生集成 SGLang 推理引擎与 Megatron-LM 训练引擎。框架通过 sgl-router 提供可定制 rollout 接口与灵活训练配置,支持同地/解耦部署、同步/异步训练及 SFT 冷启动。用户可通过 OpenAI 兼容 API 与智能体环境交互,无需修改环境代码。框架完整支持 SGLang 优化参数(如 EP MoE、DP Attention)及 Megatron 并行策略(TP/PP/EP/CP),提供独立调试模式与检查点转换工具,基础镜像基于 lmsysorg/sglang:dev。
Oracle Cloud Infrastructure 推出 OME(Open Model Engine),一款 Kubernetes-native 的模型服务框架。该系统采用模型驱动架构,通过 BaseModel、ServingRuntime 等自定义资源将模型视为一等公民,有效弥合 ML 工程师与生产团队之间的鸿沟。OME 将模型上线周期从数月压缩至数天,显著减少配置错误,并原生支持多节点推理、Prefill-decode 分离、Serverless 自动扩缩容及 Multi-LoRA 等企业级特性,集成 SGLang 运行时,实现复杂部署策略的编码复用与一键部署。
SGLang团队在GB200 NVL72集群部署DeepSeek 671B模型,采用预填充-解码分离(PD)与大规模专家并行(EP)架构,结合Blackwell专用优化组件(DeepGEMM、DeepEP等),实现单GPU解码吞吐7,583 tokens/秒。在2,000 token输入下,性能较H100提升2.7倍,整体加速比达2.5-3.4倍。系统利用NVLink全互联降低通信延迟,依托更大显存支持高批次处理,显著提升MoE模型推理效率。
Common Pile v0.1 正式发布,这是一个规模达 8TB 的文本数据集,专门收录公共领域及开放许可的文本内容。该数据集提供了海量可合法自由使用的语料资源,适用于大规模语言模型训练等需要合规数据源的场景,旨在解决 AI 训练中的数据版权合规问题。
SGLang团队开源了基于96块H100 GPU(12节点×8卡)的DeepSeek推理系统实现,采用PD分离(Prefill-Decode Disaggregation)与大规模专家并行(EP)架构,集成DeepEP、DeepGEMM和EPLB完整功能,在2000 token输入序列下达成每节点每秒52.3k输入token和22.3k输出token的吞吐量。该方案较传统张量并行提升输出吞吐量5倍,将成本压缩至每百万输出token仅0.20美元,约为官方API价格的五分之一,是首个在开源实现中接近官方DeepSeek报告性能的大规模部署方案。
DeepSeek-V3 新版已发布,关闭深度思考模式即可体验,模型权重同步开源。
同一事件,精选展示《DeepSeek-V3 正式发布》深度求索正式发布 DeepSeek-V3 模型,性能比肩世界顶尖模型,速度跃升,价格更新。
关联讨论 1 条公众号:DeepSeek(深度求索)SGLang v0.4版本正式发布,通过零开销批处理调度器将CPU调度与GPU计算重叠,吞吐量提升1.1倍,较其他基线快1.3倍。新版本引入缓存感知负载均衡器,预测KV缓存命中率,使吞吐量最高提升1.9倍,缓存命中率从20%提升至75%。针对DeepSeek模型的数据并行注意力机制带来1.9倍解码吞吐量提升,XGrammar结构化输出速度提升达10倍。
Mistral AI 基于 Mistral Large 2 发布了开源多模态模型 Pixtral Large。该模型包含 123B 多模态解码器和 1B 视觉编码器,支持 128K 上下文窗口。性能方面,它在 MathVista、DocVQA、ChartQA 和 MM-MT-Bench 等基准测试中超越 GPT-4o 与 Gemini-1.5 Pro,并在 LMSYS Vision Leaderboard 上成为得分最高的开源模型。需要注意的是,该模型已停止维护,并被更新的视觉模型所取代。
DeepSeek-V2.5 保留原有 Chat 模型的通用对话能力和 Coder 模型的代码处理能力,并更好地对齐人类偏好。
SGLang v0.3 正式发布,实现显著性能提升与新架构支持。针对 DeepSeek MLA 机制深度优化,采用权重吸收、FP8 量化等技术,在 H100 GPU 上吞吐量最高提升 7 倍。集成 torch.compile 使批量 1-32 场景延迟降低 1.5 倍。新增 LLaVA-OneVision 支持,可处理交错文本、多图像及视频输入,速度提升 4.5 倍。同时全面支持 Gemma-2 的 8K 上下文与交错窗口注意力,突破 4K 限制。
LMSYS.org 推出 SGLang Runtime v0.2,一个纯 Python 开发的开源 LLM 推理引擎。在覆盖 Llama-8B 至 405B 的基准测试中,该系统在 A100 和 H100 GPU 上展现出优于 vLLM 最高 3.1 倍的离线吞吐量(Llama-70B 场景),并与 TensorRT-LLM 性能相当。SGLang 支持 FP8/FP16 精度,核心调度器仅约 4000 行代码,已在 Chatbot Arena 等平台累计生成数万亿 token。
Mistral AI 发布了专注于数学推理的 7B 参数模型 Mathstral 7B。该模型基于 Mistral 7B 构建,旨在解决需要复杂多步推理的高级数学问题。它在 MATH 和 MMLU 基准上分别达到 56.6% 和 63.47%,在同等参数规模中实现 SOTA 性能。通过增加推理时计算,其在 MATH 上的分数可借助多数投票提升至 68.37%,使用强奖励模型则可达 74.59%。该模型为指令模型,权重已托管于 HuggingFace。
RouteLLM 是一个基于偏好数据训练的开源 LLM 路由框架,通过智能分配查询至强模型(如 GPT-4)或弱模型(如 Mixtral 8x7B)来平衡成本与性能。该框架提供四种路由器,其中矩阵分解模型在 MT Bench 上表现最优,仅需调用 14% 的 GPT-4 即可达到其 95% 的性能,整体成本降低 75%。在 MMLU 和 GSM8K 基准测试中,RouteLLM 分别实现 45% 和 35% 的成本削减,同时保持 95% 的 GPT-4 水平。项目已开源全部代码与数据集。
Mistral AI推出其首个专用代码模型Codestral。该模型拥有22B参数,开源权重,专为代码生成任务设计,支持80+编程语言,并具备32k的上下文窗口,在RepoBench评测中表现优于竞品。开发者可通过专用端点 codestral.mistral.ai 获得为期8周的免费Beta测试,也可通过 api.mistral.ai 按token计费使用。该模型已集成至LlamaIndex、LangChain以及Continue.dev和Tabnine等IDE工具。
xAI 宣布开源 Grok-1 模型权重,采用 Apache 2.0 协议。该模型拥有 3140 亿参数,基于 MoE 架构,是迄今参数量最大的开源大模型之一。权重已上传至 GitHub 和 Hugging Face,可自由下载用于本地部署与商用。
SGLang团队提出Jump-Forward Decoding算法,通过压缩有限状态机中的单一路径,将多token预填充合并为单步执行,突破传统方法逐token解码的限制。该技术兼容任意正则表达式与JSON/YAML schema,相比guidance+llama.cpp和outlines+vLLM等现有方案,延迟降低2倍,吞吐量提升2.5倍,使约束解码速度超越普通解码。
研究团队发布 SGLang 结构化生成语言及后端技术 RadixAttention,通过基数树数据结构自动管理并重用 KV 缓存,显著减少多轮生成调用中的冗余计算。在 NVIDIA A10G GPU 上运行 Llama-7B 和 Mixtral-8x7B 模型的测试显示,该系统吞吐量较 Guidance 和 vLLM 等现有系统提升最高达 5 倍。前端提供嵌入 Python 的领域特定语言,支持解释器与编译器双模式执行,有效提升复杂 LLM 程序的编程与执行效率。
第三届新英格兰 RLHF Hackers 黑客松近期举办,集中展示了多个聚焦机器学习与强化学习不同领域的创新项目。重点项目 Pink Elephants Pt 3 采用 ILQL(Inverse Learning from Q-learning)方法,基于标准 trlX 实现框架训练粉色大象模型。主办方鼓励参与者加入 Discord 社区,以获取未来活动更新与更多技术资讯。
S-LoRA 是一个专为大规模并发 LoRA 适配器服务设计的系统,通过统一分页技术动态管理 KV 缓存与适配器权重内存以减少碎片,并采用异构批处理优化不同秩的 LoRA 计算。该系统支持张量并行扩展至多 GPU,相比 HuggingFace PEFT 和 vLLM,吞吐量提升最高达 4 倍,可同时服务的适配器数量增加数个数量级。
Minetester 是一个基于开源游戏 Minetest 构建的完全开放强化学习(RL)环境。该项目概述了 Minetest 平台的技术架构及早期开发工作,为研究人员提供了一个代码完全开放、可自由修改的 AI 训练与测试平台,填补了现有 Minecraft 类 RL 环境在开放性方面的空白。
Hugging Face 联合 EleutherAI 与 Stability AI 委托 Trail of Bits 对 Safetensors 库完成独立安全审计,结果证实该库安全可靠,具备成为默认格式的条件。三方组织宣布将推动 Safetensors 作为模型保存的默认格式。完整审计报告已公开发布,相关博客文章将进一步阐述该库的技术背景与后续实施计划。
该教程详细展示了如何在Tensorflow和OpenAI Gym环境中实现多种经典深度强化学习算法。文章提供了完整的实践代码,并已开源在GitHub仓库“lilianweng/deep-reinforcement-learning-gym”。内容聚焦于将理论转化为实际编程操作,旨在指导读者通过动手实践掌握模型的具体实现方法。