Ultralytics YOLO26:统一实时端到端视觉模型
阅读原文· arxiv.org这次YOLO26把NMS和DFL都拿掉了,还把大模型训练的Muon优化器改成MuSGD,在COCO上的速度精度平衡比上一代强不少,做实时检测的应该拿来跑一跑。
Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理,彻底移除 DFL,获得更轻检测头与无约束回归范围。训练结合混合 Muon-SGD 优化器 MuSGD、转向推理头的 Progressive Loss 及保证小物体正样本的 STAL 标签分配。支持检测、实例分割、姿态估计、定向检测和分类,提供 5 种尺度(n/s/m/l/x)及开放词汇扩展 YOLOE-26。全部尺度在 COCO 上达 40.9–57.5 mAP,T4 TensorRT 延迟 1.7–11.8 ms;YOLOE-26x 在 LVIS minival 文本提示下达 40.6 AP。代码已开源。
实时视觉需要具备准确性、高效性且易于在各种硬件上部署的模型。YOLO系列因此被广泛部署,然而大多数YOLO检测器在推理时仍依赖非极大值抑制(NMS),由于分布聚焦损失(DFL)而带有沉重的检测头,需要较长的训练周期,并且可能使最小的目标无法获得正标签分配。我们提出Ultralytics YOLO26,这是一个统一的实时视觉模型系列,通过协调架构和训练改进来解决这些限制。YOLO26采用双头设计,实现原生无NMS的端到端推理,并完全移除DFL,从而得到更轻量且回归范围不受约束的检测头。其训练流程结合了MuSGD——一种从大语言模型训练中改编的混合Muon-SGD优化器;渐进式损失(Progressive Loss),将监督信号转向推理时的检测头;以及STAL,一种保证小目标正标签覆盖的标签分配策略。除了检测,YOLO26还为实例分割、姿态估计和旋转检测引入了特定任务的检测头和损失设计,在各类任务和尺度上均产生一致提升。该系列涵盖五个尺度(n/s/m/l/x),并在单一流程中支持检测、实例分割、姿态估计、分类和旋转检测,同时提供开放词汇扩展YOLOE-26,支持无需文本、视觉和提示词的推理。在所有尺度上,YOLO26在COCO上实现40.9-57.5 mAP,延迟为1.7-11.8 ms(T4 TensorRT),将精度-延迟帕累托前沿推升至超过先前的实时检测器,同时YOLOE-26x在文本提示下于LVIS minival上达到40.6 AP。代码和模型可在 https://github.com/ultralytics/ultralytics 获取。