# Ultralytics YOLO26：统一实时端到端视觉模型

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-06-02 08:00
- AIHOT 分数：76
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpyaocou03ccslaxcg50bh1c
- 原文链接：https://arxiv.org/abs/2606.03748

## 精选理由

这次YOLO26把NMS和DFL都拿掉了，还把大模型训练的Muon优化器改成MuSGD，在COCO上的速度精度平衡比上一代强不少，做实时检测的应该拿来跑一跑。

## AI 摘要

Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理，彻底移除 DFL，获得更轻检测头与无约束回归范围。训练结合混合 Muon-SGD 优化器 MuSGD、转向推理头的 Progressive Loss 及保证小物体正样本的 STAL 标签分配。支持检测、实例分割、姿态估计、定向检测和分类，提供 5 种尺度（n/s/m/l/x）及开放词汇扩展 YOLOE-26。全部尺度在 COCO 上达 40.9–57.5 mAP，T4 TensorRT 延迟 1.7–11.8 ms；YOLOE-26x 在 LVIS minival 文本提示下达 40.6 AP。代码已开源。

## 正文

实时视觉需要具备准确性、高效性且易于在各种硬件上部署的模型。YOLO系列因此被广泛部署，然而大多数YOLO检测器在推理时仍依赖非极大值抑制（NMS），由于分布聚焦损失（DFL）而带有沉重的检测头，需要较长的训练周期，并且可能使最小的目标无法获得正标签分配。我们提出Ultralytics YOLO26，这是一个统一的实时视觉模型系列，通过协调架构和训练改进来解决这些限制。YOLO26采用双头设计，实现原生无NMS的端到端推理，并完全移除DFL，从而得到更轻量且回归范围不受约束的检测头。其训练流程结合了MuSGD——一种从大语言模型训练中改编的混合Muon-SGD优化器；渐进式损失（Progressive Loss），将监督信号转向推理时的检测头；以及STAL，一种保证小目标正标签覆盖的标签分配策略。除了检测，YOLO26还为实例分割、姿态估计和旋转检测引入了特定任务的检测头和损失设计，在各类任务和尺度上均产生一致提升。该系列涵盖五个尺度（n/s/m/l/x），并在单一流程中支持检测、实例分割、姿态估计、分类和旋转检测，同时提供开放词汇扩展YOLOE-26，支持无需文本、视觉和提示词的推理。在所有尺度上，YOLO26在COCO上实现40.9-57.5 mAP，延迟为1.7-11.8 ms（T4 TensorRT），将精度-延迟帕累托前沿推升至超过先前的实时检测器，同时YOLOE-26x在文本提示下于LVIS minival上达到40.6 AP。代码和模型可在 https://github.com/ultralytics/ultralytics 获取。
