Ultralytics YOLO26: 통합된 실시간 엔드투엔드 비전 모델
요약
Ultralytics YOLO26은 NMS-free 엔드투엔드 추론과 DFL 제거를 통해 가볍고 빠른 실시간 비전 모델을 선보입니다. MuSGD 옵티마이저와 STAL 전략을 도입하여 탐지, 분할, 포즈 추정 등 다양한 작업에서 성능을 극대화했습니다.
핵심 포인트
- NMS-free 듀얼 헤드 설계로 엔드투엔드 추론 구현
- MuSGD 및 STAL 전략을 통한 학습 효율 및 작은 객체 탐지 개선
- 탐지, 분할, 포즈 추정 등 다중 작업 통합 지원
- COCO 데이터셋 기준 탁월한 정확도-지연 시간 성능 달성
실시간 비전(Real-time vision)은 다양한 하드웨어에서 정확하고 효율적이며 배포가 간편한 모델을 요구합니다. YOLO 제품군은 이러한 이유로 널리 배포되어 왔으나, 대부분의 YOLO 탐지기(detectors)는 여전히 추론 시 비최대 억제(Non-Maximum Suppression, NMS)에 의존하며, 분포 초점 손실(Distribution Focal Loss, DFL)로 인해 무거운 탐지 헤드(detection heads)를 지니고, 긴 학습 일정이 필요하며, 가장 작은 객체에 대해 양성 레이블 할당(positive label assignments)이 이루어지지 않을 수 있습니다. 우리는 조정된 아키텍처와 학습 기술을 통해 이러한 한계점을 해결하는 통합 실시간 비전 모델 제품군인 Ultralytics YOLO26을 선보입니다. YOLO26은 네이티브 NMS-free 엔드투엔드(end-to-end) 추론을 위한 듀얼 헤드(dual-head) 설계를 사용하며 DFL을 완전히 제거하여, 제약 없는 회귀 범위(unconstrained regression range)를 가진 더 가벼운 헤드를 구현했습니다. 학습 파이프라인은 대규모 언어 모델(Large Language Model, LLM) 학습에서 파생된 하이브리드 Muon-SGD 옵티마이저인 MuSGD, 추론 시점의 헤드로 감독(supervision)을 전환하는 점진적 손실(Progressive Loss), 그리고 작은 객체에 대한 양성 커버리지를 보장하는 레이블 할당 전략인 STAL을 결합합니다. 탐지를 넘어, YOLO26은 인스턴스 분할(instance segmentation), 포즈 추정(pose estimation), 그리고 회전 탐지(oriented detection)를 위한 작업별 헤드 및 손실 설계를 도입하여 다양한 작업과 스케일에서 일관된 성능 향상을 만들어냅니다. 이 제품군은 5가지 스케일(n/s/m/l/x)을 아우르며 단일 파이프라인 내에서 탐지, 인스턴스 분할, 포즈 추정, 분류 및 회전 탐지를 지원하며, 텍스트, 시각 및 프롬프트가 필요 없는 추론을 위한 오픈 보카블러리(open-vocabulary) 확장 모델인 YOLOE-26을 포함합니다. 모든 스케일에 걸쳐 YOLO26은 COCO 데이터셋에서 1.7-11.8 ms의 T4 TensorRT 지연 시간(latency) 동안 40.9-57.5 mAP를 달성하여 이전의 실시간 탐지기들보다 정확도-지연 시간 파레토 프런트(accuracy-latency Pareto front)를 진전시켰으며, YOLOE-26x는 텍스트 프롬프팅 하에 LVIS minival에서 40.6 AP에 도달했습니다. 코드와 모델은 https://github.com/ultralytics/ultralytics 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기