실시간 소스 프리 객체 탐지 (Real-Time Source-Free Object Detection)
요약
YOLOv10 기반의 실시간 소스 프리 객체 탐지(RT-SFOD) 기술을 제안합니다. DHF와 MARD 모듈을 통해 도메인 변화 상황에서도 낮은 파라미터와 높은 처리량으로 최첨단 정확도를 달성했습니다.
핵심 포인트
- YOLOv10 기반의 경량화된 SFOD 프레임워크 제안
- DHF 모듈을 통한 정밀한 의사 라벨 생성 전략 도입
- MARD 손실 함수로 다중 스케일 특징 판별력 강화
- 기존 SOTA 대비 파라미터는 2배 적고 처리량은 1.3배 향상
자율 주행, 감시 및 로보틱스를 위한 실제 환경의 탐지기(detectors)는 엄격한 지연 시간(latency) 및 메모리 제약 조건 하에서 도메인 변화(domain-shifts)를 처리해야 하지만, 기존의 소스 프리 객체 탐지 (SFOD, Source-Free Object Detection) 방법들은 정확도만을 우선시하는 무거운 아키텍처에 의존합니다. 우리는 이러한 트레이드오프(trade-off)가 불필요함을 보여줍니다. NMS-free 듀얼 헤드(dual-head) 탐지기인 YOLOv10을 기반으로 구축하여, 더 빠르고 컴팩트하면서도 최첨단(state-of-the-art) 적응 정확도를 달성했습니다. 우리는 바닐라 평균 교사(vanilla mean-teacher) 자기 학습(self-training)을 듀얼 헤드 탐지기에 직접 적용할 경우, 두 가지 주요 요인으로 인해 최적화되지 않은 적응 성능을 보인다는 점을 관찰했습니다. 첫째, 단일 헤드를 사용하거나 양쪽 헤드의 높은 신뢰도 예측을 직접 결합하는 것과 같은 단순한 의사 라벨(pseudo-label) 생성 전략은 도메인 변화 상황에서 최적화되지 않은 감독(supervision)을 생성합니다. 우리는 정밀도를 보존하고 놓친 객체를 복구하기 위해 일대일(O2O, one-to-one) 및 일대다(O2M, one-to-many) 헤드 예측을 선택적으로 수용하는 DHF (Dual-Head Pseudo-Label Fusion)를 제안합니다. 둘째, 도메인 변화가 다중 스케일 특징 판별력(multi-scale feature discriminability)을 붕괴시킨다는 것을 관찰했습니다. 우리는 다중 스케일 특징 맵(multi-scale feature maps)에 탐지 인식 분산 및 공분산 제약(detection-aware variance and covariance constraints)을 강제함으로써 이를 완화하는 MARD (Multi-scale Adaptive Representation Diversification) 손실(loss) 사용을 제안합니다. 두 모듈 모두 학습 시간에만 적용되며, 추론(inference) 과정은 변경되지 않습니다. 도메인 변화 벤치마크 전반에 걸쳐, 우리의 방법인 RT-SFOD는 이전의 최첨단 SFOD 방법들보다 약 2배 적은 파라미터(parameters)를 사용하면서도 1.4~3.5%의 mAP 이득과 1.3배 더 높은 처리량(throughput)을 달성하여, 속도-정확도-모델 크기 트레이드오프의 파레토 프런티어(Pareto frontier)를 진전시켰습니다. 우리는 YOLOv10을 사용하여 주요 결과를 보고하며, 추가적인 YOLO 및 DETR 기반 듀얼 헤드 탐지기를 통해 일반화 가능성을 입증합니다. 코드는 여기에서 확인할 수 있습니다: https://github.com/Sairam13001/RT-SFOD/
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기