실시간 소스 프리 객체 탐지 (Real-Time Source-Free Object Detection)

자율 주행, 감시 및 로보틱스를 위한 실제 환경의 탐지기(detectors)는 엄격한 지연 시간(latency) 및 메모리 제약 조건 하에서 도메인 변화(domain-shifts)를 처리해야 하지만, 기존의 소스 프리 객체 탐지 (SFOD, Source-Free Object Detection) 방법들은 정확도만을 우선시하는 무거운 아키텍처에 의존합니다. 우리는 이러한 트레이드오프(trade-off)가 불필요함을 보여줍니다. NMS-free 듀얼 헤드(dual-head) 탐지기인 YOLOv10을 기반으로 구축하여, 더 빠르고 컴팩트하면서도 최첨단(state-of-the-art) 적응 정확도를 달성했습니다. 우리는 바닐라 평균 교사(vanilla mean-teacher) 자기 학습(self-training)을 듀얼 헤드 탐지기에 직접 적용할 경우, 두 가지 주요 요인으로 인해 최적화되지 않은 적응 성능을 보인다는 점을 관찰했습니다. 첫째, 단일 헤드를 사용하거나 양쪽 헤드의 높은 신뢰도 예측을 직접 결합하는 것과 같은 단순한 의사 라벨(pseudo-label) 생성 전략은 도메인 변화 상황에서 최적화되지 않은 감독(supervision)을 생성합니다. 우리는 정밀도를 보존하고 놓친 객체를 복구하기 위해 일대일(O2O, one-to-one) 및 일대다(O2M, one-to-many) 헤드 예측을 선택적으로 수용하는 DHF (Dual-Head Pseudo-Label Fusion)를 제안합니다. 둘째, 도메인 변화가 다중 스케일 특징 판별력(multi-scale feature discriminability)을 붕괴시킨다는 것을 관찰했습니다. 우리는 다중 스케일 특징 맵(multi-scale feature maps)에 탐지 인식 분산 및 공분산 제약(detection-aware variance and covariance constraints)을 강제함으로써 이를 완화하는 MARD (Multi-scale Adaptive Representation Diversification) 손실(loss) 사용을 제안합니다. 두 모듈 모두 학습 시간에만 적용되며, 추론(inference) 과정은 변경되지 않습니다. 도메인 변화 벤치마크 전반에 걸쳐, 우리의 방법인 RT-SFOD는 이전의 최첨단 SFOD 방법들보다 약 2배 적은 파라미터(parameters)를 사용하면서도 1.4~3.5%의 mAP 이득과 1.3배 더 높은 처리량(throughput)을 달성하여, 속도-정확도-모델 크기 트레이드오프의 파레토 프런티어(Pareto frontier)를 진전시켰습니다. 우리는 YOLOv10을 사용하여 주요 결과를 보고하며, 추가적인 YOLO 및 DETR 기반 듀얼 헤드 탐지기를 통해 일반화 가능성을 입증합니다. 코드는 여기에서 확인할 수 있습니다: https://github.com/Sairam13001/RT-SFOD/

Insights

실시간 소스 프리 객체 탐지 (Real-Time Source-Free Object Detection)

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법