DualMem: 개방형 세계 객체 탐지(Open-World Object Detection)에서 보정된 미지 객체 스트림 필터링을 위한 객체성
요약
개방형 세계 객체 탐지(OWOD)에서 미지 객체 예측 스트림이 배경 오탐으로 인해 심하게 오염되는 문제를 분석하고, 이를 해결하기 위한 DualMem을 제안합니다. DualMem은 SigLIP 특징 공간에서 비모수적 우도비 검정과 메모리 메커니즘을 사용하여 배경 오탐을 획기적으로 줄입니다.
핵심 포인트
- OWOD 모델의 미지 객체 예측 중 배경 오탐 비중이 46-71%에 달함
- 객체성 헤드의 정보 병목 현상이 미지 객체 식별 성능 저하의 원인
- DualMem은 SigLIP 특징과 메모리 기반 필터링으로 오탐을 평균 56.6% 감소
- Neyman-Pearson 보정을 통해 오탐 억제와 재현율 간의 트레이드오프 제공
개방형 세계 객체 탐지 (Open-world object detection, OWOD)는 탐지기가 알려진 클래스 (known classes)를 국지화하는 동시에, 향후 점진적 학습 (incremental learning)을 위해 미지 객체 (unknown objects)를 식별할 것을 요구합니다. 우리는 강력한 OWOD 탐지기들의 미지 예측 스트림 (unknown prediction streams)이 심하게 오염되어 있음을 발견했습니다. M-OWODB 데이터셋에서 PROB, OW-DETR, HypOW를 대상으로 분석한 결과, 미래 작업의 양성 미지 객체 (positive unknowns)는 미지 예측의 10% 미만을 차지하는 반면, 배경 오탐 (background false positives)이 46-71%를 차지했습니다. 우리는 이것이 정보 누락의 문제가 아니라, 객체성 헤드 (objectness head)에서의 정보 병목 (information bottleneck) 현상임을 보여줍니다. PROB Task 1에서 256-D 디코더 쿼리 (decoder query)에 대한 선형 프로브 (linear probe)는 양성 대 음성 미지 객체 판별에서 0.908의 AUROC를 달성하지만, 최종 1차원 객체성 스칼라 (objectness scalar)는 0.642로 떨어집니다. 탐지기에 접근하지 않는 동결된 SigLIP 특징 (frozen SigLIP feature)은 필터링 단계에서 이러한 제안 수준의 분리 가능성 (proposal-level separability)의 상당 부분을 독립적으로 회복합니다 (AUROC = 0.871). 이러한 발견에 착안하여, 우리는 DualMem을 제안합니다. DualMem은 별도로 분리된 미래 작업 객체에 대한 작은 이미지 불일치 주석 보정 분할 (image-disjoint annotated calibration split)이 있다고 가정하고, 동결된 SigLIP 특징 공간에서 비모수적 우도비 검정 (non-parametric likelihood ratio test)을 수행하는 보정된 사후 필터 (calibrated post-hoc filter)입니다. DualMem은 미래 작업 객체를 보호하기 위한 k-최근접 이웃 양성 메모리 (k-nearest-neighbor positive memory)와 배경과 유사한 제안을 억제하기 위한 음성 메모리 (negative memory)를 사용합니다. 결정 임계값 (decision threshold)은 Neyman-Pearson 보정 (Neyman-Pearson calibration)에 의해 선택되어, 사용자에게 미지 객체 오탐 억제 (false-unknown suppression)와 새로운 객체 재현율 (novel recall) 사이의 명시적인 트레이드오프 (trade-off)를 제공합니다. M-OWODB Task 1의 PROB, OW-DETR, HypOW 전반에 걸쳐 DualMem은 이미지당 배경 유형의 미지 객체 오탐 제안을 44.9%-66.3% 감소시켰으며, 평균 감소율은 56.6%였습니다. PROB Task 1에서 DualMem은 자연적인 K-means 프로토타입 베이스라인 (natural K-means prototype baseline)이 달성한 감소량을 두 배 이상 높였으며, 알려진 탐지 결과는 필터를 우회하기 때문에 알려진 클래스의 mAP에는 영향을 주지 않았습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기