Global Average Pooling에 대한 재고: 당신의 분류기는 비밀리에 Multi-Instance Learner이다
요약
현대 이미지 분류기의 Global Average Pooling(GAP) 구조가 본질적으로 Multiple-Instance Learning(MIL)과 유사하게 작동함을 분석합니다. 이를 통해 이미지 레벨의 예측이 틀리더라도 공간적 클래스 증거를 추출하고 사후 진단할 수 있는 방법을 제시합니다.
핵심 포인트
- GAP 구조는 이미지를 공간적 인스턴스들의 집합(bag)으로 취급하는 MIL로 해석 가능함
- 표준 분류기는 다중 객체 장면에서도 의도된 분류 작업을 수행할 수 있음
- 이미지 레벨 로짓을 예측 그리드로 분해하여 공간적 클래스 증거 추출 가능
- 분류 실패는 평균 집계(mean aggregation) 과정의 한계에서 기인할 수 있음
현대의 이미지 분류기(image classifiers)는 Global Average Pooling (GAP)과 그 뒤를 잇는 선형 분류 헤드(linear classification head)를 널리 채택하고 있습니다. 이러한 선형성은 이미지 레벨의 로짓(logits)이 GAP 이전의 특징 그리드(feature grid)에 분류 헤드를 포인트별(pointwise)로 적용하여 얻은 로짓들의 평균과 동일함을 보장합니다. 결과적으로, 표준 분류기들은 이미지 레벨의 예측이 틀렸을 때조차 복구 가능한 공간적 클래스 증거(spatial class evidence)를 본질적으로 유지할 수 있습니다. 이러한 구조는 이미지를 공간적 인스턴스(spatial instances)들의 백(bag)으로 간주하는 Multiple-Instance Learning (MIL) 해석을 자연스럽게 시사합니다. 이러한 정식화 내에서, 우리는 이미지당 단일 레이블로 학습된 표준 분류기가 다중 객체 장면(multi-object scenes)에서도 의도된 분류 작업을 여전히 학습할 수 있음을 입증합니다. 나아가 우리는 이 속성을 활용하여 이미지 레벨의 로짓을 예측 그리드(prediction grid)로 분해함으로써, GAP가 가려버리는 공간적 클래스 증거를 추출할 수 있는 사후 진단(post-hoc diagnostic) 방법을 제공합니다. 우리의 체계적인 평가에 따르면, 기성 모델(off-the-shelf models)들은 전경 영역(foreground regions) 내에서 정답 클래스(ground-truth class)를 일관되게 복구해냅니다. MIL 해석은 또한 일반적인 분류기의 실패가 평균 집계(mean aggregation)의 알려진 한계를 반영한다는 점을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기