arXiv논문2026. 06. 15. 11:37

Global Average Pooling에 대한 재고: 당신의 분류기는 비밀리에 Multi-Instance Learner이다

요약

현대 이미지 분류기의 Global Average Pooling(GAP) 구조가 본질적으로 Multiple-Instance Learning(MIL)과 유사하게 작동함을 분석합니다. 이를 통해 이미지 레벨의 예측이 틀리더라도 공간적 클래스 증거를 추출하고 사후 진단할 수 있는 방법을 제시합니다.

핵심 포인트

GAP 구조는 이미지를 공간적 인스턴스들의 집합(bag)으로 취급하는 MIL로 해석 가능함
표준 분류기는 다중 객체 장면에서도 의도된 분류 작업을 수행할 수 있음
이미지 레벨 로짓을 예측 그리드로 분해하여 공간적 클래스 증거 추출 가능
분류 실패는 평균 집계(mean aggregation) 과정의 한계에서 기인할 수 있음

현대의 이미지 분류기(image classifiers)는 Global Average Pooling (GAP)과 그 뒤를 잇는 선형 분류 헤드(linear classification head)를 널리 채택하고 있습니다. 이러한 선형성은 이미지 레벨의 로짓(logits)이 GAP 이전의 특징 그리드(feature grid)에 분류 헤드를 포인트별(pointwise)로 적용하여 얻은 로짓들의 평균과 동일함을 보장합니다. 결과적으로, 표준 분류기들은 이미지 레벨의 예측이 틀렸을 때조차 복구 가능한 공간적 클래스 증거(spatial class evidence)를 본질적으로 유지할 수 있습니다. 이러한 구조는 이미지를 공간적 인스턴스(spatial instances)들의 백(bag)으로 간주하는 Multiple-Instance Learning (MIL) 해석을 자연스럽게 시사합니다. 이러한 정식화 내에서, 우리는 이미지당 단일 레이블로 학습된 표준 분류기가 다중 객체 장면(multi-object scenes)에서도 의도된 분류 작업을 여전히 학습할 수 있음을 입증합니다. 나아가 우리는 이 속성을 활용하여 이미지 레벨의 로짓을 예측 그리드(prediction grid)로 분해함으로써, GAP가 가려버리는 공간적 클래스 증거를 추출할 수 있는 사후 진단(post-hoc diagnostic) 방법을 제공합니다. 우리의 체계적인 평가에 따르면, 기성 모델(off-the-shelf models)들은 전경 영역(foreground regions) 내에서 정답 클래스(ground-truth class)를 일관되게 복구해냅니다. MIL 해석은 또한 일반적인 분류기의 실패가 평균 집계(mean aggregation)의 알려진 한계를 반영한다는 점을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Global Average Pooling에 대한 재고: 당신의 분류기는 비밀리에 Multi-Instance Learner이다

요약

핵심 포인트

댓글