MaxPooling과 AveragePooling 비교: CIFAR-10에서 MNIST와 반대 결과가 나온 이유 [Keras 실험]

요약

CIFAR-10 데이터셋을 활용해 CNN의 중간층 Pooling 방식(Max vs Avg)에 따른 성능 차이를 실험했습니다. 데이터의 특성에 따라 MaxPooling이 자연 이미지의 질감과 윤곽 유지에 더 유리함을 입증했습니다.

핵심 포인트

CIFAR-10에서는 MaxPooling이 AveragePooling보다 약 4.2% 높은 정확도를 보임
AveragePooling은 계산 비용이 낮아 학습 속도가 약 25초 빠름
단순 선화(MNIST)는 AveragePooling이, 복잡한 자연 이미지(CIFAR-10)는 MaxPooling이 유리함
Pooling 방식은 학습 파라미터 수에 영향을 주지 않음

CNN을 사용하면서 '왠지 모르게 MaxPooling을 쓰고 있다'고 생각하는 분들이 많지 않을까요?

'MaxPooling이 더 강한 특징(feature)을 남기기 때문에 정확도가 높다'는 것은 직관적으로 그렇게 생각할 수 있습니다. 하지만 정말 그럴까요? MNIST로 실험했을 때는 AveragePooling이 우세했다는 결과도 있었기에, 데이터셋에 따라 결과가 역전될 것이라는 가설을 실험으로 검증해 보았습니다.

이번에는 CIFAR-10(컬러 자연 이미지)을 사용하여 중간층의 Pooling 종류를 3가지 패턴으로 비교했습니다. 최종층의 GAP vs GMP를 비교한 것이 아니라, 순수하게 중간층의 다운샘플링 연산 자체를 비교하는 것입니다.

결과 요약

패턴	Test Acc	학습 시간	파라미터 수
A: Max+Max	67.47%	124.7초	93,450
B: Avg+Avg	63.30%	100.0초	93,450
C: Max→Avg (Mix)	64.36%	114.1초	93,450

A: MaxMax — CIFAR-10에서는 최고 정확도

MaxMax(67.47%)가 AvgAvg(63.30%)보다 약 4.2 포인트 높았습니다.

CIFAR-10은 '비행기, 개, 말, 자동차' 등 사물의 윤곽이나 질감(texture)이 분류의 결정적인 요소가 되는 자연 이미지 데이터셋입니다. MaxPooling이 에지나 국소적이고 강한 반응을 유지함으로써, 후속 Conv 레이어에 더 풍부한 특징을 전달했다고 생각됩니다.

B: AvgAvg — 정확도는 낮지만 학습 속도가 약 25초 빠름

AvgAvg는 MaxMax보다 약 25초 동안 학습이 빠른 결과도 나왔습니다. AveragePooling은 덧셈과 나눗셈만으로 이루어지기 때문에, MaxPooling의 '비교 + 최대값 선택' 방식보다 계산 비용(computational cost)이 낮기 때문입니다.

정확도를 다소 희생하더라도 속도를 우선하고 싶은 상황에서는 고려해 볼 수 있는 선택지입니다.

C: Mix (Max→Avg) — 중간 결과로, MaxMax에는 미치지 못함

Mix 패턴은 MaxMax와 AvgAvg의 중간(64.36%)에 머물렀습니다. 전단에서 MaxPooling을 통해 강한 특징을 유지했더라도, 후단에서 AveragePooling으로 평활화(smoothing)되어 버리기 때문이라고 생각됩니다.

EfficientNet 등에서 채택되는 설계 방식이지만, 이번처럼 단순한 2개 레이어 구성에서는 효과가 제한적이었습니다.

왜 MNIST와는 반대 결과가 나왔을까

이전에 MNIST로 실험했을 때는 AveragePooling이 약간 더 높았습니다. CIFAR-10에서 결과가 역전된 이유는 데이터의 성질(nature)로 설명할 수 있습니다.

데이터셋	이미지 특성	유리한 Pooling
MNIST	흰 배경에 검은 선화/단순 윤곽	AveragePooling
CIFAR-10	복잡한 자연 이미지/질감/배경 포함	MaxPooling

MNIST는 배경과의 경계가 명확하고 전체적인 형태 파악이 중요하기 때문에, 평균화를 통한 노이즈 억제가 효과적입니다. 반면 CIFAR-10은 사물의 윤곽, 털의 질감, 타이어의 에지 등 '국소적으로 강한 반응'이 분류의 결정 요소가 되기 때문에, 최대값 유지가 효과적입니다.

판단 기준: 선화/단순 형태 → Avg, 자연 이미지/질감이 중요 → Max 가 참고할 만합니다.

참고로: 3가지 패턴 모두 파라미터 수는 동일함

MaxPooling2D와 AveragePooling2D 모두 학습 가능한 파라미터를 가지지 않습니다(Param # = 0). 세 패턴 모두 93,450으로 완전히 동일합니다. '파라미터 수가 같은데 정확도가 최대 4포인트나 다른' 것은, 어떤 특징을 다음 레이어로 전달할지에 대한 정보의 취사선택(selection) 차이만이 원인입니다.

요약

CIFAR-10에서는 MaxMax가 AvgAvg보다 약 4.2 포인트 높았습니다 (67.47% vs 63.30%) - MNIST에서는 Avg가 유리했지만, CIFAR-10에서는 역전됨 — 데이터의 성질이 Pooling 선택에 영향을 미침
Mix(Max→Avg)는 MaxMax에 도달하지 못하고 중간 결과 — 자연 이미지에서는 강한 특징을 끝까지 유지하는 것이 더 유리함
3가지 패턴 모두 파라미터 수는 동일함 (93,450) — 차이는 학습 가능한 파라미터가 아니라 정보의 취사선택만 있음
AvgAvg는 MaxMax보다 약 25초 동안 학습이 빠름 — 정확도 vs 속도의 트레이드오프(trade-off)로 기억할 가치가 있음

실험 코드, 전체 로그, 그래프는 블로그 기사에 공개되어 있습니다.

この記事が参考になったら 좋아요👍 를 주시면 큰 힘이 됩니다!

Discussion

AI 자동 생성 콘텐츠

원문 바로가기