본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 05. 26. 14:21

MaxPooling과 AveragePooling 비교: CIFAR-10에서 MNIST와 반대 결과가 나온 이유 [Keras 실험]

요약

CIFAR-10 데이터셋을 활용해 CNN의 중간층 Pooling 방식(Max vs Avg)에 따른 성능 차이를 실험했습니다. 데이터의 특성에 따라 MaxPooling이 자연 이미지의 질감과 윤곽 유지에 더 유리함을 입증했습니다.

핵심 포인트

  • CIFAR-10에서는 MaxPooling이 AveragePooling보다 약 4.2% 높은 정확도를 보임
  • AveragePooling은 계산 비용이 낮아 학습 속도가 약 25초 빠름
  • 단순 선화(MNIST)는 AveragePooling이, 복잡한 자연 이미지(CIFAR-10)는 MaxPooling이 유리함
  • Pooling 방식은 학습 파라미터 수에 영향을 주지 않음

CNN을 사용하면서 '왠지 모르게 MaxPooling을 쓰고 있다'고 생각하는 분들이 많지 않을까요?

'MaxPooling이 더 강한 특징(feature)을 남기기 때문에 정확도가 높다'는 것은 직관적으로 그렇게 생각할 수 있습니다. 하지만 정말 그럴까요? MNIST로 실험했을 때는 AveragePooling이 우세했다는 결과도 있었기에, 데이터셋에 따라 결과가 역전될 것이라는 가설을 실험으로 검증해 보았습니다.

이번에는 CIFAR-10(컬러 자연 이미지)을 사용하여 중간층의 Pooling 종류를 3가지 패턴으로 비교했습니다. 최종층의 GAP vs GMP를 비교한 것이 아니라, 순수하게 중간층의 다운샘플링 연산 자체를 비교하는 것입니다.

결과 요약

패턴Test Acc학습 시간파라미터 수
A: Max+Max67.47%124.7초93,450
B: Avg+Avg63.30%100.0초93,450
C: Max→Avg (Mix)64.36%114.1초93,450

A: MaxMax — CIFAR-10에서는 최고 정확도

MaxMax(67.47%)가 AvgAvg(63.30%)보다 약 4.2 포인트 높았습니다.

CIFAR-10은 '비행기, 개, 말, 자동차' 등 사물의 윤곽이나 질감(texture)이 분류의 결정적인 요소가 되는 자연 이미지 데이터셋입니다. MaxPooling이 에지나 국소적이고 강한 반응을 유지함으로써, 후속 Conv 레이어에 더 풍부한 특징을 전달했다고 생각됩니다.

B: AvgAvg — 정확도는 낮지만 학습 속도가 약 25초 빠름

AvgAvg는 MaxMax보다 약 25초 동안 학습이 빠른 결과도 나왔습니다. AveragePooling은 덧셈과 나눗셈만으로 이루어지기 때문에, MaxPooling의 '비교 + 최대값 선택' 방식보다 계산 비용(computational cost)이 낮기 때문입니다.

정확도를 다소 희생하더라도 속도를 우선하고 싶은 상황에서는 고려해 볼 수 있는 선택지입니다.

C: Mix (Max→Avg) — 중간 결과로, MaxMax에는 미치지 못함

Mix 패턴은 MaxMax와 AvgAvg의 중간(64.36%)에 머물렀습니다. 전단에서 MaxPooling을 통해 강한 특징을 유지했더라도, 후단에서 AveragePooling으로 평활화(smoothing)되어 버리기 때문이라고 생각됩니다.

EfficientNet 등에서 채택되는 설계 방식이지만, 이번처럼 단순한 2개 레이어 구성에서는 효과가 제한적이었습니다.

왜 MNIST와는 반대 결과가 나왔을까

이전에 MNIST로 실험했을 때는 AveragePooling이 약간 더 높았습니다. CIFAR-10에서 결과가 역전된 이유는 데이터의 성질(nature)로 설명할 수 있습니다.

데이터셋이미지 특성유리한 Pooling
MNIST흰 배경에 검은 선화/단순 윤곽AveragePooling
CIFAR-10복잡한 자연 이미지/질감/배경 포함MaxPooling

MNIST는 배경과의 경계가 명확하고 전체적인 형태 파악이 중요하기 때문에, 평균화를 통한 노이즈 억제가 효과적입니다. 반면 CIFAR-10은 사물의 윤곽, 털의 질감, 타이어의 에지 등 '국소적으로 강한 반응'이 분류의 결정 요소가 되기 때문에, 최대값 유지가 효과적입니다.

판단 기준: 선화/단순 형태 → Avg, 자연 이미지/질감이 중요 → Max 가 참고할 만합니다.

참고로: 3가지 패턴 모두 파라미터 수는 동일함

MaxPooling2D와 AveragePooling2D 모두 학습 가능한 파라미터를 가지지 않습니다(Param # = 0). 세 패턴 모두 93,450으로 완전히 동일합니다. '파라미터 수가 같은데 정확도가 최대 4포인트나 다른' 것은, 어떤 특징을 다음 레이어로 전달할지에 대한 정보의 취사선택(selection) 차이만이 원인입니다.

요약

  • CIFAR-10에서는 MaxMax가 AvgAvg보다 약 4.2 포인트 높았습니다 (67.47% vs 63.30%) - MNIST에서는 Avg가 유리했지만, CIFAR-10에서는 역전됨 — 데이터의 성질이 Pooling 선택에 영향을 미침
  • Mix(Max→Avg)는 MaxMax에 도달하지 못하고 중간 결과 — 자연 이미지에서는 강한 특징을 끝까지 유지하는 것이 더 유리함
  • 3가지 패턴 모두 파라미터 수는 동일함 (93,450) — 차이는 학습 가능한 파라미터가 아니라 정보의 취사선택만 있음
  • AvgAvg는 MaxMax보다 약 25초 동안 학습이 빠름 — 정확도 vs 속도의 트레이드오프(trade-off)로 기억할 가치가 있음

실험 코드, 전체 로그, 그래프는 블로그 기사에 공개되어 있습니다.

この記事が参考になったら 좋아요👍 를 주시면 큰 힘이 됩니다!

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn ML의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0