최신 경량 CNN은 자원 제약 조건 하에서 더 나은 성능을 보이는가? 아키텍처, 초기화, 훈련 예산 및 효율성에 관한 통제된 다세대 연구
요약
본 연구는 다양한 경량 CNN 모델들의 성능과 자원 효율성을 CIFAR 및 Tiny ImageNet 데이터셋을 통해 비교 분석합니다. 최신 설계가 항상 보편적인 이득을 제공하지 않으며, 하드웨어 환경에 따라 지연 시간이 달라질 수 있음을 입증합니다.
핵심 포인트
- EfficientNetV2-S가 CIFAR 데이터셋에서 가장 높은 정확도를 기록함
- EfficientNet-B0는 적은 파라미터와 GMACs로도 매우 경쟁력 있는 효율성을 보임
- MobileNetV3-Small은 낮은 GMACs와 가장 빠른 추론 속도를 기록함
- GMACs 수치만으로는 실제 하드웨어에서의 추론 성능을 예측하기 어려움
- 최신 경량 모델 설계는 특정 조건에서만 선택적인 이득을 제공함
최신 경량 합성곱 신경망 (CNN)은 종종 예측 성능과 배포 효율성을 개선하는 것으로 제시되지만, 이러한 주장은 통제된 평가를 필요로 합니다. 본 연구는 공유된 다운스트림 프로토콜 하에서 CIFAR-10, CIFAR-100 및 Tiny ImageNet을 대상으로 9개의 경량 CNN 모델 패키지를 비교합니다. 우리는 top-1 정확도 (top-1 accuracy), macro F1, top-5 정확도 (top-5 accuracy), 파라미터 수 (parameter count), FP32 저장 용량 (FP32 storage), GMACs, NVIDIA L4 및 AMD Ryzen 5 5500U CPU에서의 배치 크기 1 (batch-size-1) 지연 시간 (latency), 피크 PyTorch CUDA 할당 텐서 메모리 (peak PyTorch CUDA allocated tensor memory), 그리고 점 추정 파레토 프런티어 (point estimate Pareto frontiers)를 보고합니다. EfficientNetV2-S는 CIFAR-10 및 CIFAR-100에서 각각 97.57%와 86.98%로 가장 높은 관찰된 top-1 정확도를 달성한 반면, RepViT-M1.0은 Tiny ImageNet에서 79.87%로 앞섭니다. EfficientNet-B0는 EfficientNetV2-S보다 약 79% 적은 파라미터와 86% 적은 GMACs를 사용하면서도, 세 데이터셋에서 최고 결과와 각각 0.22, 0.85, 1.79 퍼센트 포인트 이내의 차이를 유지합니다. 또한 모든 평가된 정확도 및 자원 파레토 프런티어에 등장하여, 가장 일관되게 경쟁력 있는 중간 예산 (intermediate-budget) 옵션임을 보여줍니다. MobileNetV3-Small은 가장 낮은 GMAC 수를 기록하며, 두 CPU 스레드 설정 모두에서 가장 빠른 모델이고, 세 데이터셋 모두에서 MobileNetV4-Conv-S보다 높은 관찰된 정확도를 기록합니다. 무작위 초기화 (random initialization) 하에서, 이는 MobileNetV4-Conv-S를 2.55, 1.76, 0.99 포인트 차이로 앞서며, 고정된 학습 모델에 대한 쌍을 이룬 테스트 세트 구간은 0을 포함하지 않습니다. EfficientNet-B0는 기록된 훈련 시간보다 약 5배의 시간이 필요함에도 불구하고, 100 에포크 (epochs)의 스크래치 훈련 (scratch training) 후 사전 학습된 (pretrained) 모델보다 3.29, 10.10, 17.54 포인트 낮게 유지됩니다. SqueezeNet1.1은 가장 적은 파라미터와 가장 낮은 피크 CUDA 할당량을 가지지만, 정확도는 상당히 낮습니다. 지연 시간 순위는 L4와 CPU 환경 사이에서 급격히 달라지며, 이는 GMACs만으로는 측정된 추론 성능을 예측할 수 없음을 보여줍니다. 전반적으로, 최신 설계는 보편적인 이득보다는 선택적인 이득을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기