최신 경량 CNN은 자원 제약 조건 하에서 더 나은 성능을 보이는가? 아키텍처, 초기화, 훈련 예산 및 효율성에 관한 통제된 다세대 연구

최신 경량 합성곱 신경망 (CNN)은 종종 예측 성능과 배포 효율성을 개선하는 것으로 제시되지만, 이러한 주장은 통제된 평가를 필요로 합니다. 본 연구는 공유된 다운스트림 프로토콜 하에서 CIFAR-10, CIFAR-100 및 Tiny ImageNet을 대상으로 9개의 경량 CNN 모델 패키지를 비교합니다. 우리는 top-1 정확도 (top-1 accuracy), macro F1, top-5 정확도 (top-5 accuracy), 파라미터 수 (parameter count), FP32 저장 용량 (FP32 storage), GMACs, NVIDIA L4 및 AMD Ryzen 5 5500U CPU에서의 배치 크기 1 (batch-size-1) 지연 시간 (latency), 피크 PyTorch CUDA 할당 텐서 메모리 (peak PyTorch CUDA allocated tensor memory), 그리고 점 추정 파레토 프런티어 (point estimate Pareto frontiers)를 보고합니다. EfficientNetV2-S는 CIFAR-10 및 CIFAR-100에서 각각 97.57%와 86.98%로 가장 높은 관찰된 top-1 정확도를 달성한 반면, RepViT-M1.0은 Tiny ImageNet에서 79.87%로 앞섭니다. EfficientNet-B0는 EfficientNetV2-S보다 약 79% 적은 파라미터와 86% 적은 GMACs를 사용하면서도, 세 데이터셋에서 최고 결과와 각각 0.22, 0.85, 1.79 퍼센트 포인트 이내의 차이를 유지합니다. 또한 모든 평가된 정확도 및 자원 파레토 프런티어에 등장하여, 가장 일관되게 경쟁력 있는 중간 예산 (intermediate-budget) 옵션임을 보여줍니다. MobileNetV3-Small은 가장 낮은 GMAC 수를 기록하며, 두 CPU 스레드 설정 모두에서 가장 빠른 모델이고, 세 데이터셋 모두에서 MobileNetV4-Conv-S보다 높은 관찰된 정확도를 기록합니다. 무작위 초기화 (random initialization) 하에서, 이는 MobileNetV4-Conv-S를 2.55, 1.76, 0.99 포인트 차이로 앞서며, 고정된 학습 모델에 대한 쌍을 이룬 테스트 세트 구간은 0을 포함하지 않습니다. EfficientNet-B0는 기록된 훈련 시간보다 약 5배의 시간이 필요함에도 불구하고, 100 에포크 (epochs)의 스크래치 훈련 (scratch training) 후 사전 학습된 (pretrained) 모델보다 3.29, 10.10, 17.54 포인트 낮게 유지됩니다. SqueezeNet1.1은 가장 적은 파라미터와 가장 낮은 피크 CUDA 할당량을 가지지만, 정확도는 상당히 낮습니다. 지연 시간 순위는 L4와 CPU 환경 사이에서 급격히 달라지며, 이는 GMACs만으로는 측정된 추론 성능을 예측할 수 없음을 보여줍니다. 전반적으로, 최신 설계는 보편적인 이득보다는 선택적인 이득을 제공합니다.

Insights

최신 경량 CNN은 자원 제약 조건 하에서 더 나은 성능을 보이는가? 아키텍처, 초기화, 훈련 예산 및 효율성에 관한 통제된 다세대 연구

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때