arXiv논문2026. 05. 06. 16:51

고성능 모바일 NPU 를 위한 지식 증류 기반 실용 이미지 노이즈 제거

요약

본 논문은 모바일 NPU 환경에 최적화된 실용적인 이미지 노이즈 제거 모델을 제안합니다. 고성능의 Teacher 네트워크 지식을 경량화된 Student 네트워크로 증류하는 '하드웨어 인식 지식 증류' 방법을 사용하며, 이는 모바일 SoC의 타일 메모리 구조와 NPU 네이티브 연산자(3x3 컨볼루션 등)를 적극적으로 활용합니다. 그 결과, 파라미터 수를 획기적으로 줄이면서도 높은 복원 품질을 유지하고, 전용 NPU 실행 시 통합 GPU 대비 월등히 빠른 추론 속도를 달성하여 모바일 AI 배포의 실용성을 크게 향상시켰습니다.

핵심 포인트

하드웨어 알고리즘 공학적 설계(hardware-algorithm co-design)를 통해 모바일 NPU에 최적화된 이미지 노이즈 제거 솔루션을 제시함.
지식 증류(Knowledge Distillation) 기법을 활용하여 고성능 Teacher 모델의 지식을 경량 Student 모델로 전이시키면서도 성능 저하를 최소화함.
NPU 네이티브 연산자 및 타일 메모리 구조를 우선시하는 설계 전략으로, 모바일 SoC에서 높은 효율성과 낮은 오버헤드를 달성함.
전용 NPU 실행의 이점을 'Inference Inversion' 효과로 정의하며, 통합 GPU 대비 최대 3.88배 빠른 추론 속도를 입증함.
파라미터 수를 대폭 줄이면서도 복원 품질(PSNR/SSIM)을 유지하여 모바일 환경에서의 실용적인 배포 가능성을 높임.

딥러닝 기반 이미지 복원 기술은 예전보다 훨씬 높은 fidelity(정밀도)를 달성했지만, 모바일 Neural Processing Units (NPU) 상의 배포는 연산자 호환성 문제와 메모리 접근 오버헤드로 인해 여전히 제한적입니다. 우리는 모바일 NPU 의 실용적인 이미지 노이즈 제거에 특화된 하드웨어 알고리즘 공학적 설계 (hardware-algorithm co-design) 방법을 제안합니다.

우리의 방법은 고해상도 teacher 를 사용하여 현대 모바일 SoC 의 tiled-memory(타일 메모리) 구조를 효과적으로 활용할 수 있도록 경량화된 student 네트워크를 감독합니다. NPU 네이티브 primitives -- 표준 3x3 컨볼루션, ReLU 활성화 함수, 그리고 nearest-neighbor 업샘플링을 우선시하고, 점진적 context expansion 전략 (최대 1024x1024 크롭) 을 적용함으로써, Mobile AI 2026 challenge 의 검증 벤치마크에서 37.66 dB PSNR / 0.9278 SSIM, 홀드아웃 테스트 벤치마크에서 37.58 dB PSNR / 0.9098 SSIM 을 달성했습니다 (풀 해상도 2432x3200).

공식적인 challenge 규칙에 따라 추론 실행 시간은 표준화된 Full HD (1088x1920) 프로토콜 하에서 측정되었으며, MediaTek Dimensity 9500 에서 34.0 ms, Qualcomm Snapdragon 8 Elite NPU 에서 46.1 ms 로 실행됩니다. 우리는 엄격한 NPU 호환성 연산 준수가 전용 NPU 실행을 통합 모바일 GPU 보다 최대 3.88 배 빠르게 수행할 수 있음을 'Inference Inversion' 효과라고 명명합니다.

1.96M 파라미터의 student 는 high-alpha 지식 증류 (alpha = 0.9) 를 통해 teacher 의 복원 품질의 99.8% 를 회복하며, PSNR 간격을 1.63 dB 에서 0.05 dB 로만 좁히면서 21.2 배의 파라미터 감소를 달성했습니다. 이러한 결과는 하드웨어 인식 증류가 다양한 모바일 NPU 아키텍처에 걸쳐 고 fidelity 노이즈 제거와 실용적인 배포를 통합하는 효과적인 전략임을 입증합니다. 제안된 경량화된 student 모델 (LiteDenoiseNet) 과 그 훈련 통계는 NN Dataset 에서 제공되며, 주소는 https://github.com/ABrain-One/NN-Dataset 입니다.

AI 자동 생성 콘텐츠

원문 바로가기

고성능 모바일 NPU 를 위한 지식 증류 기반 실용 이미지 노이즈 제거

요약

핵심 포인트

댓글