arXiv논문2026. 06. 25. 11:45

신경망 압축을 위한 계층적 강화학습 (HiReLC): 가지치기 (Pruning) 및 양자화 (Quantization)

요약

심층 신경망의 자동화된 양자화 및 가지치기를 위한 계층적 강화학습 프레임워크인 HiReLC를 제안합니다. 저수준과 고수준 에이전트가 협력하여 커널 설정과 전역 예산을 최적화하며, 대리 모델을 통해 계산 효율성을 높였습니다.

핵심 포인트

계층적 강화학습을 통한 양자화 및 가지치기 자동화
저수준/고수준 에이전트의 분리된 역할 수행
대리 모델(Surrogate)을 활용한 정책 평가 비용 절감
Vision Transformer 및 CNN에서 높은 압축률 입증
아키텍처에 구애받지 않는 모듈형 레이어 추상화

우리는 심층 신경망 (Deep Neural Networks)의 자동화된 공동 양자화 (Quantization) 및 구조적 가지치기 (Structured Pruning)를 위한 계층적 앙상블 강화학습 (Hierarchical Ensemble-Reinforcement Learning) 프레임워크인 HiReLC를 제시합니다. 이 프레임워크는 압축 탐색을 두 가지 추상화 수준으로 분해합니다. 저수준 에이전트 (Low-Level Agents, LLAs)는 블록별로 독립적으로 작동하며, 비트 너비 (Bitwidth), 가지치기 유지 비율 (Pruning Keep-ratio), 양자화 유형 (Quantization Type) 및 입도 (Granularity)를 아우르는 다중 이산 행동 공간 (Multi-discrete Action Space)에 대해 커널별 설정을 선택합니다. 반면 고수준 에이전트 (High-Level Agents, HLAs)는 Fisher 정보 기반의 민감도 추정치 (Sensitivity Estimates)에 의해 유도되는 앙상블 투표를 통해 전역 예산 할당 (Global Budget Allocation)을 조정합니다. 정책 평가 (Policy Evaluation)의 계산 비용을 완화하기 위해, 반복적인 능동 학습 (Active Learning) 루프는 대리 모델 가이드 강화학습 (Surrogate-guided RL) 최적화와 압축 후 미세 조정 (Post-compression Fine-tuning)을 교차 수행하며, 가벼운 MLP 대리 모델 (Surrogate)을 사용하여 비용이 많이 드는 평가를 분할 상환 (Amortize)하고 콜드 스타트 (Cold-start) 기간 동안에는 logit-MSE 프록시 (Proxy)를 사용합니다. 대리 모델은 최종 압축 후 평가를 대체하기보다는 보상 형성 (Reward Shaping)을 위해 사용됩니다. 컨트롤러는 설계 단계부터 아키텍처에 구애받지 않으며 (Architecture-agnostic), RL 환경을 기저의 네트워크 토폴로지 (Network Topology)로부터 분리하는 모듈형 레이어 추상화 (Modular Layer Abstraction)를 갖추고 있습니다. Vision Transformer 및 CNN 벤치마크 전반에 걸친 실험 결과, 한 설정에서는 3.83%의 이득과 함께 5.99 - 6.72$ imes$의 효과적인 파라미터 저장 용량 압축률을 보여주었으며, 다른 설정에서는 0.55 - 5.62%의 정확도 하락을 보였습니다. 이는 계층적 정책 분해 (Hierarchical Policy Decomposition)와 민감도 인식 가이드 (Sensitivity-aware Guidance)가 공동 신경망 압축을 위한 실용적인 설계 선택임을 뒷받침합니다.

AI 자동 생성 콘텐츠

원문 바로가기

신경망 압축을 위한 계층적 강화학습 (HiReLC): 가지치기 (Pruning) 및 양자화 (Quantization)

요약

핵심 포인트

댓글