Squeeze-Release: 정확한 구조적 최소화를 통한 반복적 가지치기 (Iterative Pruning)
요약
Squeeze-Release는 가지치기(Pruning)와 최소화(Minimization)를 반복하여 모델의 구조적 중복성을 제거하는 새로운 연구입니다. 이를 통해 모델의 정확도를 유지하면서도 크기를 획기적으로 줄이는 정확한 구조적 재작성 방식을 제안합니다.
핵심 포인트
- 가지치기 후 텐서 형상을 실제로 줄이는 구조적 재작성 방식 제시
- Squeeze-Release 사이클을 통해 구조적 중복성을 반복적으로 제거
- CompensatedLayerNorm을 도입하여 채널 감소 및 기능 보존 가능
- 완전 연결 모델에서 최대 39배, CNN에서 14.8배 압축 성능 달성
- Transformer 아키텍처로의 확장 가능성 증명
비구조적 가지치기 (Unstructured pruning)는 희소 가중치 텐서 (sparse weight tensors)를 생성하지만, 표준 구현 방식은 텐서 형상 (tensor shapes)을 변경하지 않은 채 유지하므로 배포된 모델의 크기가 가지치기 전보다 작아지지 않습니다. 우리는 마스크 처리된 네트워크를 부동 소수점 반올림 오차 범위 내에서 동일한 순전파 함수 (forward function)를 갖는 더 작은 밀집 네트워크 (dense network)로 변환하는, 우리가 최소화 (minimization)라고 부르는 정확한 구조적 재작성 (structural rewrite) 방식을 제시합니다. Squeeze-Release 사이클은 가지치기 (pruning)와 최소화 (minimization)를 반복하며, 그 사이에 압축된 텐서 내부의 정확한 zero 위치를 작은 보정된 노이즈 (calibrated noise)로 다시 활성화하여, 그렇지 않으면 낭비되었을 용량을 다시 학습 가능한 파라미터 (trainable parameters)로 전환하는 중간 단계인 릴리스 (release) 단계를 포함합니다. 연속적인 사이클은 이 용량을 사용하여 단일 패스 (single pass)로는 도달할 수 없는 구조적 중복성 (structural redundancy)을 찾아냅니다. 또한, 우리는 LayerNorm이 장착된 잔차 스트림 (residual streams) 전반에 걸쳐 채널 감소 (channel reduction)까지 최소화를 확장할 수 있도록, LayerNorm을 기능 보존형으로 대체하는 CompensatedLayerNorm을 도입합니다. Squeeze-Release는 완전 연결 모델 (fully-connected model) 네트워크에서는 가지치기되지 않은 모델보다 39배 더 작게, 현대적인 CNN (ConvNeXt-Tiny)에서는 14.8배 더 작게 압축하면서도 유사한 정확도를 유지합니다. 또한, 우리는 이 재작성 방식이 트랜스포머 (transformer) 아키텍처로 확장될 수 있음을 증명합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기