대형 비전 언어 모델의 구조적 가지치기: 가지치기 역학, 복구 및 데이터 효율성에 대한 포괄적 연구
요약
본 연구는 대형 비전 언어 모델(LVLMs)을 제한된 자원의 엣지 디바이스에 효율적으로 배포하기 위한 구조적 가지치기 및 경량 복구 학습 방법을 제안합니다. 레이어별/너비별 가지치기를 적용하고, 지도 학습과 지식 증류를 결합하여 성능 저하를 최소화하는 다양한 복구 전략을 탐구했습니다. 특히, 적은 데이터(원본의 5%)만으로도 높은 수준의 복구가 가능하며, 너비별 가지치기가 자원이 제한적인 환경에서 우수한 성능을 보임을 입증했습니다.
핵심 포인트
- LVLMs를 엣지 디바이스에 배포하기 위해 구조적 가지치기(structural pruning)와 경량 복구 학습(lightweight recovery training)의 조합을 제안합니다.
- 레이어별 및 너비별 가지치기 패러다임을 탐구하고, 이를 지도 학습 및 지식 증류 기법과 결합하여 성능 저하를 최소화했습니다.
- 데이터가 부족한 저자원 시나리오에서도 원본 데이터의 5%만 사용하여 원래 성능의 95% 이상을 복구할 수 있음을 입증했습니다.
- 너비별 가지치기(widthwise pruning)는 계산 자원이 제한적이거나 충분한 파인튜닝 데이터가 없는 환경에서 특히 효과적입니다.
대형 비전 언어 모델 (LVLMs) 은 놀라운 능력을 보여주지만, 막대한 계산 자원과 메모리 요구 사항으로 인해 제한된 자원을 가진 엣지 디바이스에서의 배포에 어려움을 겪습니다. 현재 파라미터 감소 기법은 주로 작은 언어 모델을 기반으로 LVLM 을 학습시키는 방식을 취하지만, 이러한 방법은 유연성이 제한적이며 여전히 계산 비용이 많이 듭니다. 우리는 보완적인 접근법인 기존 LVLM 의 구조적 가지치기 (structural pruning) 를 언어 모델 백본에 적용하고, 그 후 경량 복구 학습 (lightweight recovery training) 을 수행하는 방법을 연구합니다. 구체적으로, 레이어별 (layerwise) 과 너비별 (widthwise) 가지치기라는 두 가지 구조적 가지치기 패러다임을 탐구하며, 이를 로짓 (logits) 과 은닉 상태 (hidden states) 에 대한 지도 학습 (supervised finetuning) 과 지식 증류 (knowledge distillation) 와 결합합니다. 또한, 이용 가능한 데이터의 소수 분율만을 사용하여 복구 학습을 수행하는 가능성을 평가합니다. 우리의 결과는 너비별 가지치기가 계산 자원이 제한적이거나 충분한 파인튜닝 데이터가 없는 저자원 시나리오에서 일반적으로 더 나은 성능을 유지함을 보여줍니다. 복구 학습에 관해서는, 작은 압축 수준에서는 다중 모달 프로젝터 (multimodal projector) 만 파인튜닝하는 것이 충분합니다. 또한, 지도 학습과 은닉 상태 증류의 조합은 다양한 가지치기 수준에서 최적의 복구를 제공합니다. 주목할 점은 원본 데이터의 5% 만 사용하여도 원래 성능의 95% 이상을 유지하면서 효과적인 복구가 가능하다는 것입니다. 3B 에서 7B 파라미터 범위의 세 가지 대표적인 LVLM 패밀리에 대한 경험적 연구를 통해, 이 연구는 광범위한 계산 자원이나 충분한 데이터 없이도 LVLM 을 압축할 수 있는 실무자에게 실행 가능한 통찰력을 제공합니다. 소스 코드는 https://github.com/YiranHuangIrene/VLMCompression.git 에서 이용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기