arXiv논문2026. 04. 29. 01:53

대형 비전 언어 모델의 구조적 가지치기: 가지치기 역학, 복구 및 데이터 효율성에 대한 포괄적 연구

요약

본 연구는 대형 비전 언어 모델(LVLMs)을 제한된 자원의 엣지 디바이스에 효율적으로 배포하기 위한 구조적 가지치기 및 경량 복구 학습 방법을 제안합니다. 레이어별/너비별 가지치기를 적용하고, 지도 학습과 지식 증류를 결합하여 성능 저하를 최소화하는 다양한 복구 전략을 탐구했습니다. 특히, 적은 데이터(원본의 5%)만으로도 높은 수준의 복구가 가능하며, 너비별 가지치기가 자원이 제한적인 환경에서 우수한 성능을 보임을 입증했습니다.

핵심 포인트

LVLMs를 엣지 디바이스에 배포하기 위해 구조적 가지치기(structural pruning)와 경량 복구 학습(lightweight recovery training)의 조합을 제안합니다.
레이어별 및 너비별 가지치기 패러다임을 탐구하고, 이를 지도 학습 및 지식 증류 기법과 결합하여 성능 저하를 최소화했습니다.
데이터가 부족한 저자원 시나리오에서도 원본 데이터의 5%만 사용하여 원래 성능의 95% 이상을 복구할 수 있음을 입증했습니다.
너비별 가지치기(widthwise pruning)는 계산 자원이 제한적이거나 충분한 파인튜닝 데이터가 없는 환경에서 특히 효과적입니다.

대형 비전 언어 모델 (LVLMs) 은 놀라운 능력을 보여주지만, 막대한 계산 자원과 메모리 요구 사항으로 인해 제한된 자원을 가진 엣지 디바이스에서의 배포에 어려움을 겪습니다. 현재 파라미터 감소 기법은 주로 작은 언어 모델을 기반으로 LVLM 을 학습시키는 방식을 취하지만, 이러한 방법은 유연성이 제한적이며 여전히 계산 비용이 많이 듭니다. 우리는 보완적인 접근법인 기존 LVLM 의 구조적 가지치기 (structural pruning) 를 언어 모델 백본에 적용하고, 그 후 경량 복구 학습 (lightweight recovery training) 을 수행하는 방법을 연구합니다. 구체적으로, 레이어별 (layerwise) 과 너비별 (widthwise) 가지치기라는 두 가지 구조적 가지치기 패러다임을 탐구하며, 이를 로짓 (logits) 과 은닉 상태 (hidden states) 에 대한 지도 학습 (supervised finetuning) 과 지식 증류 (knowledge distillation) 와 결합합니다. 또한, 이용 가능한 데이터의 소수 분율만을 사용하여 복구 학습을 수행하는 가능성을 평가합니다. 우리의 결과는 너비별 가지치기가 계산 자원이 제한적이거나 충분한 파인튜닝 데이터가 없는 저자원 시나리오에서 일반적으로 더 나은 성능을 유지함을 보여줍니다. 복구 학습에 관해서는, 작은 압축 수준에서는 다중 모달 프로젝터 (multimodal projector) 만 파인튜닝하는 것이 충분합니다. 또한, 지도 학습과 은닉 상태 증류의 조합은 다양한 가지치기 수준에서 최적의 복구를 제공합니다. 주목할 점은 원본 데이터의 5% 만 사용하여도 원래 성능의 95% 이상을 유지하면서 효과적인 복구가 가능하다는 것입니다. 3B 에서 7B 파라미터 범위의 세 가지 대표적인 LVLM 패밀리에 대한 경험적 연구를 통해, 이 연구는 광범위한 계산 자원이나 충분한 데이터 없이도 LVLM 을 압축할 수 있는 실무자에게 실행 가능한 통찰력을 제공합니다. 소스 코드는 https://github.com/YiranHuangIrene/VLMCompression.git 에서 이용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

대형 비전 언어 모델의 구조적 가지치기: 가지치기 역학, 복구 및 데이터 효율성에 대한 포괄적 연구

요약

핵심 포인트

댓글