arXiv논문2026. 06. 02. 12:22

레이어에서 서브모듈로: 교체 기반 LLM 압축에서의 입도(Granularity) 재고

요약

LLM의 사후 학습 압축 시 기존의 레이어 단위 방식에서 벗어나 서브모듈 단위로 압축하는 SubFit 기법을 제안합니다. 비연속적인 서브모듈 선택과 경량화된 잔차 바이패스를 통해 높은 정확도와 낮은 퍼플렉시티를 유지하며 추론 속도 및 KV-캐시 효율을 개선합니다.

핵심 포인트

레이어 단위가 아닌 서브모듈 수준의 미세한 압축 입도 도입
비연속적인 어텐션 및 피드포워드 서브모듈 선택 전략
기존 베이스라인 대비 우수한 퍼플렉시티-정확도 트레이드오프 달성
추론 속도 향상 및 KV-캐시 절감 효과 제공

대규모 언어 모델 (LLMs)의 사후 학습 압축 (Post-training compression)은 전체 아키텍처 구성 요소를 삭제하거나, 적합된 모듈 (fitted modules)로 교체하여 제거합니다. 기존의 교체 기반 방법들은 두 가지 설계 제약 사항을 공유합니다: 전체 레이어 단위의 입도 (full-layer granularity)와 연속적인 선택 (contiguous selection)입니다. 우리는 이것이 지나치게 제한적이라고 주장합니다. 실제로 사전 학습된 트랜스포머 (transformers)의 중복성 (redundancy)은 연속적인 영역에 국한되지 않으며, 어텐션 (Attention)과 피드포워드 (FeedForward) 출력 사이에 균등하게 분포되어 있지도 않습니다. 이는 서로 다른 전략이 서로 다른 서브모듈 (submodule) 유형을 가장 잘 근사할 수 있으며, 제거 가능한 구성 요소가 반드시 연속적인 깊이 범위 내에 모여 있을 필요는 없음을 의미합니다. 이러한 직관을 바탕으로, 우리는 서브모듈 수준에서 LLMs를 압축하는 SubFit (Submodule-level Fitted residual replacement)을 소개합니다. SubFit는 어텐션 (Attention) 및 피드포워드 (FeedForward) 서브모듈을 비연속적으로 선택하며, 각 서브모듈은 고유의 경량화된 적합 잔차 바이패스 (fitted residual bypass)를 갖게 됩니다. SubFit는 사후 학습 (post-training) 단계에서 작동하며 교정 데이터 (calibration data)만을 필요로 합니다. 10개의 LLMs (베이스 모델 5개, 인스트럭션 튜닝 모델 5개), 12.5%에서 37.5% 사이의 5가지 희소성 (sparsity) 수준, 그리고 4가지 교체 기반 베이스라인 (baselines)에 대해 실험한 결과, SubFit는 평가된 모든 희소성 수준에서 가장 우수한 종합적 퍼플렉시티-정확도 (perplexity-accuracy) 트레이드오프를 달성하였으며, 공격적인 압축 환경에서 더 큰 이득을 보였습니다. 25% 희소성에서 SubFit는 밀집 모델 (dense) 대비 84.6%의 다운스트림 정확도를 유지하고 퍼플렉시티 저하는 2.42배에 그친 반면, 가장 강력한 베이스라인들은 81.6%의 정확도와 4.34배의 퍼플렉시티 저하를 보였습니다. 또한 SubFit는 측정 가능한 추론 속도 향상과 KV-캐시 (KV-cache) 절감 효과를 제공합니다. 코드는 https://github.com/eliacunegatti/SubFit 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

레이어에서 서브모듈로: 교체 기반 LLM 압축에서의 입도(Granularity) 재고

요약

핵심 포인트

댓글