보정 가이드 기반 LLM 압축을 위한 출력 공간 할당 비용: 실증적 연구
요약
LLM 압축 시 할당 비용을 가중치 공간이 아닌 출력 공간 목적 함수와 일치시키는 ROCKET-ActCost 방법론을 제안합니다. 실험 결과, Qwen3-8B 모델에서 정확도는 향상되었으나 퍼플렉서티는 증가하는 트레이드오프가 관찰되었습니다.
핵심 포인트
- 출력 공간 목적 함수와 일치하는 할당 비용 사용 제안
- Qwen3-8B 모델에서 8개 벤치마크 평균 정확도 0.8%p 향상
- 정확도 향상과 퍼플렉서티 증가 사이의 트레이드오프 확인
- 낮은 압축률(20%)에서는 비용 함수의 영향이 미미함
대규모 언어 모델 (LLMs)을 위한 학습이 필요 없는 (Training-free) 압축 방법들은 종종 압축 결정을 안내하기 위해 보정 데이터 (calibration data)를 사용합니다. 희소 사전 인수분해 (sparse-dictionary factorization)와 다중 선택 배낭 문제 (multi-choice knapsack problem, MCKP) 할당을 결합한 최근 방법인 ROCKET은 출력 재구성 목적 함수 (output reconstruction objective)로부터 레이어별 인수분해를 도출하지만, MCKP 할당 비용으로는 가중치 공간 프로베니우스 오차 (weight-space Frobenius error)를 사용합니다. 본 연구에서는 할당 비용을 출력 공간 목적 함수와 일치시키는 것이 압축된 모델의 충실도 (fidelity)를 향상시키는지 조사합니다. 50% 압축률의 Qwen3-8B 모델에서, 우리의 ROCKET-ActCost는 8개의 제로샷 (zero-shot) 벤치마크 전반에서 평균 정확도가 +0.8 퍼센트 포인트 더 높게 나타났으나 (53.1% vs 52.3%), WikiText 퍼플렉서티 (perplexity, PPL)는 16% 증가했습니다 (61.46 vs 52.98). 이러한 정확도-퍼플렉서티 트레이드오프 (tradeoff)는 서로 다른 할당 목적 함수가 서로 다른 다운스트림 지표를 선호한다는 것을 보여줍니다. 가중치 공간 오차와 출력 공간 오차 사이의 높은 상관관계 ($>$0.99)는 할당의 발산을 제한하며, 이는 효과 크기가 완만한 이유를 설명합니다. 20% 압축률의 Llama-3.2-1B 모델에서는 두 방법이 거의 동일한 결과 (정확도 53.3% vs 53.5%, PPL 14.45 vs 14.66)를 생성하였으며, 이는 낮은 압축률에서는 비용 함수의 영향이 미미함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기