arXiv논문2026. 04. 24. 04:29

트랜스포머 압축의 구조적 분석: 모델 스케일별 한계점 탐구

요약

본 연구는 GPT-2 (124M)와 Mistral 7B (7.24B)를 대상으로 트랜스포머 모델의 압축 가능성을 체계적으로 분석했습니다. 총 40개 이상의 실험을 통해 스펙트럴 압축, 블록 함수 대체, 양자화 등 다양한 기법을 검토했습니다. 주요 발견으로는 고분산 활성화 방향이 예측 방향과 독립적이며(96% 비상관), 트랜스포머 블록의 선형성이 올바른 상위 분포 하에서만 유지된다는 점 등이 있습니다. 특히, 단일 블록 대체가 34배 압축을 달성했으나 다중 블록 대체는 잔여 오차 누적 및 분포 변화로 인해 실패함을 보여주며, 정적인(

핵심 포인트

고분산 활성화 방향은 예측 방향과 약 96% 비상관성을 가지며, 이 공간에 투영해도 분산의 90% 이상을 보존할 수 있습니다.
트랜스포머 블록의 선형성은 올바른 상위 분포(upstream distribution)가 전제될 때만 유효하며, 앞선 블록 수정은 분포 변화를 야기합니다.
단일 블록 대체 기법으로 Mistral 7B의 마지막 블록에서 34배 압축을 달성할 수 있었으나, 다중 블록 대체는 오차 누적 문제로 실패했습니다.
Mistral 7B 모델은 깊이가 증가함에 따라 선형성이 점진적으로 증가하는 경향(R²: Block 0 $ ightarrow$ Block 31)을 보여줍니다.
전체 토큰 중 약 30%가 계산상 쉬운(computationally easy) 영역임을 확인했습니다.

본 논문은 GPT-2 (124M 파라미터)와 Mistral 7B (7.24B 파라미터)를 대상으로 트랜스포머 모델의 압축 가능성을 체계적으로 탐구한 실증 연구입니다. 총 40개 이상의 실험을 통해 스펙트럴 압축(spectral compression), 블록 레벨 함수 대체, 회전 기반 양자화(rotation-based quantization), 활성화 지오메트리 분석, 적응형 조기 종료(adaptive early exit) 등 다양한 방법을 다루었습니다.

연구를 통해 트랜스포머의 압축과 관련하여 다섯 가지 구조적 특성을 식별했습니다.

분산은 중요도가 아니다 (Variance is not importance): 고분산 활성화 방향(high-variance activation directions)이 예측 방향(predictive directions)과 약 96%에 달하는 비상관성(uncorrelated)을 보였습니다. 흥미롭게도, 이들 공간으로 투영하더라도 분산의 90% 이상을 유지할 수 있었지만, 이는 퍼플렉시티(perplexity) 저하를 동반했습니다.
블록 선형성은 조건적이다 (Block linearity is conditional): 트랜스포머 블록이 선형성을 갖는 것은 올바른 상위 분포(upstream distribution)가 전제될 때에 한해서만 유효합니다. 예를 들어, GPT-2에서는 $R^2 ext{ } ext{~~} 0.95$, Mistral의 Block 31에서도 $R^2 ext{ } ext{~~} 0.93$을 보였습니다. 그러나 앞선 블록을 수정하면 분포가 변화하여 후속 추정(downstream approximations) 성능이 저하됩니다.
재구성 벽 (The reconstruction wall): 가중치를 양자화된 구성 요소로 분해하는 접근 방식은 교차 항(cross-terms)을 통해 오류를 증폭시키는 경향이 있어, 직접적인 양자화(direct quantization)가 더 우수함을 보여주었습니다.
깊이에 따른 선형성 증가 (Linearity increases with depth): Mistral 7B 모델의 경우, 깊이가 깊어질수록 선형성이 점진적으로 증가하는 패턴을 보였습니다 ($R^2$: Block 0 $
ightarrow$ Block 31). 이는 트랜스포머가 비선형적 특징 구성(nonlinear feature construction) 단계와 선형적 정제(linear refinement) 단계를 거치며 작동함을 시사합니다.
계산적으로 쉬운 토큰의 존재: 전체 토큰 중 약 30%는 계산상 쉽게 처리될 수 있음을 확인했습니다 (exit heads 및 KL divergence 민감도 분석을 통해 입증).

실험 결과, 단일 블록 선형 대체(single-block linear replacement) 기법만으로 Mistral 7B의 최종 블록에서 34배 압축을 달성할 수 있었습니다. 하지만 다중 블록 대체는 잔여 오차 누적 및 분포 변화 문제로 인해 실패했습니다. 이러한 발견들은 정적인 사후 학습 압축(static post-training compression)에 근본적인 한계가 있음을 시사하며, 대신 적응형(adaptive)이고 토큰별 계산(per-token computation)을 고려하는 방향이 더 효과적임을 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

트랜스포머 압축의 구조적 분석: 모델 스케일별 한계점 탐구

요약

핵심 포인트

댓글