arXiv논문2026. 06. 18. 11:41

효율적인 Transformer를 위한 상보적 어텐션 헤드 프루닝 (Complementary Attention Head Pruning)

요약

Transformer 모델의 효율성을 높이기 위해 그래프 이론과 정보 이론을 결합한 새로운 어텐션 헤드 프루닝 프레임워크인 CAHP를 제안합니다. CAHP는 헤드 간의 상보성을 분석하여 최적의 헤드 집합을 자동으로 식별하며, 기존 방식보다 높은 압축률에서도 뛰어난 성능을 유지합니다.

핵심 포인트

그래프 기반 클러스터링을 통한 상보적 어텐션 헤드 식별
수동 하이퍼파라미터 튜닝 없이 레이어별 최적 헤드 수 자동 결정
기존 그래디언트 기반 방식의 근접 편향(proximity bias) 문제 해결
SST-5 및 MNLI 벤치마크에서 높은 압축 영역의 성능 우위 입증

자연어 처리 (NLP) 분야에서 Transformer 기반 모델들의 놀라운 성공은 아키텍처 스케일링 (architectural scaling)에서 비롯되었으나, 이는 방대한 수의 파라미터 (parameters)로 이어져 자원이 제한된 환경에서의 배포를 저해합니다. 구조적 프루닝 (structured pruning)이 압축을 위한 경로를 제공하기는 하지만, 기존의 최첨단 (state-of-the-art) 방법들은 종종 그래디언트 기반 (gradient-based) 중요도 순위 지정이나 확률적 게이팅 (stochastic gating)에 의존하며, 이는 불안정성, 구조적 퇴화, 그리고 광범위한 수동 하이퍼파라미터 (hyperparameter) 튜닝의 필요성이라는 문제를 안고 있습니다. 본 논문에서는 헤드 선택을 전역적 그래프 이론 문제 (global graph-theoretical problem)로 재정의하는 새로운 사후 (post-hoc) 프레임워크인 CAHP (Complementary Attention Head Pruning)를 소개합니다. CAHP는 헤드들을 개별적으로 평가하는 대신, 그래프 기반 클러스터링 (graph-based clustering)과 정보 이론적 거리 측정 (information-theoretic distance measures)을 결합하여 위상학적으로 다양한 상보적 어텐션 헤드 (complementary attention heads)의 하위 집합을 식별하고 보존합니다. 사전 정의된 희소성 수준 (sparsity level)이나 프루닝 비율 (pruning ratio)을 요구하지 않고, 이 프레임워크는 선택된 어텐션 헤드의 수를 레이어 전반에 걸쳐 자동으로 결정합니다. 이는 선택된 다항식 차수 (polynomial degree)에 따라 추가적인 헤드 프루닝이 성능의 급격한 저하를 초래하는 한계 효용 감소 성능 곡선 (diminishing marginal performance curve)을 식별함으로써 이루어집니다. 다양한 Transformer 모델 규모에 걸쳐 SST-5 및 MNLI 벤치마크에서 수행된 광범위한 평가 결과, CAHP는 특히 높은 압축 영역 (high-compression regimes)에서 경쟁력 있는 베이스라인 (baselines)들을 일관되게 능가함을 입증했습니다. 또한, 우리의 구조적 분석은 CAHP가 주로 출력에 가까운 레이어의 헤드들을 보존하는 경향이 있는 그래디언트 기반 프루닝 방법의 "근접 편향 (proximity bias)"을 피하고, 대신 모델의 중간 레이어에서 기능적으로 중요한 어텐션 헤드 집합을 유지한다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

효율적인 Transformer를 위한 상보적 어텐션 헤드 프루닝 (Complementary Attention Head Pruning)

요약

핵심 포인트

댓글