arXiv논문2026. 06. 03. 12:15

압축 후 병합: 여러 개의 LoRA를 하나의 저차원 어댑터로 통합하기

요약

여러 개의 LoRA 어댑터를 하나의 저차원 어댑터로 통합하는 새로운 방법론인 CtM(Compress-then-Merge)을 제안합니다. 기존의 병합 후 압축 방식과 달리, 병합 전 공통 부분 공간을 계산하여 구조적 손실을 최소화하고 효율적인 통합을 가능하게 합니다.

핵심 포인트

기존 Merge-then-Compress 방식의 저차원 구조 파괴 문제 해결
CtM: 병합 전 rank-r 병목을 강제하는 역방향 파이프라인 제안
LoRA 가중치를 활용한 공유된 r-차원 부분 공간 계산 및 투영
실험 결과 기존 베이스라인 대비 우수한 성능 및 효율성 입증

저차원 적응 (Low-rank adaptation, LoRA)은 파라미터 효율적인 파운데이션 모델 (Foundation models)의 특화 (Specialization)를 가능하게 하지만, 작업별 어댑터 (Task-specific adapters)의 급증은 여러 어댑터에 걸쳐 능력을 파편화시켜 재사용과 배포를 복잡하게 만듭니다. 우리는 $T$개의 LoRA를 단일 rank-$r$ LoRA로 병합하여 저차원 구조 (Low-rank structure)의 이점을 보존하는 문제를 연구합니다. 기존의 병합 후 압축 (Merge-then-Compress) 파이프라인은 랭크 제약 (Rank constraint)을 사후 고려 사항으로 취급합니다. 즉, 전체 파라미터 공간 (Full parameter space)에서 어댑터를 병합한 다음, 절단된 SVD (Truncated SVD)를 통해 병합된 결과를 rank $r$로 압축합니다. 그러나 전체 파라미터 병합은 저차원 구조를 파괴할 수 있으며, 이로 인해 후속 압축 과정에서 효과적인 rank-$r$ LoRA를 복구하기 어렵게 만듭니다. 우리는 병합 전에 rank-$r$ 병목 (Bottleneck)을 강제하는 역방향 파이프라인인 압축 후 병합 (Compress-then-Merge, CtM)을 제안합니다. CtM은 어댑터 간 공통 구조를 포착하기 위해 LoRA 가중치만을 사용하여 공유된 $r$-차원 부분 공간 (Subspaces)을 계산하고, 각 어댑터를 공유된 부분 공간으로 투영하여 $r imes r$ 좌표를 얻은 다음, 이 축소된 공간에서 표준 병합 규칙을 적용합니다. CtM은 구조적으로 rank-$r$ LoRA를 보장하여 사후 절단 (Post-hoc truncation)을 피하며, 연결된 LoRA 인자 (LoRA factors)에 의해 생성된 핵심 공간에서 효율적인 계산을 가능하게 합니다. 여러 모델과 작업에 걸친 실험 결과, CtM은 기존의 단일 LoRA 출력 베이스라인 (Baselines)보다 일관되게 우수한 성능을 보였으며, 전체 파라미터 병합 방법과의 성능 격차를 좁혔습니다.

AI 자동 생성 콘텐츠

원문 바로가기

압축 후 병합: 여러 개의 LoRA를 하나의 저차원 어댑터로 통합하기

요약

핵심 포인트

댓글