본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 05. 12:45

Compress Then Adapt? No, Do It Together via Task-aware Union of Subspaces

요약

본 논문은 대규모 사전 학습 모델을 다양한 작업에 적응시키는 과정에서 발생하는, '압축 후 적응'이라는 순차적 접근법의 한계를 극복하는 새로운 프레임워크 JACTUS를 제안합니다. JACTUS는 압축(Compression)과 적응(Adaptation) 과정을 단일 통합 프레임워크로 결합하여, 작업 인식 서브스페이스(Task-aware Subspaces) 내에서 투영 저랭크 근사 및 전역 랭크 할당을 수행합니다. 이를 통해 기존의 분리된 방식보다 더 높은 성능과 효율성을 달성하며, 특히 Vision 및 Language 영역에서 강력한 결과를 입증했습니다.

핵심 포인트

  • 기존 PEFT와 저랭크 압축은 순차적(Compress-then-Adapt)으로 구성되어 서브스페이스 불일치 위험이 존재했으나, JACTUS는 이를 단일 프레임워크로 통합합니다.
  • JACTUS는 교정 세트에서 추정한 기울기 공분산과 사전 활성화 정보를 활용하여 작업 인식 서브스페이스를 형성하고 직교 연산을 수행합니다.
  • 전역 랭크 할당(Global Rank Allocation)을 통해 매 파라미터의 마진 수익을 고려하며, 컴팩트 코어 행렬만 훈련하여 효율성을 극대화합니다.
  • Vision 및 Language 태스크에서 각각 ViT-Base와 Llama2-7B를 대상으로 테스트한 결과, 기존 최고 성능의 PEFT 베이스라인과 이전 압축 후 미세 조정 파이프라인을 모두 능가하는 높은 정확도를 보여주었습니다.

대규모 사전 학습 모델 (pretrained models) 을 다양한 작업에 적응시키는 것은 이제 일상적이 되었으나, 파라미터 효율적 미세 조정 (PEFT: Parameter-Efficient Fine-Tuning) 과 저랭크 압축 (low-rank compression) 이 두 가지 지배적인 전략은 일반적으로 순차적으로 구성된다. 이러한 분리된 접근법은 먼저 압축을 수행한 후 어댑터 (adapter) 를 미세 조정하며, 이는 압축된 서브스페이스 (subspace) 가 하류 목표 (downstream objectives) 와 불일치할 위험이 있으며 전역 파라미터 예산 (global parameter budget) 을 낭비할 수 있다. 이러한 한계를 극복하기 위해 우리는 JACTUS (Joint Adaptation and Compression with a Task-aware Union of Subspaces: 압축과 적응을 통합하는 작업 인식 서브스페이스의 연산) 를 소개한다. JACTUS 는 단일 프레임워크로 압축과 적응을 통합한다. 작은 교정 세트 (calibration set) 에서 입력 및 사전 활성화 (pre-activation) 기울기 공분산 (gradient covariances) 을 추정하고, 이들을 사전 학습된 중량 서브스페이스 (weight subspace) 와 직교 연산 (orthogonal union) 을 형성하며, 이 내부에서 투영 저랭크 근사 (projected low-rank approximation) 를 수행한다. 또한 매 파라미터당 마진 수익 (marginal gain per parameter) 으로 전역 랭크 할당 (rank allocation) 을 하고, 컴팩트 코어 행렬 (compact core matrix) 만 훈련한다. 이는 압축된 서브스페이스와 하류 목표 사이의 잠재적 불일치를 완화하며, 압축을 위해 보존되는 방향과 적응에 필요한 방향을 결합하여 전역 고정 중량 (full frozen weights) 을 유지하지 않으면서 빠른 튜닝이 가능하고 견고한 저랭크 모델을 생성한다. 시각 (vision) 영역에서 JACTUS 는 80% 유지된 파라미터로 ViT-Base 에서 8 개의 데이터셋에 걸쳐 평균 89.2% 정확도를 달성하며, 강력한 100% PEFT 베이스라인 (예: DoRA 87.9%) 을 능가한다. 언어 (language) 영역에서 JACTUS 는 동일한 80% 유지된 파라미터 예산으로 Llama2-7B commonsense QA 에서 평균 80.9% 를 달성하며, 100% PEFT (예: DoRA 79.7%) 을 능가하고 동일한 유지된 파라미터 예산 하에서 이전 압축 후 미세 조정 파이프라인 (compress-then-finetune pipelines) 을 상회한다. 우리는 코드를 공개할 예정이다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0