멀티태스크 학습을 위한 필수 부분 공간 병합 (Essential Subspace Merging)
요약
멀티태스크 학습 시 발생하는 태스크 간 간섭 문제를 해결하기 위해 필수 부분 공간 병합(ESM) 기술을 제안합니다. 모델 업데이트의 에너지가 집중된 핵심 부분 공간을 분석하여, 훈련 없이도 여러 모델의 지식을 효과적으로 통합하는 방법을 다룹니다.
핵심 포인트
- 태스크 업데이트 에너지가 소수의 주성분 방향에 집중됨을 발견
- 필수 부분 공간 분해(ESD)를 통한 태스크 간 간섭 최소화
- 훈련이 필요 없는 정적 병합 방식인 ESM 제안
- 동적 병합 방식인 ESM++를 통해 저차원 전문가 기반 라우팅 구현
모델 병합 (Model merging)은 동일한 사전 학습된 체크포인트 (pre-trained checkpoint)로부터 미세 조정 (fine-tuned)된 여러 모델의 능력을 하나의 모델로 통합함으로써 멀티태스크 학습 (multi-task learning)을 가능하게 하는 것을 목표로 합니다. 모델 병합의 핵심 과제는 태스크별 파라미터 업데이트 (parameter updates) 사이에서 발생하는 태스크 간 간섭 (inter-task interference)입니다. 본 논문에서 우리는 태스크 업데이트로 인해 유도되는 출력 변화 (output shifts)를 분석하였으며, 그 에너지가 소수의 주성분 방향 (principal directions)에 집중되어 있음을 관찰했습니다. 우리는 이러한 방향들이 형성하는 부분 공간 (subspace)을 필수 부분 공간 (essential subspace)이라고 부릅니다. 이와 대조적으로, 나머지 대부분의 방향은 태스크 관련 에너지를 거의 포함하지 않지만, 여러 태스크 업데이트에 걸쳐 이들이 축적되면 병합 과정에서 심각한 간섭을 일으킬 수 있습니다. 이러한 관찰에 착안하여, 우리는 각 태스크 업데이트를 활성화 변화 (activation shift)의 주성분 (principal components)에 따라 분해하는 필수 부분 공간 분해 (Essential Subspace Decomposition, ESD)를 제안합니다. ESD를 기반으로, 우리는 필수 구성 요소들을 직교화 (orthogonalize)하고 하나의 압축된 멀티태스크 모델로 융합하는 훈련이 필요 없는 정적 병합 방법인 필수 부분 공간 병합 (Essential Subspace Merging, ESM)을 소개합니다. 나아가 우리는 ESM을 ESM++로 확장합니다. ESM++는 훈련이 필요 없는 동적 병합 방법으로, 태스크별 잔차 (task-specific residuals)를 저차원 전문가 (low-rank experts)로 분해하고 순방향 추론 (forward inference) 중에 프로토타입 기반 라우팅 (prototype-based routing)을 통해 가장 관련성이 높은 전문가를 선택합니다. 다양한 태스크 세트와 모델 규모에 걸친 광범위한 실험을 통해, ESM과 ESM++가 태스크 간 간섭을 줄이면서 태스크 지식을 효과적으로 보존함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기