멀티태스크 병합 모델로부터 태스크 전문가를 복구하는 방법 학습
요약
멀티태스크 모델 병합 시 발생하는 파라미터 간섭 문제를 해결하기 위해 ReTeX 프레임워크를 제안합니다. 아핀 변환을 활용해 파라미터 오프셋을 예측함으로써 단일 병합 체크포인트에서 개별 태스크 전문가의 성능을 효과적으로 복구합니다.
핵심 포인트
- 파라미터 간섭을 아핀 변환 및 가산 오프셋으로 모델링
- SVD 부분 공간 시그니처 기반의 라우터 프리 태스크 식별자 도입
- 비전 및 NLP 도메인에서 개별 전문가 성능의 95% 이상 복구
- 미학습 태스크(unseen tasks)에 대한 일반화 및 적응형 보간 능력 확인
멀티태스크 모델 병합 (Multi-task model merging)은 여러 태스크별 전문가 (task-specific experts)를 하나의 통합된 모델로 결합하는 것을 목표로 하지만, 정적 병합 (static merging)은 지속적으로 파라미터 간섭 (parameter interference) 문제로 어려움을 겪습니다. 동적 병합 (dynamic merging) 모델들이 이러한 격차를 줄이려 노력하고 있으나, 많은 연구가 추론 (inference) 시 중복된 전문가 구성 요소를 저장하고 로드하는 데 막대한 비용을 소모합니다. 본 연구에서는 태스크 전문가 (task expert)의 관점에서, 파라미터 간섭을 병합 과정 중 각 전문가에게 도입되는 파라미터 섭동 (parameter perturbation)으로 간주합니다. 우리는 이러한 파라미터 섭동이 아핀 변환 (affine transformation)으로 모델링될 수 있으며, 이는 가산 오프셋 (additive offsets)으로 근사될 수 있음을 보여줍니다. 이에 착안하여, 우리는 단일 병합 체크포인트로부터 파라미터 간섭을 해제하고 태스크 전문가의 성능을 복구하기 위해 해당 오프셋을 예측하는 프레임워크인 ReTeX (Recover Task eXpert)를 제안합니다. 태스크 정체성 (task identity)을 알 수 없는 상황에서 적절한 전문가를 복구하기 위해, 우리는 추론 전 오프라인에서 계산된 SVD 부분 공간 시그니처 (SVD subspace signatures)를 기반으로 한 라우터 프리 (router-free) 태스크 식별자 (task identifier)를 도입합니다. 추론 시, 식별자는 주어진 입력에 대해 부분 공간 투영 잔차 (projection residual)가 가장 작은 태스크를 선택합니다. 그 결과, ReTeX는 비전 (vision) 및 NLP 도메인 모두에서 개별 전문가 성능의 95% 이상을 복구하는 동시에, 보지 못한 태스크 (unseen tasks)에 대한 일반화 성능을 크게 향상시킵니다. 결정적으로, 우리는 파라미터 오프셋 예측이 분포 외 (out-of-distribution, OOD) 태스크에 대해 전문가 지식의 창발적 적응형 보간 (emergent adaptive interpolation)을 유도한다는 것을 보여줍니다. ReTeX는 보지 못한 태스크를 처리하기 위해 관찰된 전문가 지식을 적응적으로 보간합니다. 우리의 코드는 https://github.com/BAIKLAB/ReTeX 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기