멀티태스크 모델 병합을 위한 훈련이 필요 없는 태스크 분류 (Training-free Task Classification for
요약
멀티태스크 모델 병합 시 발생하는 파라미터 간섭 문제를 해결하기 위해 추가 학습 없이 태스크를 분류하는 SiM 기법을 제안합니다. SVD 기반의 저차원 매니폴드 근사를 통해 입력 데이터의 태스크를 식별하고 최적의 전문가 파라미터를 라우팅합니다.
핵심 포인트
- 추가 학습이나 태스크 ID 없이 동작하는 training-free 방식
- SVD 기반 저차원 매니폴드 근사를 통한 태스크 분류
- 압축된 태스크 벡터를 활용한 효율적인 파라미터 병합
- 컴퓨터 비전 및 NLP 벤치마크에서 전문가 모델 수준의 성능 입증
파운데이션 모델 (foundation models)과 사전 학습-미세 조정 (pre-training-finetuning) 패러다임이 등장한 이후, 여러 태스크 특화 전문가 (task-specific experts)를 하나의 멀티태스크 모델로 병합하려는 수많은 노력이 있었습니다. 기존 연구들은 주로 단일 병합 모델을 찾는 데 집중해 왔으나, 파라미터 간섭 (parameter interference)으로 인해 개별 전문가 모델보다 성능이 떨어지는 경우가 많습니다. 이를 해결하기 위해 동적 모델 병합 (dynamic model merging)은 입력별로 태스크 관련 파라미터를 활성화하기 위해 라우팅 (routing)을 채택합니다. 그러나 기존의 라우터 (routers)는 일반적으로 풍부한 레이블이 지정된 데이터셋을 통한 추가 학습을 요구하거나, 추론 시 각 입력의 태스크 ID (task IDs)에 접근할 수 있다고 가정합니다. 본 연구에서는 추가 학습이나 태스크 ID 접근 가정 없이 전문가 모델의 성능과의 격차를 줄이는 것을 목표로 합니다. 이를 위해, 우리는 라우팅을 각 테스트 입력에 대한 훈련이 필요 없는 태스크 분류 (training-free task classification)로 공식화합니다. 각 태스크에 대해 특이값 분해 (SVD)-기반 저차원 매니폴드 근사 (low-rank manifold approximations)를 사용하여, SiM은 테스트 입력 특징 (feature)이 각 태스크 매니폴드 (task manifold)에 투영될 때 발생하는 투영 잔차 (projection residual)로 태스크 점수를 매기고 그에 따라 라우팅합니다. 태스크 매니폴드는 병합 프로세스 이전에 사전 학습된 백본 (pretrained backbone)으로부터 각 태스크당 작은 서포트 세트 (예: 태스크당 32개 예시)를 사용하여 오프라인에서 미리 계산할 수 있으며, 라우터 학습이나 병합 과정 중의 데이터가 필요하지 않습니다. 또한, SiM은 경량화된 압축 태스크 벡터를 통해 태스크 전문가를 표현하는 부분 공간/마스크 기반 병합 (subspace-/mask-based merging)과 원활하게 통합되어, 전체 전문가 파라미터를 저장할 필요가 없습니다. 태스크를 알 수 없는 (task-unknown) 추론 환경에서 컴퓨터 비전 및 자연어 처리 벤치마크를 통한 실험 결과, SiM은 병합된 모델의 성능을 실질적으로 향상시키며 개별 태스크 전문가 모델과의 격차를 일관되게 좁힌다는 것을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기