arXiv논문2026. 05. 26. 12:50

CMAP: 멀티 도메인 태스크 증분 학습을 위한 교차 모달 적응형 프롬프팅

요약

CMAP는 시각-언어 모델의 교차 모달 텍스트 임베딩 공간을 활용하여 멀티 도메인 태스크 증분 학습의 한계를 극복하는 방법론입니다. 텍스트 공간 라우팅과 대칭적 게이팅을 통해 매개변수 효율성을 높이면서도 기존 SOTA 성능을 상회하는 결과를 보여줍니다.

핵심 포인트

CLIP의 텍스트 임베딩 공간을 활용한 태스크 라우팅 도입
시각-텍스트 교차 모달 정렬을 통한 신뢰도 추정 개선
Gumbel 게이트를 활용한 대칭적 교차 모달 게이팅 적용
MTIL 벤치마크에서 기존 SOTA 대비 높은 성능 달성

멀티 도메인 태스크 증분 학습 (Multi-domain task-incremental learning)은 모델이 이전 태스크를 망각하지 않으면서, 추론 시 태스크 식별 정보(task identity)에 대한 접근 없이 시각적으로 다양한 도메인에 걸쳐 지식을 순차적으로 습득할 것을 요구합니다. 동결된 시각-언어 모델 (vision-language models)을 기반으로 한 매개변수 효율적 (Parameter-efficient) 방법론들이 큰 진전을 이루었으나, 기존의 모든 접근 방식은 태스크 라우팅 (task routing), 신뢰도 추정 (confidence estimation), 그리고 인코더 적응 (encoder adaptation)을 위해 시각적 특징 (visual features)에만 전적으로 의존하고 있으며, CLIP의 교차 모달 텍스트 임베딩 공간 (cross-modal text embedding space)은 전혀 활용하지 못하고 있습니다. 우리는 세 가지 기여를 통해 이 간극을 해결합니다. 첫째, 텍스트 공간 태스크 라우팅 (Text-space task routing)은 시각적 가우시안 매칭 (visual Gaussian matching)을 동결된 CLIP 텍스트 프로토타입 (text prototypes)과의 코사인 유사도 (cosine similarity)로 대체하여, 매개변수 비용 없이 데이터 부족 상황에서도 순서에 독립적인 (order-independent) 견고한 라우팅을 제공합니다. 둘째, 다중 프로토타입 시각-텍스트 신뢰도 (Multi-prototype visual-textual confidence)는 단일 가우시안 클래스 모델링을 K-means 시각적 프로토타입 (visual prototypes) 및 태스크 교정 임계값 (task-calibrated thresholds) 하의 교차 모달 정렬 점수 (cross-modal alignment scores)로 대체합니다. 셋째, 대칭적 교차 모달 게이팅 (Symmetric cross-modal gating)은 레이어별 Gumbel 게이트를 배치 이미지 특징 (batch image features)에 조건화된 텍스트 인코더 (text encoder)로 확장하여, 분포 외 (out-of-distribution) 입력에 대해서도 교차 모달 정렬을 유지합니다. 11개의 데이터셋과 1201개의 클래스를 아우르는 MTIL 벤치마크에서, 우리의 방법론은 Order-I 조건 하에 Transfer 74.2%, Average 80.5%, Last 88.7%를 달성하였으며, 이는 단 2.5M개의 학습 가능한 매개변수와 외부 데이터 없이도 기존의 최첨단 (state of the art) 성능을 각각 5.0, 3.7, 3.0 퍼센트 포인트 상회하는 수치입니다.

AI 자동 생성 콘텐츠

원문 바로가기

CMAP: 멀티 도메인 태스크 증분 학습을 위한 교차 모달 적응형 프롬프팅

요약

핵심 포인트

댓글