arXiv논문2026. 05. 12. 18:57

다이나믹 크로스 모달 프롬프트 생성을 통한 멀티모달 지속적 명령어 튜닝

요약

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 여러 태스크에 걸쳐 능력을 지속적으로 확장해야 하는 시나리오를 위한 '멀티모달 지속적 명령어 튜닝(MCIT)' 프레임워크인 DRAPE를 제안합니다. 기존 방법들이 태스크 수준의 모듈 조합에 의존했던 것과 달리, DRAPE는 개별 쿼리-이미지 쌍(인스턴스)에 최적화된 소프트 프롬프트를 동적으로 합성하여 모델 성능을 향상시킵니다. 또한, 망각 완화를 위해 공유 프로젝터에널 공간 그래디언트 투영 기법과 CLIP 기반의 라우팅 메커니즘을 적용하여 뛰어난 지속 학습 성능을 입증했습니다.

핵심 포인트

DRAPE는 멀티모달 지속적 명령어 튜닝(MCIT)을 위한 새로운 프롬프트 학습 프레임워크입니다.
기존 방법의 태스크 수준 적응 방식에서 벗어나, 개별 쿼리-이미지 쌍에 대한 인스턴스 수준 소프트 프롬프트를 동적으로 생성합니다.
망각 완화를 위해 공유 프로젝터에널 공간 그래디언트 투영(null-space gradient projection)을 적용했습니다.
추론 시에는 태스크 레이블 없이 제너레이터를 선택하는 CLIP 기반의 프로토타입 라우팅을 사용합니다.
MCIT 벤치마크에서 기존 프롬프트 및 LoRA 기반 지속 학습 모델 대비 최첨단 성능을 달성했습니다.

멀티모달 대규모 언어 모델(MLLMs)은 명령어 튜닝을 통해 강력한 성능을 달성하지만, 실제 배포 환경에서는 순차적인 태스크 전반에 걸쳐 지속적인 역량 확장이 필요한 경우가 많습니다. 이러한 시나리오에서 멀티모달 지속적 명령어 튜닝(MCIT)은 치명적 망각(catastrophic forgetting)을 제한하면서 새로운 능력을 습득하는 것을 목표로 합니다. 기존 방법들은 주로 모듈 구성 패러다임을 따릅니다. 즉, 태스크 수준의 프롬프트나 LoRA 전문가를 유지하고 추론 시점에 이들 중 일부를 동적으로 라우팅하거나 집계합니다. 하지만 동일한 태스크 내에서도 샘플들은 시각적 장면, 질문 의도, 추론 요구 사항 등에서 여전히 상당한 차이를 보일 수 있습니다. 이는 단순히 태스크 수준의 모듈을 선택하거나 결합하는 것보다 개별 쿼리-이미지 쌍에 대한 인스턴스 수준 적응(instance-level adaptation)을 동기 부여합니다. 이를 위해, 우리는 MCIT를 위한 연속적인 인스턴스별 소프트 프롬프트를 합성하는 프롬프트 학습 프레임워크인 DRAPE (Dynamic Cross-Modal Prompt Generation)를 제안합니다. DRAPE는 고정된 풀에서 프롬프트를 선택하는 대신, 텍스트 명령어로부터 프롬프트 쿼리를 도출하고 시각적 패치 특징에 크로스 어텐션(cross-attends)하여, 쿼리-이미지 조건부 프롬프트를 생성하며 이를 고정된 LLM 앞에 붙입니다. 순차적인 업데이트 중 망각을 완화하기 위해, DRAPE는 공유 프로젝터에널 공간 그래디언트 투영(null-space gradient projection)을 적용하고, 추론 시에는 태스크 레이블이 필요 없는 제너레이터 선택을 위해 CLIP 기반의 프로토타입 라우팅을 사용합니다.

MCIT 벤치마크에서 수행된 광범위한 실험은 DRAPE가 대표적인 프롬프트 기반 및 LoRA 기반 지속적 학습(continual-learning) 기준선 모델들 사이에서 최첨단 성능을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

다이나믹 크로스 모달 프롬프트 생성을 통한 멀티모달 지속적 명령어 튜닝

요약

핵심 포인트

댓글