본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 12:22

CRAM: 멀티모달 지속적 지시어 튜닝을 위한 중심점 라우팅 및 적응형 MoE

요약

멀티모달 지속적 지시어 튜닝(MCIT) 시 발생하는 치명적 망각과 파라미터 효율성 문제를 해결하기 위한 CRAM 프레임워크를 제안합니다. 중심점 가이드 라우팅과 적응형 MoE를 통해 태스크 간 간섭을 최소화하고 효율적인 능력 확장을 구현합니다.

핵심 포인트

  • CRAM은 태스크별 패턴을 독립 모듈로 격리하여 망각 방지
  • 적응형 랭크 인스턴스화로 필요한 파라미터만 동적 할당
  • 중심점 가이드 라우팅을 통한 기존 전문가 능력의 안정적 재사용
  • 직교성 페널티를 적용하여 새로운 업데이트의 간섭 제한

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 지시어 튜닝 (Instruction Tuning)을 통해 이질적인 시각-언어 태스크를 공유된 생성 프레임워크 아래 통합하지만, 실제 환경에서의 배포는 지속적인 능력 확장을 요구하며, 이에 따라 멀티모달 지속적 지시어 튜닝 (Multimodal Continual Instruction Tuning, MCIT)이 필수적입니다. 기존 방법들은 공유된 파라미터 세트로 모든 태스크를 업데이트하거나, 각 새로운 태스크를 위해 전용 모듈을 할당합니다. 공유 업데이트는 이질적인 태스크들이 서로 경쟁하게 만들어 학습된 능력의 망각을 초래합니다. 반대로, 격리된 확장은 간섭은 방지하지만 긴 태스크 스트림에 걸쳐 파라미터 효율성 (Parameter Efficiency)을 심각하게 제한합니다. 이러한 딜레마를 해결하기 위해, 우리는 CRAM을 제안합니다. 구체적으로, CRAM은 태스크별 패턴을 독립적인 모듈로 격리함으로써 태스크 간의 치명적 망각 (Catastrophic Forgetting)을 완화합니다. 파라미터 효율성을 더욱 높이기 위해, 우리는 적응형 랭크 인스턴스화 (Adaptive-rank Instantiation)를 활용하여 기존 전문가의 능력과 새로운 태스크 요구 사항 사이의 능력 격차를 식별하고, 필요한 파라미터만을 동적으로 할당합니다. 태스크 간의 안정적인 재사용을 보장하기 위해, 중심점 가이드 라우팅 (Centroid-guided Routing)은 기존 전문가의 능력을 인식하고 활성화하며, 직교성 페널티 (Orthogonality Penalty)는 새로운 업데이트가 태스크별 방향으로 제한되도록 하여 일반적인 능력을 재학습하는 것을 방지합니다. 다양한 벤치마크에 걸친 광범위한 실험을 통해 기존 방법들보다 우수함을 일관되게 입증하였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0