arXiv논문2026. 06. 02. 12:22

CRAM: 멀티모달 지속적 지시어 튜닝을 위한 중심점 라우팅 및 적응형 MoE

요약

멀티모달 지속적 지시어 튜닝(MCIT) 시 발생하는 치명적 망각과 파라미터 효율성 문제를 해결하기 위한 CRAM 프레임워크를 제안합니다. 중심점 가이드 라우팅과 적응형 MoE를 통해 태스크 간 간섭을 최소화하고 효율적인 능력 확장을 구현합니다.

핵심 포인트

CRAM은 태스크별 패턴을 독립 모듈로 격리하여 망각 방지
적응형 랭크 인스턴스화로 필요한 파라미터만 동적 할당
중심점 가이드 라우팅을 통한 기존 전문가 능력의 안정적 재사용
직교성 페널티를 적용하여 새로운 업데이트의 간섭 제한

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 지시어 튜닝 (Instruction Tuning)을 통해 이질적인 시각-언어 태스크를 공유된 생성 프레임워크 아래 통합하지만, 실제 환경에서의 배포는 지속적인 능력 확장을 요구하며, 이에 따라 멀티모달 지속적 지시어 튜닝 (Multimodal Continual Instruction Tuning, MCIT)이 필수적입니다. 기존 방법들은 공유된 파라미터 세트로 모든 태스크를 업데이트하거나, 각 새로운 태스크를 위해 전용 모듈을 할당합니다. 공유 업데이트는 이질적인 태스크들이 서로 경쟁하게 만들어 학습된 능력의 망각을 초래합니다. 반대로, 격리된 확장은 간섭은 방지하지만 긴 태스크 스트림에 걸쳐 파라미터 효율성 (Parameter Efficiency)을 심각하게 제한합니다. 이러한 딜레마를 해결하기 위해, 우리는 CRAM을 제안합니다. 구체적으로, CRAM은 태스크별 패턴을 독립적인 모듈로 격리함으로써 태스크 간의 치명적 망각 (Catastrophic Forgetting)을 완화합니다. 파라미터 효율성을 더욱 높이기 위해, 우리는 적응형 랭크 인스턴스화 (Adaptive-rank Instantiation)를 활용하여 기존 전문가의 능력과 새로운 태스크 요구 사항 사이의 능력 격차를 식별하고, 필요한 파라미터만을 동적으로 할당합니다. 태스크 간의 안정적인 재사용을 보장하기 위해, 중심점 가이드 라우팅 (Centroid-guided Routing)은 기존 전문가의 능력을 인식하고 활성화하며, 직교성 페널티 (Orthogonality Penalty)는 새로운 업데이트가 태스크별 방향으로 제한되도록 하여 일반적인 능력을 재학습하는 것을 방지합니다. 다양한 벤치마크에 걸친 광범위한 실험을 통해 기존 방법들보다 우수함을 일관되게 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CRAM: 멀티모달 지속적 지시어 튜닝을 위한 중심점 라우팅 및 적응형 MoE

요약

핵심 포인트

댓글