arXiv논문2026. 06. 02. 13:01

ProtoAda: 멀티모달 지속적 지시어 튜닝을 위한 프로토타입 가이드 적응형 어댑터 확장 및 기하학적 통합

요약

멀티모달 지속적 지시어 튜닝(MCIT) 시 발생하는 태스크 간 간섭 문제를 해결하기 위해 ProtoAda 프레임워크를 제안합니다. 기존의 유사도 기반 라우팅 한계를 극복하고자 형식 인식 프로토타입과 기하학적 통합 방식을 도입하여 모델의 성능을 최적화합니다.

핵심 포인트

기존 유사도 기반 라우팅의 태스크 할당 오류 문제 지적
형식 인식 태스크 프로토타입을 통한 정교한 라우팅 구현
기하학 인식 방식을 통한 효과적인 파라미터 재사용 및 업데이트
순차적 튜닝 시 발생하는 답변 구조 손상 문제 해결

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 지시어 튜닝 (Instruction Tuning)을 통해 강력한 성능을 달성하지만, 실제 환경에서의 배포를 위해서는 새로운 시각-언어 능력을 지속적으로 습득해야 하며, 이에 따라 멀티모달 지속적 지시어 튜닝 (Multimodal Continual Instruction Tuning, MCIT)이 필수적입니다. 태스크 간 간섭을 줄이고 협업을 촉진하기 위해, 최근의 방법들은 이미지-텍스트 유사도 라우팅 (image-text similarity routing)을 사용하는 Mixture of LoRA Experts와 같은 희소 아키텍처 (sparse architectures)를 자주 채택합니다. 그러나 응답 구조가 뚜렷하게 다른 태스크들이 매우 유사한 시각-언어적 의미론 (visual-linguistic semantics)을 공유할 수 있으며, 이로 인해 동일한 전문가 (expert)에게 잘못 라우팅될 수 있습니다. 즉, 이미지-텍스트 유사도만으로는 신뢰할 수 있는 태스크 할당을 수행하기에 불충분합니다. 예를 들어, 좌표 예측이 필요한 그라운딩 (grounding) 태스크의 전문가는 의미론적으로 유사한 VQA 태스크를 학습한 후 짧은 텍스트 답변을 생성하는 방향으로 편향될 수 있습니다. 이러한 형식에 무감각한 (format-blind) 태스크 할당은 이질적인 응답 유형을 공유 파라미터에 통합하여, 그래디언트 간섭 (gradient interference)과 비효효율적인 전문가 협업을 유발합니다. 이 문제를 해결하기 위해, 우리는 프로토타입 가이드 적응형 튜닝 프레임워크인 ProtoAda를 제안합니다. ProtoAda는 형식 인식 태스크 프로토타입 (format-aware task prototypes)을 도입하여 태스크 할당 및 라우팅을 태스크 의미론과 출력 구조 모두에 정렬하며, 나아가 기하학 인식 방식 (geometry-aware manner)으로 형식 호환 업데이트를 통합하여 기존 파라미터를 효과적으로 재사용하고 점진적으로 정교화합니다. 다양한 벤치마크에 대한 광범위한 실험을 통해 ProtoAda가 우수한 성능을 달성함을 입증하였으며, 특히 순차적 튜닝에 의해 답변 구조가 쉽게 손상될 수 있는 태스크에서 탁월한 성과를 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ProtoAda: 멀티모달 지속적 지시어 튜닝을 위한 프로토타입 가이드 적응형 어댑터 확장 및 기하학적 통합

요약

핵심 포인트

댓글