arXiv논문2026. 05. 26. 12:48

Prism: 확장 가능한 멀티모달 지속적 지시어 튜닝을 위한 플러그인 방식의 재현 가능한 인프라

요약

멀티모달 지속적 지시어 튜닝(MCIT) 연구의 엔지니어링 병목을 해결하기 위한 Prism 프레임워크를 소개합니다. Prism은 플러그인 방식을 통해 기존 MLLM 코드베이스를 수정하지 않고도 새로운 알고리즘을 독립적으로 통합할 수 있게 합니다.

핵심 포인트

MCIT 연구의 구현 오버헤드 및 코드 파편화 문제 해결
알고리즘 개발과 백본 구현을 분리하는 플러그인 메커니즘 제공
대규모 학습 파이프라인 지원으로 재현 가능한 실험 환경 구축
기존 MLLM 코드베이스를 유지하며 새로운 전략 통합 가능

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 지시어 튜닝 (Instruction Tuning)을 통해 다양한 태스크를 통합된 지시어 이행 (Instruction-following) 프레임워크로 재구성함으로써 다재다능함을 달성합니다. 그러나 실제 환경에서의 배포는 새롭게 등장하는 태스크에 대한 지속적인 적응을 요구하며, 이는 멀티모달 지속적 지시어 튜닝 (Multimodal Continual Instruction Tuning, MCIT)의 필요성을 자극합니다. 그 중요성이 커지고 있음에도 불구하고, 현재의 MCIT 연구는 심각한 엔지니어링 병목 현상으로 인해 어려움을 겪고 있습니다. 기존 방법들은 일반적으로 베이스 MLLM 코드베이스를 직접 수정하여 구현되는데, 이는 상당한 구현 오버헤드를 발생시키며 방법론별로 특화된 아키텍처를 생성하여 코드 재사용과 공정한 비교를 심각하게 제한합니다. 이를 해결하기 위해, 우리는 확장 가능한 MCIT 연구를 위해 특별히 설계된 플러그인 방식의 재현 가능한 코드베이스인 Prism을 소개합니다. Prism은 경량화된 플러그인 등록 메커니즘을 통해 알고리즘 개발과 백본 (Backbone) 구현을 분리하며, 이를 통해 새로운 전략이 기본 MLLM 코드베이스를 수정하지 않고도 독립적인 플러그인으로서 통합될 수 있도록 하여 구조적 파편화를 제거하고 방법론 개발을 가속화합니다. Prism은 널리 사용되는 대규모 학습 파이프라인 (Training Pipeline)을 네이티브로 지원하여, 재현 가능하고 확장 가능한 MCIT 실험을 가능하게 합니다. 코드는 https://github.com/LAMDA-CL/Prism 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Prism: 확장 가능한 멀티모달 지속적 지시어 튜닝을 위한 플러그인 방식의 재현 가능한 인프라

요약

핵심 포인트

댓글