arXiv논문2026. 06. 04. 13:17

쿼리 기반 교차 모달 프로젝터(Query-based Cross-Modal Projector)를 통한 Mamba 멀티모달 LLM 강화

요약

Transformer의 이차 복잡도 문제를 해결하기 위해 Mamba 구조를 활용한 멀티모달 LLM 강화 연구를 소개합니다. 쿼리 기반 교차 모달 프로젝터를 통해 시각적 토큰을 효율적으로 압축하고 2D 스캔 설계의 번거로움을 제거했습니다.

핵심 포인트

Mamba의 선택적 스캔 구조를 통한 계산 효율성 확보
쿼리 기반 프로젝터로 시각적 토큰 압축 및 성능 향상
수동 2D 스캔 순서 설계 필요성 제거
시각-언어 이해 벤치마크에서 성능 및 처리량 개선 확인

입력 길이에 따른 Transformer의 이차 복잡도(quadratic complexity)는 대규모 언어 모델(LLMs)에 지속 불가능한 계산 부하를 가합니다. 이와 대조적으로, 선택적 스캔 구조 상태 공간 모델(Selective Scan Structured State-Space Model)인 Mamba는 이러한 계산 과제를 효과적으로 해결합니다. 본 논문은 교차 주의 집중(cross-attention) 메커니즘을 통해 입력을 기반으로 시각적 토큰(visual tokens)을 압축함으로써, 시각-언어 모델링(vision-language modeling)을 위한 Mamba의 효율성을 강화하도록 설계된 쿼리 기반 교차 모달 프로젝터(query-based cross-modal projector)를 탐구합니다. 이 혁신적인 프로젝터는 또한 원래의 이미지 특징(image features)을 Mamba LLM을 위한 입력 시퀀스로 변환할 때, 수동으로 2D 스캔 순서(2D scan order)를 설계해야 할 필요성을 제거합니다. 다양한 시각-언어 이해 벤치마크에 걸친 실험 결과는 제안된 교차 모달 프로젝터가 Mamba 기반 멀티모달 LLM을 강화하여 성능과 처리량(throughput)을 모두 향상시킨다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

쿼리 기반 교차 모달 프로젝터(Query-based Cross-Modal Projector)를 통한 Mamba 멀티모달 LLM 강화

요약

핵심 포인트

댓글