arXiv논문2026. 05. 26. 12:52

VEN-VL: 효과적이고 효율적인 멀티모달 이해를 위한 시각적 앙상블 MoE 프레임워크

요약

VEN-VL은 '풍부하게 한 뒤 압축한다'는 원칙을 기반으로 한 시각적 앙상블 MoE 프레임워크입니다. 다양한 시각적 표현을 통합하고 적응형 라우터를 통해 정보를 점진적으로 압축하여 멀티모달 이해의 성능과 효율성을 동시에 개선합니다.

핵심 포인트

시각적 표현 통합을 통한 정보 용량 극대화
적응형 라우터를 활용한 효율적인 시각적 토큰 압축
명시적 시각적 감독을 통한 중요 정보 보존 능력 강화
적은 토큰 수로 복잡한 시각적 작업에서 높은 성능 달성

최근 멀티모달 이해 (Multimodal Understanding)를 가속화하기 위해 달성된 효율적인 방법들의 눈부신 발전에도 불구하고, 이들은 여전히 눈에 띄는 성능 저하를 겪고 있습니다. 단일 시각적 단서 (Visual Clue)의 높은 압축률에 대한 강조와 거친 어텐션 정렬 (Coarse Attention Alignment)을 동반한 휴리스틱 프루닝 (Heuristic Pruning) 전략에 대한 의존은 시각적 토큰 (Visual Tokens)의 정보 용량과 밀도에 병목 현상을 초래합니다. 이러한 한계를 해결하기 위해, 우리는 '풍부하게 한 뒤 압축한다 (Enrich then Compact)'는 원칙을 따르는 효과적이고 효율적인 인지를 위한 시각적 앙상블 MoE (Mixture-of-Experts) 프레임워크인 VEN-VL을 제안합니다. 구체적으로, 우리는 먼저 다양한 관점의 시각적 표현 (Visual Representations)을 통합하여 정보 용량을 풍부하게 하고, 그 다음 특화된 시각적 전문가 (Visual Experts) 내의 적응형 라우터 (Adaptive Routers)를 통해 이를 점진적으로 압축하여 정보 밀도를 높입니다. 또한, 명시적인 시각적 감독 (Visual Supervision)을 통해 바닐라 구조 (Vanilla Structure)의 재구성 능력을 통합함으로써 중요한 정보 보존을 용이하게 합니다. 실험 결과는 적은 수의 정보 응축 토큰 (Information-condensed Tokens)만으로도 복잡한 시각적 작업에서 우리의 우수성을 입증하며, 이는 성능과 효율성 사이의 간극을 효과적으로 메워줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

VEN-VL: 효과적이고 효율적인 멀티모달 이해를 위한 시각적 앙상블 MoE 프레임워크

요약

핵심 포인트

댓글