arXiv논문2026. 06. 26. 10:45

TOPS: 효율적인 MLLM 추론을 위한 토큰 최적 보존 집합 구축 기반의 제1원리 시각적 토큰 프루닝

요약

MLLM의 계산 오버헤드를 줄이기 위해 시각적 토큰을 효율적으로 제거하는 TOPS 프레임워크를 제안합니다. 정보 이론적 분석을 통해 작업 관련성, 정보 커버리지, 의미론적 다양성이라는 세 가지 원칙을 정립했습니다. 실험 결과, 대량의 토큰을 제거하면서도 모델 성능을 거의 완벽하게 유지함을 입증했습니다.

핵심 포인트

제1원리 관점에서 시각적 토큰 프루닝 문제를 재정의
학습이 필요 없고 모델에 구애받지 않는(training-free, model-agnostic) 방식
작업 관련성, 정보 커버리지, 의미론적 다양성 기반의 토큰 선택
LLaVA-NeXT에서 토큰 77.8% 제거 시에도 성능 유지
중복 토큰 제거를 통한 환각(hallucination) 현상 완화 가능성 제시

멀티모달 거대 언어 모델 (MLLMs)은 강력한 멀티모달 추론 능력을 달성했지만, 방대한 양의 시각적 토큰 (visual tokens)으로 인해 효율성이 제한되며 이는 상당한 계산 오버헤드를 유발합니다. 시각적 토큰 프루닝 (Visual token pruning)은 자연스러운 해결책을 제공하지만, 기존 방법들은 불완전합니다. 어텐션 기반 (attention-based) 기준은 중복된 토큰을 유지하는 경향이 있고, 다양성 기반 (diversity-based) 기준은 사용자 지시 사항을 무시하는 경우가 많습니다. 여러 기준을 결합한 방법들조차 토큰 프루닝의 본질적인 목적에 대한 원칙적인 정식화가 여전히 부족합니다. 본 논문에서는 제1원리 (first-principles) 관점에서 시각적 토큰 프루닝을 재검토하고, 이를 토큰 최적 보존 집합 (Token Optimal Preservation Sets)을 구축하는 문제로 정식화합니다. 하향식 정보 이론적 분석 (top-down information-theoretic analysis)을 통해, 효과적인 토큰 선택을 위한 세 가지 근본 원칙인 작업 관련성 (Task Relevance), 정보 커버리지 (Information Coverage), 그리고 의미론적 다양성 (Semantic Diversity)을 식별합니다. 이러한 원칙을 바탕으로, 다양한 MLLM에 적용 가능한 학습이 필요 없고 모델에 구애받지 않는 (training-free and model-agnostic) 프루닝 모듈인 TOPS를 제안합니다. 7개의 MLLM 백본 (backbones)과 14개의 벤치마크에 대한 광범위한 실험을 통해, TOPS가 다양한 프루닝 설정에서 이전 방법들보다 뛰어난 성능을 보임을 입증했습니다. 특히 LLaVA-NeXT에서 TOPS는 시각적 토큰의 77.8%를 제거하면서도 7B 및 13B 모델에서 각각 100.0%와 100.6%의 성능을 유지하였으며, 이는 중복된 시각적 토큰을 제거하는 것이 때로는 환각 (hallucination) 현상을 완화할 수 있으며 향후 경량 MLLM 설계에 영감을 줄 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TOPS: 효율적인 MLLM 추론을 위한 토큰 최적 보존 집합 구축 기반의 제1원리 시각적 토큰 프루닝

요약

핵심 포인트

댓글