OccamToken: 학습이 필요 없는 예산 적응형 토큰 프루닝을 통한 효율적인 VLM 추론
요약
OccamToken은 VLM의 추론 효율성을 높이기 위해 학습 없이 시각적 토큰을 프루닝하는 새로운 프레임워크입니다. 레지스터 기반의 상대적 증거 테스트를 통해 이미지와 쿼리에 적응하는 동적 임계값을 적용하여 토큰을 압축합니다.
핵심 포인트
- 학습이 필요 없는(training-free) VLM 토큰 프루닝 방식 제안
- 레지스터 토큰을 참조점으로 활용하여 토큰 중요도 왜곡 해결
- 이미지 적응형 중복성 및 쿼리 적응형 관련성 프루닝 수행
- LLaVA-NeXT 등에서 정확도를 유지하며 토큰 수를 획기적으로 감소
시각-언어 모델 (Vision-language models, VLMs)은 시각적 이해를 위해 긴 시각적 토큰 시퀀스 (visual token sequences)에 의존하며, 이로 인해 프리필 (prefill) 단계에서 연산과 메모리 비용이 모두 높게 발생합니다. 기존의 대부분의 프루닝 (pruning) 방법들은 시각적 토큰에 중요도 점수를 할당하고 고정된 상위 K개 (top-K) 부분 집합을 유지하는 절대적 순위 지정 (absolute-ranking) 패러다임을 따릅니다. 본 연구에서 우리는 이 패러다임이 근본적으로 취약하다고 주장합니다. 어텐션 싱크 (attention sinks)가 토큰 중요도 순위를 왜곡하며, 이미지의 중복성 (redundancy) 및 쿼리 의존적 시각적 증거 (query-dependent visual evidence)로 인해 입력값에 따라 고정된 토큰 예산 (token budgets)을 신뢰할 수 없기 때문입니다. 우리는 절대적 토큰 순위 지정 대신 레지스터 기반 상대적 증거 테스트 (register-anchored relative evidence testing)로 대체하는 학습이 필요 없는 (training-free) 프레임워크인 OccamToken을 제안합니다. OccamToken은 어떤 토큰이 전역적으로 중요한지를 묻는 대신, 특정 시각적 토큰이 레지스터 기반 참조 (register-based reference) 이상의 정보를 제공하는지를 평가합니다. 우리의 핵심 통찰은 레지스터 토큰 (register tokens)이 정보량이 낮은 어텐션 패턴을 자연스럽게 흡수하여, 진정으로 유익한 시각적 증거를 식별하기 위한 안정적인 참조 역할을 한다는 점입니다. 이 원리에 기반하여, OccamToken은 레지스터 어텐션 (register attention)에서 도출된 동적 임계값 (dynamic thresholds)을 통해 이미지 적응형 중복성 프루닝 (image-adaptive redundancy pruning)과 쿼리 적응형 관련성 프루닝 (query-adaptive relevance pruning)을 모두 수행합니다. LLaVA-NeXT, LLaVA-v1.5, Qwen3-VL에 걸쳐 OccamToken은 추가 학습 없이도 정확도-효율성 트레이드오프 (accuracy-efficiency trade-off)를 일관되게 개선합니다. 특히 LLaVA-NeXT에서 OccamToken은 2,880개의 시각적 토큰을 약 40개로 줄이면서도 기존 정확도의 93% 이상을 보존하며, 극단적인 1.4% 유지 체제에서도 안정적인 시각적 토큰 압축을 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기