제거하지 말고 재라우팅하라: 시각-언어 모델(VLM)을 위한 복구 가능한 시각적 토큰 라우팅
요약
기존 VLM의 시각적 토큰 제거 방식은 비가역적이라 정보 손실이 발생합니다. 이를 해결하기 위해 선택되지 않은 토큰을 폐기하지 않고 다음 단계에서 재사용하는 'Reroute' 기술을 제안합니다.
핵심 포인트
- 기존의 순위 지정 후 제거(rank-and-remove) 방식의 취약성 지적
- 디코더 깊이에 따라 토큰의 중요도가 변하는 특성 반영
- 학습이 필요 없는 플러그인 방식의 복구 가능한 라우팅 제안
- LLaVA-1.5, Qwen 기반 모델에서 VQA 및 접지 성능 향상 입증
시각-언어 모델 (Vision-language models, VLMs)은 이미지를 수백에서 수천 개의 시각적 토큰 (visual tokens)으로 투영하며, 이는 어텐션 연산 (attention computation)과 KV-캐시 (KV-cache) 메모리 측면 모두에서 디코더 추론 (decoder inference) 비용을 높게 만듭니다. 기존의 시각적 토큰 감소 방법들은 주로 순위 지정 후 제거 (rank-and-remove) 패러다임을 따릅니다. 즉, 시각적 토큰의 점수를 매기고, 압축된 하위 집합만 유지하며, 나머지는 영구적으로 폐기합니다. 우리는 이러한 비가역적인 동작이 취약하다는 것을 보여줍니다. 왜냐하면 시각적 토큰의 중요성은 디코더 깊이 (decoder depth)에 따라 변하기 때문입니다. 특정 단계에서 낮은 순위를 기록한 토큰이, 특히 접지 민감형 (grounding-sensitive) 쿼리의 경우 나중 레이어에서는 관련성이 높아질 수 있습니다. 우리는 제거를 복구 가능한 라우팅 (recoverable routing)으로 대체하는 학습이 필요 없는 플러그인인 Reroute를 제안합니다. 각 라우팅 단계에서 선택된 시각 토큰은 디코더 블록을 통과하는 반면, 연기된 토큰은 해당 단계를 우회하여 다음 라우팅 결정 시 후보 풀 (candidate pool)에 다시 진입합니다. Reroute는 기존의 어텐션 점수 순위 규칙과 단계별 스케줄을 재사용하므로, 이를 보완하는 프루닝 (pruning) 방법의 이론적 TFLOPs 및 KV-캐시 예산 범주를 그대로 유지합니다. LLaVA-1.5 및 Qwen 백본을 사용하는 FastV, PDrop, Nüwa 변형 모델들에 대해 실험한 결과, Reroute는 공격적인 토큰 감소 상황에서도 일반적인 VQA 성능을 유지하면서 접지 (grounding) 성능을 향상시켰습니다. 이러한 결과는 VLM 토큰 감소를 단순히 비가역적인 프루닝으로 볼 것이 아니라, 복구 가능한 라우팅으로 보아야 함을 시사합니다. 코드는 여기에서 확인할 수 있습니다: https://github.com/elmma/mllm-reroute/
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기