참여, 변환, 또는 침묵: 효율적인 멀티모달 LLM 추론을 위한 연산자 수준의 시각적 스킵 (Operator-Level Visual
요약
멀티모달 LLM의 추론 효율성을 높이기 위해 연산자 수준에서 시각적 토큰 업데이트를 선택적으로 건너뛰는 새로운 프레임워크를 제안합니다. 답변에 영향을 주지 않는 중복 연산을 식별하여 성능 저하를 최소화하면서 연산량을 크게 줄이는 것이 핵심입니다.
핵심 포인트
- 답변에 영향을 주지 않는 '답변 침묵 중복성' 발견
- Transformer 레이어를 어텐션 및 FFN 연산자로 분해하여 분석
- Qwen2-VL 기준 성능 99.5% 유지하며 TFLOPs 33.7% 감소
- 연산자 수준의 선택적 스킵을 통한 효율적인 추론 달성
멀티모달 거대 언어 모델 (MLLMs)은 점점 더 긴 시각적 토큰 (visual-token) 시퀀스를 처리하고 있으며, 이는 전체적인 추론 연산량을 증가시킵니다. 기존의 가속화 방법들은 대개 시각적 토큰을 제거하거나 전체 레이어에서 시각적 토큰 업데이트를 건너뛰지만, 이러한 거친 (coarse) 전략은 미세한 증거를 버리거나 유용한 연산자 (operator)를 중복된 것과 함께 억제할 수 있습니다. 본 논문에서 우리는 답변 관찰 가능성 (answer-observable) 관점에서 시각적 토큰 연산을 연구하였으며, 후기 시각적 토큰 업데이트가 큰 규모를 유지하면서도 답변 토큰 표현 (answer-token representations)에는 거의 영향을 미치지 않을 수 있음을 발견했습니다. 이러한 답변 침묵 중복성 (answer-silent redundancy)에 착안하여, 우리는 각 Transformer 레이어를 어텐션 (attention) 및 FFN 연산자로 분해하고, 유용한 시각적 연산이 종종 연산자 지배적 (operator-dominant)이며 레이어 의존적 (layer-dependent)임을 보여줍니다. 우리는 전체 시각적 토큰 시퀀스를 보존하면서 중복되는 어텐션, FFN, 또는 둘 다를 선택적으로 우회하는 연산자 수준의 시각적 토큰 스킵 프레임워크를 제안합니다. 세 가지 MLLM 아키텍처와 10개의 VQA 벤치마크에 걸친 실험을 통해, 우리의 방법이 강력한 효율성-정확도 트레이드오프 (efficiency-accuracy trade-offs)를 달성함을 보여주며, Qwen3-VL에서 바닐라 (vanilla) 모델 성능의 extbf{99.5}%를 유지하면서 extbf{33.7}%의 TFLOPs를 감소시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기