본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 12:51

줌(Zoom)하기 전에 살펴보기: Visual RAG의 해상도-컨텍스트 트레이드오프를 위한 적응형 라우팅 (Adaptive Routing

요약

시각-언어 모델(VLM)의 해상도와 컨텍스트 간 트레이드오프 문제를 해결하기 위한 경량 프레임워크 ViRGo를 제안합니다. 객체 크기에 따라 전역 인지, 패치 기반 검색, 어텐션 기반 검색 중 최적의 방식을 선택하는 적응형 라우팅을 통해 정확도와 효율성을 동시에 개선합니다.

핵심 포인트

  • VLM의 작은 객체 인식 문제를 해결하기 위한 적응형 라우팅 프레임워크 ViRGo 소개
  • 객체 규모와 시맨틱 토큰 신뢰도를 결합하여 최적의 시각적 검색 방식 선택
  • 전역 인지, 패치 기반 검색, 어텐션 기반 검색 간의 효율적 스위칭 구현
  • 정확도와 추론 시간 사이의 트레이드오프를 최적화하여 성능 향상

시각-언어 모델 (Vision-Language Models, VLMs)은 쿼리와 관련된 객체가 작아질수록 어려움을 겪습니다. 이를 해결하기 위해 최근의 훈련이 필요 없는 (training-free) 접근 방식들은 로컬 이미지 영역을 동적으로 검색하고 확대(zoom)합니다. 그러나 우리는 검색을 무분별하게 적용하는 것이 해상도-컨텍스트 트레이드오프 (resolution-context trade-off)라는 결정적인 취약점을 간과한다는 것을 보여줍니다. 패치 기반 확대 (Patch-based zooming)는 작은 타겟에 대한 세부 정보를 복구하지만, 큰 객체를 분할하고 전역적 공간 컨텍스트 (global spatial context)를 파괴할 수 있습니다. 어텐션 기반 검색 (attention-based retrieval)은 큰 객체를 더 잘 보존하지만, 아주 작은 세부 정보에 대해서는 여전히 신뢰도가 낮습니다. 그리고 전역적 인지 (global perception)는 검색이 불필요할 때 종종 가장 빠릅니다. 이러한 실패 모드들에 착안하여, 우리는 시각적 검색을 적응형 라우팅 (adaptive routing) 문제로 공식화하는 경량 프레임워크인 ViRGo (Visual Retrieval or Global Perception)를 소개합니다. ViRGo는 초기 순전파 (forward pass) 과정에서 VLM의 내재된 로컬라이제이션 헤드 (localization heads)로부터 객체 규모를 추정하고, 이를 시맨틱 토큰 신뢰도 (semantic token confidence)와 결합하여 최소한의 추가 연산으로 전역적 인지, 패치 기반 검색, 어텐션 기반 검색 중 하나를 선택합니다. 여러 VQA 벤치마크 및 객체 크기 그룹에 걸친 실험 결과, ViRGo는 정확도-효율성 트레이드오프 (accuracy-efficiency trade-off)를 개선함을 보여줍니다. 즉, 작은 세부 정보에 대해서는 패치 검색과 대등한 성능을 보이고, 더 큰 객체에 대해서는 어텐션 기반 검색을 활용하며, 확대가 불필요할 때는 전역 베이스라인으로 라우팅하여 추론 시간을 단축합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0