arXiv논문2026. 05. 29. 11:29

PARCEL: 효율적인 시각-언어 이해를 위한 조건부 탄력적 쿼리를 이용한 풀 앵커링 재샘플링 (Pool-Anchored Resampling

요약

PARCEL은 LVLM의 계산 병목 현상을 해결하기 위해 제안된 시각적 토큰 압축 아키텍처입니다. 공간 풀 토큰을 앵커로 활용하여 쿼리 토큰이 상호 보완적인 시각적 특징에 집중하도록 유도함으로써, 다양한 토큰 예산에서도 높은 성능과 효율성을 유지합니다.

핵심 포인트

LVLM의 이차적 계산 병목 현상 해결을 위한 탄력적 토큰 압축 제안
공간 풀 토큰을 저주파 레이아웃 앵커로 설정하여 공간적 접지 능력 유지
풀 조건부 쿼리 재샘플링을 통해 상호 보완적인 시각적 특징 추출
27개 벤치마크에서 기존 마트료시카 베이스라인 대비 우수한 성능 입증

대규모 시각-언어 모델 (Large Vision-Language Models, LVLMs)은 시각적 입력을 조밀한 토큰 시퀀스 (dense token sequences)로 매핑하며, 이는 추론 시 이차적인 계산 병목 현상 (quadratic computational bottleneck)을 초래합니다. 탄력적 시각 토큰 압축 (Elastic visual-token compression)은 다양한 시각 토큰 예산 (visual-token budgets)에서 실행될 수 있는 단일 모델을 학습함으로써 이 문제를 해결합니다. 그러나 기존 방식들은 공격적인 압축 상황에서 어려움을 겪습니다. 중첩 풀링 (nested pooling)과 같은 공간 전용 압축 (Spatial-only compression)은 불완전한 저역 통과 필터 (low-pass filter)처럼 동작하여 미세한 세부 정보를 가리는 스펙트럼 에일리어싱 (spectral aliasing)을 유발합니다. 중첩 쿼리 재샘플링 (nested query resampling)과 같은 쿼리 전용 압축 (Query-only compression)은 명시적인 그리드 정렬 토큰 (grid-aligned tokens)을 비국소적 요약 (non-local summaries)으로 대체하며, 이로 인해 공간적 접지 (spatial grounding) 능력이 크게 저하됩니다. 이러한 표현의 충돌 (representational conflict)을 해결하기 위해, 우리는 특징 추출 (feature extraction)의 작업을 동적으로 분할하는 시각적 토큰화 아키텍처인 PARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding)을 소개합니다. PARCEL은 공간 풀 토큰 (spatial pool tokens)을 저주파 레이아웃 앵커 (low-frequency layout anchors)로 설정하고, 풀 조건부 쿼리 재샘플링 (Pool-Conditioned Query Resampling)을 통해 이러한 앵커에 탄력적 쿼리 토큰 (elastic query tokens)을 조건화합니다. 이는 쿼리 토큰이 중복된 공간 매핑 (spatial mapping) 대신 상호 보완적인 시각적 특징 (complementary visual features)에 집중하도록 유도합니다. 27개의 벤치마크에 걸친 광범위한 평가 결과, PARCEL은 성능-효율성 파레토 프런티어 (performance-efficiency Pareto frontier)를 개선하며, "한 번 학습하여 어디든 배포한다 (train once, deploy anywhere)"라는 패러다임을 유지하면서 다양한 시각 토큰 예산에 대해 기존의 마트료시카 (matryoshka) 베이스라인들을 일관되게 능가함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

PARCEL: 효율적인 시각-언어 이해를 위한 조건부 탄력적 쿼리를 이용한 풀 앵커링 재샘플링 (Pool-Anchored Resampling

요약

핵심 포인트

댓글