arXiv논문2026. 05. 25. 16:47

효율적인 토큰 탐색: Visual Geometry Transformers를 위한 토큰 선택 가이드

요약

Visual Geometry Transformers의 계산 효율성을 높이기 위해 토큰 수를 제한하는 2단계 프레임워크를 제안합니다. 프레임 간 및 프레임 내 선택 전략을 통해 성능 저하 없이 모델 속도를 85% 이상 가속화할 수 있습니다.

핵심 포인트

전역 어텐션의 계산 비용 문제를 해결하기 위한 토큰 선택 전략 제안
프레임 간(inter-frame) 및 프레임 내(intra-frame) 2단계 선택 프레임워크 도입
다양성 기반 전략과 엔트로피 유도 레이어 인식 희소화 활용
베이스라인 성능 유지하며 85% 이상의 속도 향상 달성

Visual geometry transformers (시각 기하학 트랜스포머)는 피드포워드 (feed-forward) 방식으로 여러 3D 속성을 공동 예측할 수 있게 함으로써, 다중 뷰 3D 재구성 (multi-view 3D reconstruction)을 위한 강력한 아키텍처가 되었습니다. 그러나 이러한 모델 내부의 전역 어텐션 (global attention) 레이어로 인해 계산 비용이 입력 시퀀스 길이의 제곱에 비례하여 증가합니다. 이는 확장성 (scalability)과 효율성 (efficiency)을 모두 제한합니다. 본 연구에서는 단순하면서도 일반적인 전략을 통해 이 문제를 해결합니다: 전역 어텐션 동안 각 쿼리 (query)가 상호작용하는 키/값 (key/value) 토큰의 수를 제한하는 것입니다. 효과적인 토큰 선택을 달성하기 위해, 우리는 2단계 프레임워크를 도입합니다. 첫째, 프레임 레벨에서 작동하는 프레임 간 선택 (inter-frame selection) 단계가 보존되어야 할 프레임을 식별합니다. 둘째, 프레임 내 선택 (intra-frame selection) 단계가 선택된 프레임 내에서 더 많은 중복 토큰을 추가로 제거합니다. 우리의 분석은 장면의 광범위한 커버리지를 보장하는 프레임 간 선택을 위한 다양성 기반 전략 (diversity-based strategy)의 장점을 강조합니다. 프레임 내 선택의 경우, 전역 어텐션 패턴의 엔트로피 (entropy)에 의해 유도되는 선택 프로세스와 함께 레이어 인식 희소화 (layer-aware sparsification)가 필요함을 보여줍니다. 우리의 접근 방식은 기존 솔루션과 비교하여 우수한 속도-정확도 트레이드오프 (speed-accuracy trade-off)를 제공합니다. 광범위한 실험을 통해, 500장의 이미지가 있는 장면에 대해 베이스라인 성능을 유지하거나 심지어 향상시키면서도 Visual geometry transformers를 85% 이상 가속화함을 보여주었으며, 이는 우리의 토큰 선택 전략이 향후 Visual geometry transformers의 응용 분야에서 중요한 역할을 할 수 있음을 시사합니다. 프로젝트 웹사이트는 https://zsh2000.github.io/good-token-hunting.github.io 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

효율적인 토큰 탐색: Visual Geometry Transformers를 위한 토큰 선택 가이드

요약

핵심 포인트

댓글