arXiv논문2026. 05. 14. 04:03

확장 가능한 Vision Transformers를 위한 Elastic Attention Cores

요약

Vision Transformers(ViTs)의 고해상도 처리 시 발생하는 제곱 복잡도 문제를 해결하기 위해, 소수의 학습된 코어 토큰을 통해 정보를 교환하는 VECA(Visual Elastic Core Attention) 구조를 제안합니다. VECA는 패치 간 직접적인 상호작용 대신 코어를 통신 인터페이스로 활용하여 선형 시간 복잡도 $O(N)$을 달성하며, 추론 시 계산량과 정확도 사이의 탄력적인 조절이 가능합니다.

핵심 포인트

기존 ViT의 제곱 스케일링 문제를 해결하기 위해 선형 복잡도 $O(N)$을 갖는 코어-주변부(core-periphery) 구조를 도입함
학습된 소수의 코어 임베딩 세트가 패치 토큰 간의 정보 교환을 위한 통신 인터페이스 역할을 수행함
중첩된 학습(nested training)을 통해 추론 단계에서 계산 효율성과 모델 정확도 간의 탄력적 절충(trade-off)을 지원함
기존 cross-attention 방식과 달리 입력 토큰 전체 세트를 유지하여 정보 병목 현상을 방지함

Vision Transformers (ViTs)는 all-to-all self-attention (자기 주의 집중)을 활용하여 강력한 데이터 기반 스케일링 (scaling)을 달성합니다. 그러나 이러한 유연성은 이미지 해상도에 따라 제곱으로 증가하는 계산 비용을 초래하여, 고해상도 영역에서 ViTs의 사용을 제한합니다. 이 접근 방식의 기저에는 풍부한 시각적-의미적 표현 (visual-semantic representations)을 학습하기 위해 토큰 간의 쌍별 상호작용 (pairwise token interactions)이 필수적이라는 가정이 깔려 있습니다. 본 연구에서 우리는 이러한 가정에 의문을 제기하며, 패치 간의 직접적인 상호작용 없이도 효과적인 시각적 표현을 학습할 수 있음을 입증합니다. 우리는 소수의 학습된 코어 (cores) 세트에 의해 가능해지는 효율적인 선형 시간 코어-주변부 구조화된 어텐션 (core-periphery structured attention)을 사용하는 비전 트랜스포머 아키텍처인 VECA (Visual Elastic Core Attention)를 제안합니다. VECA에서 이러한 코어들은 통신 인터페이스 역할을 합니다. 즉, 패치 토큰들은 처음부터 초기화되어 레이어를 통해 전파되는 코어 토큰을 통해서만 독점적으로 정보를 교환합니다. $N$개의 이미지 패치가 해상도에 불변하는 $C$개의 학습된 "코어 (core)" 임베딩 세트와만 직접 상호작용하기 때문에, 미리 정해진 $C$에 대해 선형 복잡도 $O(N)$을 생성하여 제곱 스케일링을 우회합니다. 이전의 cross-attention 아키텍처와 비교하여, VECA는 $N$개의 입력 토큰 전체 세트를 유지하고 반복적으로 업데이트함으로써 작은 $C$-way 병목 현상을 방지합니다. 코어 축을 따른 중첩된 학습 (nested training)과 결합하여, 우리 모델은 추론 중에 계산량과 정확도를 탄력적으로 절충할 수 있습니다. 분류 및 밀집 작업 (dense tasks) 전반에 걸쳐 VECA는 계산 비용을 줄이면서도 최신 비전 파운데이션 모델 (vision foundation models)과 경쟁할 만한 성능을 달성합니다. 우리의 결과는 탄력적인 코어-주변부 어텐션 (elastic core-periphery attention)이 Vision Transformers를 위한 확장 가능한 대안적 빌딩 블록임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

확장 가능한 Vision Transformers를 위한 Elastic Attention Cores

요약

핵심 포인트

댓글