Reddit요약2026. 05. 15. 01:31

확장 가능한 Vision Transformers를 위한 Elastic Attention Cores [R]

요약

본 논문은 Vision Transformers (ViTs)의 대안적인 빌딩 블록을 제안하며, 기존 ViT가 높은 해상도에서 비용이 많이 드는 $N^2$ 셀프 어텐션을 대체합니다. 대신 코어-주변부 블록 희소 어텐션(core-periphery block-sparse attention) 구조를 가진 백본을 사용하여 계산 효율성을 높였습니다. 이 모델은 다양한 해상도에서 높은 밀집 및 분류 정확도를 유지하며, 코어 토큰 수를 조절하여 어텐션 패턴의 공간적 커버리지와 집중도를 탄력적으로 제어할 수 있다는 장점을 가집니다.

핵심 포인트

기존 ViT의 $N^2$ 셀프 어텐션 문제를 해결하기 위해 희소 어텐션 구조를 도입했습니다.
제안된 코어-주변부 블록은 계산 복잡도를 $(2NC + C^2)$로 확장하여 효율성을 높였습니다.
코어 토큰 수를 조절함으로써 어텐션 패턴의 공간적 커버리지와 집중도를 동적으로 제어할 수 있습니다.
모델은 DINOv3와 비교했을 때 경쟁력 있는 정확도를 보이며, 해상도 변화에 안정적입니다.

Vision Transformers (ViTs)를 위한 대안적인 빌딩 블록(building block)에 관한 저희의 최신 논문을 공유하고자 합니다.

저희 모델의 정확도와 밀집 특징(dense features)에 대한 삽화

전통적인 ViTs는 밀집된 ($N^2$) 셀프 어텐션 (self-attention)을 사용하며, 이는 더 높은 해상도에서 상당히 비용이 많이 들 수 있습니다. 본 연구에서는 $C$개의 코어 토큰 (core tokens)에 대해 ($2NC + C^2$)로 확장되는 코어-주변부 블록 희소 어텐션 (core-periphery block-sparse attention) 구조를 가진 대안적인 백본 (backbone)을 제안합니다.

저희는 이를 중첩 드롭아웃 (nested dropout)을 사용하여 추가로 학습시켰으며, 이를 통해 추론 비용 (inference cost)에 대한 테스트 시간 탄력적 조정 (test-time elastic adjustments)이 가능해집니다. 전체 모델은 DINOv3와 비교했을 때 매우 경쟁력 있는 밀집 및 분류 정확도 (dense & classification accuracy)를 달める 수 있으며, 해상도(256에서 1024까지) 전반에 걸쳐 안정적입니다.

흥미롭게도, 코어-밀집 어텐션 패턴 (core-dense attention patterns)은 강력한 창발적 행동 (emergent behavior)을 보여줍니다. 네트워크의 초기 레이어에서 어텐션 맵 (attention maps)은 등방성 (isotropic, 구형)을 띠지만, 네트워크의 깊은 곳으로 갈수록 점점 더 의미론적으로 정렬 (semantically aligned)됩니다.

Visual Elastic Core Attention 논문 초록

코어 토큰의 수를 조정할 때, 코어의 수를 줄이면 어텐션 패턴이 더 확산되어 공간적으로 더 넓은 영역을 커버하게 됩니다. 코어 토큰의 수를 늘리면 어텐션 패턴이 더 작아지고 더 집중됩니다.

논문: https://arxiv.org/abs/2605.12491

코드가 포함된 프로젝트 (진행 중): https://github.com/alansong1322/VECA

저희 연구에 대한 어떤 질문이든 기꺼이 답변해 드리겠습니다.

AI 자동 생성 콘텐츠

원문 바로가기

확장 가능한 Vision Transformers를 위한 Elastic Attention Cores [R]

요약

핵심 포인트

댓글