arXiv논문2026. 06. 29. 22:57

$\mathrm{O}(2)$의 이산 부분군에 대해 등변성을 갖는 Vision Transformer를 위한 통합 프레임워크

요약

$\mathrm{O}(2)$의 이산 부분군에 대해 등변성을 갖는 Vision Transformer(ViT) 통합 프레임워크를 제안합니다. 기존의 대칭성 인코딩 방식을 일반화하여 표현력을 보장하며, 데이터가 부족한 환경에서도 인식 정확도를 향상시킬 수 있음을 입증했습니다.

핵심 포인트

$\mathrm{O}(2)$ 이산 부분군에 대한 등변성 ViT 프레임워크 제안
기존 플리핑 및 $D_4$-등변 아키텍처를 일반화하여 통합
등변 셀프 어텐션 레이어의 표현력 및 구현 가능성 증명
육각형 패치 기반 $D_6$-등변 모델 구축 및 성능 검증
데이터 부족 환경에서 등변성 도입을 통한 정확도 향상 확인

Vision Transformer (ViT)는 시각적 인식(visual recognition)을 위한 지배적인 아키텍처가 되었습니다. 그러나 표준 모델들은 많은 시각 도메인에서 발생하는 평면 대칭성(planar symmetries)을 명시적으로 인코딩하지 않습니다. 본 논문에서는 $\mathrm{O}(2)$의 임의의 이산 부분군(discrete subgroups)에 대해 등변성(equivariant)을 갖는 Vision Transformer 제품군을 소개하며, 기존의 플리핑(flipping) 및 $D_4$-등변 Transformer 아키텍처를 일반화하는 통합 프레임워크를 제공합니다. 우리의 구성 방식은 핵심 Transformer 구성 요소들의 등변적 유사체(equivariant analogues)를 생성하며, 결과적으로 생성된 레이어들에 대한 표현력(expressivity) 보장을 제공합니다. 특히, $H \le G$인 경우, $G$-등변 ViT 클래스가 $H$-등변 ViT 클래스에 자연스럽게 임베딩됨을 보여줍니다. 또한, 단일 헤드(single-head) 설정에서, 해당 등변 셀프 어텐션(equivariant self-attention) 레이어가 일반적인 셀프 어텐션에 의해 표현 가능한 모든 $G$-등변 셀프 어텐션 맵을 구현함을 증명합니다. 더 나아가, 육각형 패치(hexagonal patches)를 기반으로 한 $D_6$-등변 모델을 구축하여, 해당 아키텍처가 6회 회전 대칭성(six-fold rotational symmetries)과 호환되도록 합니다. 우리는 $D_4$ 및 $D_6$의 부분군에 걸쳐 인위적으로 데이터가 부족한 환경(data-scarce regimes)에서 PatternNet 항공 이미지 데이터셋을 통해 결과 모델들을 평가합니다. 우리의 실험은 두 가지 등변 어텐션 메커니즘을 비교하고, 비선형성(nonlinearities)에 사용된 동차 공간(homogeneous-space) 구성의 선택이 성능에 어떻게 영향을 미치는지 분석합니다. 매칭된 파라미터 예산(parameter budgets) 하에서의 예비 결과는 등변성이 인식 정확도를 향상시킬 수 있음을 나타내며, 이는 이산 대칭군(discrete symmetry groups)이 Transformer 기반 시각 인식 모델을 어떻게 형성하는지에 대한 추가적인 연구를 촉발합니다.

AI 자동 생성 콘텐츠

원문 바로가기

$\mathrm{O}(2)$의 이산 부분군에 대해 등변성을 갖는 Vision Transformer를 위한 통합 프레임워크

요약

핵심 포인트

댓글