이미지도 16x16=256개의 슈퍼픽셀로서 가치가 있는가? 어텐션 기반 이미지 분류를 위한 프레임워크
요약
본 연구는 슈퍼픽셀 기반 이미지 분류와 Vision Transformers(ViTs)를 통합한 새로운 프레임워크인 Superpixel Transformers(SPT)를 제안합니다. SPT는 GAT를 활용하여 슈퍼픽셀의 형태와 색상 정보를 효과적으로 통합하며, 기존 GNN 방식보다 우수한 성능을 입증했습니다.
핵심 포인트
- 슈퍼픽셀과 ViT를 결합한 새로운 SPT 프레임워크 제안
- GAT를 이용한 슈퍼픽셀 이미지 분류(SICGAT) 모델 일반화
- 다차원 사인-코사인 위치 인코딩 및 풍부한 패치 데이터 구조 도입
- CIFAR10, FashionMNIST 등에서 기존 GNN 대비 우수한 성능 달성
슈퍼픽셀 (Superpixel) 기반 이미지 분류는 전통적으로 불규칙한 이미지 표현을 처리하기 위해 그래프 신경망 (GNNs)을 활용해 왔습니다. Vision Transformers (ViTs)에 의해 주도된 최근의 컴퓨터 비전 발전은 셀프 어텐션 (Self-attentional) 모델의 새로운 패러다임을 도입하며 다양한 작업에서 합성곱 신경망 (CNNs)을 능가했습니다. 그러나 GNNs, 슈퍼픽셀, 그리고 트랜스포머 (Transformers) 사이의 시너지 효과를 갖는 연결은 아직 탐구되지 않은 상태로 남아 있습니다. 본 연구에서는 슈퍼픽셀 기반 이미지 분류와 ViTs를 통합하는 새로운 프레임워크인 Superpixel Transformers (SPT)를 제안합니다. SPT는 임의의 슈퍼픽셀 기반 청킹 (Chunking) 전략, 연결 그래프 (Connectivity graphs), 그리고 위치 인코딩 (Positional encodings)을 지원하도록 Graph Attention Networks (GATs)를 이용한 슈퍼픽셀 이미지 분류 (SICGAT) 모델과 ViT를 일반화합니다. 우리는 다차원 사인-코사인 (Sine-cosine) 위치 인코딩과 슈퍼픽셀의 형태 및 색상 정보를 완전히 통합하는 풍부한 패치 데이터 구조를 포함한 개선 사항을 도입합니다. 다양한 슈퍼픽셀 생성 및 그래프 연결 전략을 사용하여 CIFAR10, FashionMNIST, Imagenette과 같은 데이터셋에서 SPT를 테스트함으로써, SPT가 이전의 슈퍼픽셀 기반 GNN 방법들에 비해 우수한 성능을 달성하며 ViTs와 비교해도 경쟁력이 있음을 입증합니다. 특히, 우리의 접근 방식은 픽셀 집계 (Pixel aggregation) 과정에서의 정보 손실과 같은 SICGAT의 한계를 해결하며, 제약된 그래프 연결이 어떻게 ViT의 성능을 향상시킬 수 있는지 보여줍니다. SPT는 슈퍼픽셀 기반 모델과 트랜스포머 모델 사이의 간극을 메워, 교차 도메인 일반화 (Cross-domain generalization) 및 하이브리드 어텐션 프레임워크의 미래 혁신을 위한 길을 열어주며, 이미지 또한 $16 imes16$개의 슈퍼픽셀로서 가치가 있을 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기