EmambaIR: 이벤트 기반 이미지 재구성을 위한 효율적인 시각 상태 공간 모델
요약
EmambaIR은 이벤트 기반 이미지 재구성을 위해 설계된 효율적인 시각 상태 공간 모델(SSM)입니다. 기존의 CNN이나 ViT 기반 방법들이 가지는 전역적 특징 포착의 어려움과 높은 시간 복잡도 문제를 해결합니다. 이 프레임워크는 크로스 모달 Top-k Sparse Attention Module (TSAM)과 Gated State-Space Module (GS)를 도입하여 공간적으로 희소하고 시간적으로 연속적인 이벤트 스트림을 효율적으로 처리하며 고해상도 재구성을 가능하게 합니다.
핵심 포인트
- EmambaIR은 이벤트 기반 이미지 재구성(Event-based Image Reconstruction)에 특화된 모델입니다.
- 기존 CNN/ViT 방식의 한계점인 전역적 특징 포착 실패 및 $O(n^2)$ 시간 복잡도를 극복했습니다.
- 핵심 구성 요소로 Top-k Sparse Attention Module (TSAM)과 Gated State-Space Module (GS)를 활용합니다.
- 공간적으로 희소하고 시간적으로 연속적인 이벤트 스트림 처리에 최적화되어 고해상도 재구성을 지원합니다.
최근의 이벤트 기반 이미지 재구성 방법들은 주로 컨볼루션 신경망(CNNs)과 비전 트랜스포머(ViTs)에 의존하여 상보적인 이벤트 정보를 처리합니다. 하지만 이러한 아키텍처들은 근본적인 한계에 직면해 있습니다. CNN은 종종 전역적 특징 상관관계를 포착하는 데 실패하며, ViT는 이차 시간 복잡도($O(n^2)$)를 발생시켜 고해상도 시나리오에서의 적용을 방해합니다. 이러한 병목 현상을 해결하기 위해, 우리는 공간적으로 희소하고 시간적으로 연속적인 이벤트 스트림을 사용하여 이미지 재구성을 위해 설계된 효율적인 시각 상태 공간 모델인 EmambaIR을 소개합니다. 저희 프레임워크는 두 가지 핵심 구성 요소를 도입합니다: 크로스 모달 Top-k Sparse Attention Module (TSAM)과 Gated State-Space Module (GS)
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기