CMTFormer: RGB-이벤트 객체 탐지를 위한 Transformer와 계층적 정보 상호작용의 결합
요약
RGB 이미지와 이벤트 카메라 데이터를 계층적으로 통합하는 CMTFormer를 제안합니다. SAM, CEM, LDFM 모듈을 통해 저수준부터 고수준 특징까지 단계적으로 융합하여 객체 탐지 성능을 극대화했습니다.
핵심 포인트
- RGB와 이벤트 스트림 간의 이질성 문제를 해결하는 계층적 상호작용 설계
- Shallow, Middle, Deep 단계별 특화 모듈을 통한 효율적 다중 모달 융합
- Spatial Prior Module을 통한 전역 공간 정보 활용 및 위치 정확도 향상
- DSEC-Detection 및 PKU-DAVIS-SOD 벤치마크에서 우수한 성능 입증
이벤트 카메라(Event cameras)는 높은 시간 해상도(temporal resolution)와 높은 동적 범위(high dynamic range)로 희소한 밝기 변화를 포착하여, 기존 RGB 프레임의 결함을 보완합니다. 그러나 이전의 다중 모달 융합(multi-modal fusion) 기술들은 일반적으로 RGB 프레임과 이벤트 스트림(event streams) 사이의 내재적인 이질성(heterogeneity)을 처리하는 데 실패하며, 이로 인해 교차 모달 융합(cross-modal fusion) 과정에서 노이즈 증폭이나 중복된 특징 통합(redundant feature integration)이 쉽게 발생합니다. 본 논문에서는 효율적이고 안정적인 다중 모달 협업을 달성하기 위해 RGB와 이벤트 정보를 계층적으로 통합하는 Cross-Modal information inTeraction transFormer, 즉 CMTFormer를 제안합니다. 구체적으로, 우리는 shallow-to-deep 정보 상호작용 스킴(information interaction scheme)을 설계합니다. shallow 단계에서는 RGB와 이벤트의 저수준 특징(low-level features)을 효율적으로 융합하여 속성 차이(attribute disparities)를 완화하고 노이즈 정보를 방지하는 Shallow Alignment Module (SAM)을 제시합니다. middle 단계에서는 질감(texture)과 에지(edge) 정보를 활용하여 상호 강화된 중간 수준 특징(middle-level features)을 생성하는 Cross-modal Enhancement Module (CEM)을 고안합니다. deep 단계에서는 학습 가능한 가중치(learnable weights)를 통해 고수준 정보 집계(high-level information aggregation)를 수행하여 네트워크가 RGB와 이벤트 단서를 적응적으로 융합할 수 있도록 하는 Learnable Deep Fusion Module (LDFM)을 제시합니다. 또한, 전역 공간 정보(global spatial information)를 활용하여 위치 정확도(localization accuracy)를 높이기 위한 Spatial Prior Module을 추가로 설계했습니다. 두 가지 널리 쓰이는 이벤트 기반 객체 탐지 벤치마크인 DSEC-Detection과 PKU-DAVIS-SOD에서 광범위한 실험을 수행했습니다. 우리의 CMTFormer는 단일 모달(uni-modal) 및 다중 모달(multi-modal) 설정 모두에서 탐지 성능을 일관되게 능가하며, 우리 패러다임의 효과를 강력하게 입증합니다. 코드는 출판 시 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기