MambaCount: 공간적 희소 상태 공간 이중성 (Spatial Sparse State Space Duality) 블록을 이용한 효율적인
요약
MambaCount는 Transformer의 이차 복잡도 문제를 해결하기 위해 Mamba 구조를 활용한 효율적인 객체 카운팅 프레임워크입니다. S^4D 블록과 STS 서브 블록을 통해 Mamba의 인과적 제약과 높은 엔트로피 문제를 해결하여 선형 복잡도로 최첨단 성능을 달성했습니다.
핵심 포인트
- Transformer의 이차 복잡도 한계를 극복하는 선형 복잡도 모델 제안
- S^4D 블록을 통해 Mamba의 양방향 공간 의존성 모델링 제약 완화
- STS 서브 블록 도입으로 공간 토큰 응답의 높은 엔트로피 제어
- MGP 설계를 통한 교차 모달 정렬 및 해석 가능성 향상
- FSC-147 데이터셋에서 2차 쿼리 없이 SOTA 성능 달성
텍스트 가이드 오픈 보캐블러리 객체 카운팅 (Text-guided Open-vocabulary Object Counting, TOOC)은 텍스트 프롬프트로 설명된 객체의 수를 추정하는 것을 목표로 하며, 이는 특히 규모 변화가 큰 밀집된 장면에서 매우 도전적인 과제입니다. 기존의 TOOC 방식은 주로 Transformer에 의존하고 있으나, Transformer는 이미지 해상도에 대해 이차 복잡도 (quadratic complexity)를 가지므로 확장성에 한계가 있습니다. Mamba는 선형 복잡도 (linear complexity) 덕분에 유망한 대안을 제공합니다. 그러나 기존의 Mamba 기반 방식에는 두 가지 주요 한계가 있습니다. 한편으로는, Mamba의 내재적인 인과적 공식화 (causal formulation)가 비인과적 비전 작업에 필요한 양방향 공간 의존성 (bidirectional spatial dependency) 모델링을 제한합니다. 다른 한편으로는, 기존의 Mamba 기반 비전 모델들은 공간 토큰 응답에서의 제약 없는 높은 엔트로피 (high entropy)를 간과하는 경우가 많으며, 이는 국부적 세부 사항과 고주파 단서 (high-frequency cues)를 약화시킬 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 공간적 희소 상태 공간 이중성 (Spatial Sparse State Space Duality, S^4D) 블록을 기반으로 구축된 효율적인 프레임워크인 MambaCount를 제안합니다. 구체적으로, 우리는 인과적 모델링에 의해 도입되는 의존성 제약을 완화하기 위해 Mamba 내 은닉 상태 (hidden states)의 붕괴 역학 (decay dynamics)을 분석하고 재구성합니다. 또한, Mamba 내 공간 토큰 응답의 제약 없는 높은 엔트로피를 줄이기 위해 공간 토큰 선택 (Spatial Token Selection, STS) 서브 블록을 도입합니다. 추가로, 서로 다른 의미론적 수준에서 객체와 유사한 영역을 식별하기 위해 다중 입도 프로토타입 (Multi-Granularity Prototypes, MGP)을 설계하여, 교차 모달 정렬 (cross-modal alignment)과 해석 가능성을 향상시킵니다. FSC-147에 대한 광범위한 실험을 통해 MambaCount가 2차 쿼리 (secondary querying)가 없는 방법들 중 최첨단 성능 (state-of-the-art)을 달성하며, 선형 복잡도를 유지하면서도 테스트 MAE 12.23을 기록함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기