arXiv논문2026. 05. 21. 12:15

Deformba: 적응형 상태 융합을 이용한 비전 상태 공간 모델 (Vision State Space Model)

요약

Deformba는 기존 비전 상태 공간 모델(SSM)이 가진 고정된 스캐닝 방식의 한계와 정보 스트림 간 상호작용의 어려움을 해결하기 위해 제안된 모델입니다. 컨텍스트 적응형 방법을 통해 공간적 구조 정보를 동적으로 증강하며, SSM의 선형 복잡도를 유지하면서도 교차 주의 집중(cross attention)을 통한 멀티모달 융합을 지원합니다. 2D 비전 작업부터 3D BEV 인지 작업까지 다양한 벤치마크에서 뛰어난 성능을 입증했습니다.

핵심 포인트

고정된 스캐닝 방식 대신 공간적 구조 정보를 동적으로 증강하는 컨텍스트 적응형 방법론 제안
SSM의 핵심 장점인 선형 시간 복잡도를 유지하면서도 복잡한 기하학적 구조 대응 가능
교차 주의 집중 메커니즘을 통해 다중 뷰 3D 융합과 같은 멀티모달 상호작용 지원
이미지 분류, 객체 탐지, 세그멘테이션 및 3D BEV 인지 등 다양한 시각적 작업에서 높은 성능 달성

상태 공간 모델 (State Space Models (SSMs))은 선형 시간 복잡도 (linear-time complexity)와 뛰어난 시퀀스 모델링 (sequence modeling) 능력을 입증하며, Transformer의 강력하고 효율적인 대안으로 부상했습니다. 그러나 비전 작업 (vision tasks)에 대한 적용은 여전히 도전적인 과제로 남아 있습니다. 첫째, 기존의 비전 SSM은 이미지 패치 (image patches)를 시퀀스로 평탄화하기 위해 수동으로 설계된 고정된 스캐닝 방식 (fixed scanning methods)에 크게 의존하며, 이는 미리 정의된 기하학적 구조를 강제하고 복잡성을 증가시킵니다. 둘째, 서로 다른 정보 스트림 간의 쿼리 기반 상호작용 (query-based interactions)이 필요한 도메인에서는 비전 SSM의 광범위한 채택이 저해됩니다. 이는 1D 시퀀스 모델링 작업을 위해 설계된 SSM의 본질적인 인과적 (causal) 및 자기 참조적 (self-referential) 특성 때문입니다. 이러한 융합 메커니즘은 다중 뷰 3D 융합 (multi-view 3D fusion)과 같은 중요한 인지 작업에 필수적입니다. 이러한 한계를 해결하기 위해, 우리는 SSM의 선형 복잡도를 유지하면서 공간적 구조 정보 (spatial structural information)를 동적으로 증강하는 컨텍스트 적응형 (context adaptive) 방법인 Deformba를 제안합니다. Deformba는 또한 교차 주의 집중 (cross attention)과 같은 멀티모달 융합 (multi-modal fusion)을 가능하게 합니다. Deformba의 효과와 일반적인 적용 가능성을 입증하기 위해, 우리는 이미지 분류 (image classification), 객체 탐지 (object detection), 세그멘테이션 (segmentation)과 같은 일반적인 2D 비전 작업뿐만 아니라 BEV 인지 (BEV perception)와 같은 3D 비전 작업에서도 성능을 테스트합니다. 광범위한 실험을 통해 Deformba가 다양한 시각적 인지 벤치마크 (visual perception benchmarks)에서 강력한 성능을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Deformba: 적응형 상태 융합을 이용한 비전 상태 공간 모델 (Vision State Space Model)

요약

핵심 포인트

댓글