arXiv논문2026. 05. 22. 22:22

SceneAligner: 야생 환경에서의 3D 기반 평면도 위치 추정

요약

야생 환경의 대규모 건물 및 래스터화된 평면도에서도 작동 가능한 3D 기반 평면도 위치 추정 기술을 제안합니다. 3D 장면을 2D 밀도 맵으로 투영하고 파운데이션 모델을 미세 조정하여 이미지와 평면도 간의 외형 차이를 극복합니다.

핵심 포인트

3D 장면 재구성을 통한 2D 밀도 맵 투영 방식 도입
파운데이션 모델 미세 조정을 통한 교차 모달 대응 학습
단일 이미지 기반의 희소한 환경에서도 높은 성능 입증
기존 벡터 기반 방식의 한계인 대규모/래스터 평면도 문제 해결

많은 공공 건물들은 방문객들이 자신의 위치를 파악할 수 있도록 "현재 위치" 표시가 포함된 평면도(floorplan)를 제공합니다. 평면도 위치 추정(Floorplan localization)은 시각적 관측이 평면도 내 어디에서 캡처되었는지를 결정함으로써 이러한 기능을 계산적으로 재현하고자 합니다. 그러나 기존 방법들은 일반적으로 통제된 소규모 환경과 정밀한 벡터화된 평면도(vectorized floorplans)를 가정하며, 이로 인해 대규모 건물이나 래스터화된 평면도(rasterized floorplans)에서 작동하는 능력에 한계가 있습니다. 본 연구에서는 장면의 재구성된 3D 표현(3D representation)에 작업을 접지(grounding)함으로써, 야생 환경(in the wild)에서 평면도 위치 추정을 수행하는 접근 방식을 제시합니다. 제약이 없는 이미지 컬렉션이 주어지면, 우리의 방법은 중력 정렬된(gravity-aligned) 3D 장면을 재구성하고 이를 평면도 대리물(floorplan proxy) 역할을 하는 2D 밀도 맵(density map)으로 투영합니다. 이후 평면도 위치 추정은 2D 유사 변환(similarity transform)을 통해 이 대리물을 입력 평면도와 정렬하는 문제로 공식화됩니다. 밀도 맵과 건축 평면도 사이의 외형 차이(appearance gap)를 메우기 위해, 우리는 2D 파운데이션 모델(foundation model)을 조정하여 교차 모달 대응 관계(cross-modal correspondences)를 학습하도록 하며, 구조적 일관성을 유지하면서도 의미론적으로 정렬된 매칭을 장려하는 미세 조정(fine-tuning) 체계를 도입합니다. 광범위한 실험을 통해 단 하나의 입력 이미지만 있는 극도로 희소한(sparse) 설정에서도 기존 방법들보다 상당한 개선을 이루었음을 입증했습니다. 우리의 코드와 데이터는 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

SceneAligner: 야생 환경에서의 3D 기반 평면도 위치 추정

요약

핵심 포인트

댓글