arXiv논문2026. 06. 30. 12:58

2D 매칭을 넘어: 기하학적 인식을 갖춘 교차 뷰 객체 지리 위치 식별을 위한 통합 단일 단계 프레임워크

요약

위성 이미지와 지상/드론 뷰 간의 객체 위치를 식별하는 새로운 단일 단계 프레임워크 GAGeo를 제안합니다. 대규모 건물 데이터셋을 구축하고 3D 파운데이션 모델을 활용하여 기하학적 인식을 강화했습니다.

핵심 포인트

22만 개 이상의 대규모 지상-위성/드론-위성 쌍 데이터셋 구축
3D 파운데이션 모델 기반의 기하학 인식 프레임워크 GAGeo 제안
멀티모달 프롬프트를 통한 공간 모델링 및 객체 정보 공동 예측
대조 학습을 통한 제로샷 지상-드론 위치 식별 가능

교차 뷰 객체 지리 위치 식별 (Cross-view object geo-localization, CVOGL)은 지리 태그가 지정된 참조 이미지 (예: 위성) 내에서 쿼리 뷰 (예: 지상 또는 드론)로부터 대상 객체의 위치를 찾는 것을 목표로 합니다. 기존 방식들은 2D 외형 매칭 (2D appearance matching)에 크게 의존하며, 기하학적 메타데이터, 다양한 프롬프트 (prompts), 그리고 표준 시야 (field-of-view) 이미지가 부족한 제한된 데이터셋으로 인해 제약을 받습니다. 이러한 복합적인 문제를 해결하기 위해, 우리는 먼저 220,000개 이상의 지상-위성 및 드론-위성 쌍으로 구성된 대규모 고충실도 건물 데이터셋인 \dataset을 소개합니다. 이 데이터셋은 유연한 대상 참조 (target referring)와 명시적인 공간 모델링 (spatial modeling)을 가능하게 하는 멀티모달 프롬프트 (multi-modal prompts; 점, 박스, 마스크)와 카메라 포즈 (camera poses)를 제공합니다. 나아가, 우리는 순열 동변성 (permutation-equivariant) 3D 파운데이션 모델 (3D foundation model)인 $π^3$를 기반으로 구축된 새로운 단일 단계 기하학 인식 지리 위치 식별 프레임워크 (Geometry-Aware Geo-localization framework, GAGeo)를 제안합니다. 시각적 특징 (visual features), 참조 프롬프트 (referring prompts), 그리고 학습 가능한 태스크 토큰 (learnable task tokens)을 원활하게 통합함으로써, 우리 모델은 상속된 3D 사전 지식 (3D prior)을 적응시켜 단일 순전파 (forward pass) 과정에서 경계 상자 (bounding boxes), 세그멘테이션 마스크 (segmentation masks), 그리고 카메라 포즈를 공동으로 예측합니다. 또한, 위성 뷰를 보편적 앵커 (universal anchor)로 활용하는 대조 학습 손실 (contrastive loss)을 도입하여, 트리플릿 학습 데이터 (triplet training data) 없이도 지상과 드론 표현을 암시적으로 정렬함으로써 제로샷 (zero-shot) 지상-드론 위치 식별을 가능하게 합니다. 광범위한 실험을 통해 우리의 접근 방식이 최신 기술 (state-of-the-art) 방법들을 크게 능가하며, 보지 못한 장면과 새로운 교차 뷰 설정에서 탁월한 일반화 능력을 보여줌을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

2D 매칭을 넘어: 기하학적 인식을 갖춘 교차 뷰 객체 지리 위치 식별을 위한 통합 단일 단계 프레임워크

요약

핵심 포인트

댓글