arXiv논문2026. 05. 18. 20:01

IVGT: 포즈 정보가 없는 다중 뷰 이미지로부터 연속적 기하 구조를 모델링하는 암시적 시각 기하 Transformer

요약

IVGT는 카메라 포즈 정보가 없는 다중 뷰 이미지로부터 일관된 3D 기하 구조와 외관을 재구성하는 암시적 시각 기하 Transformer 모델입니다. 정준 좌표계 내에서 연속적인 신경 장면 표현을 학습하여 임의의 3D 위치에서 SDF 값과 색상을 예측하며, 이를 통해 연속적인 표면 기하 구조를 직접 추출할 수 있습니다. 다양한 데이터셋 공동 최적화를 통해 메쉬 재구성, 새로운 시점 합성, 카메라 포즈 추정 등 여러 작업에서 뛰어난 일반화 성능을 보여줍니다.

핵심 포인트

포즈 정보가 없는(pose-free) 다중 뷰 이미지로부터 연속적인 3D 기하 구조를 암시적으로 모델링함
정준 좌표계 내 공간 쿼리를 통해 SDF(Signed Distance Function) 값과 색상을 예측하여 일관된 표면 추출 가능
2D 지도와 3D 기하학적 정규화를 결합한 다중 데이터셋 공동 최적화 방식 채택
메쉬/포인트 클라우드 재구성, 새로운 시점 합성, 카메라 포즈 추정 등 다양한 컴퓨터 비전 작업에 적용 가능

포즈(pose) 정보가 없는 다중 뷰 이미지(multi-view images)로부터 일관된 3D 기하 구조(geometry)와 외관(appearance)을 재구성하는 것은 컴퓨터 비전(computer vision) 분야의 근본적이면서도 도전적인 문제입니다. 기존의 대부분의 시각 기하 파운데이션 모델(visual geometry foundation models)은 픽셀 정렬된 포인트맵(pixel-aligned pointmaps)을 회귀(regression)함으로써 명시적 기하 구조(explicit geometry)를 예측하며, 이 과정에서 종종 중복성(redundancy)과 제한된 기하적 연속성(geometric continuity) 문제로 어려움을 겪습니다.

본 논문에서는 포즈가 없는(pose-free) 다중 뷰 이미지로부터 연속적이고 일관된 기하 구조를 암시적으로 모델링하는 암시적 시각 기하 Transformer (Implicit Visual Geometry Transformer, IVGT)를 제안합니다. 이 방식은 정준 좌표계(canonical coordinate system) 내에서 연속적인 신경 장면 표현(neural scene representation)을 학습하며, 임의의 3D 위치에서 연속적인 공간 쿼리(spatial queries)를 지원하여 로컬 특징(local features)을 검색하고 경량 디코더(lightweight decoders)를 사용하여 부호 거리 함수 (Signed Distance Function, SDF) 값과 색상을 예측합니다. 이를 통해 연속적이고 일관된 표면 기하 구조를 직접 추출할 수 있으며, 임의의 시점에서 RGB 이미지, 깊이 지도(depth maps), 표면 법선 지도(surface normal maps)를 렌더링할 수 있습니다.

우리는 2D 지도(supervision)와 3D 기하학적 정규화(geometric regularization)를 결합한 다중 데이터셋 공동 최적화(multi-dataset joint optimization)를 통해 IVGT를 학습시킵니다. IVGT는 다양한 장면에 대해 일반화 능력을 입증하였으며, 메쉬(mesh) 및 포인트 클라우드(point cloud) 재구성, 새로운 시점 합성(novel view synthesis), 깊이 및 표면 법선 추정(depth and surface normal estimation), 그리고 카메라 포즈 추정(camera pose estimation)을 포함한 다양한 작업에서 강력한 성능을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

IVGT: 포즈 정보가 없는 다중 뷰 이미지로부터 연속적 기하 구조를 모델링하는 암시적 시각 기하 Transformer

요약

핵심 포인트

댓글