arXiv논문2026. 06. 18. 12:29

OneCanvas: 파노라마 재투영을 통한 3D 장면 이해

요약

OneCanvas는 복잡한 기하학적 인코더 없이 모든 뷰의 패치 특징을 단일 파노라마 캔버스로 집계하여 3D 장면을 이해하는 새로운 방식을 제안합니다. 3D 위치 임베딩을 통해 깊이 정보를 복원하며, 기존 방식보다 10배 적은 연산량으로 SOTA 성능을 달성했습니다.

핵심 포인트

패치 특징을 단일 정거형 파노라마 캔버스로 투영하여 3D 공간 이해
3D 위치 임베딩을 활용해 투영 과정에서 손실된 깊이 정보 복원
로보틱스 및 체화된 AI를 위한 상황적 추론 직접 지원
기존 방식 대비 10배 적은 학습 연산량으로 SOTA 정확도 달성
공간 사전 학습 커리큘럼을 통한 일반화 성능 강화

시각-언어 모델 (Vision-Language Models, VLMs)에서의 기존 3D 장면 이해 방식은 공간 추론을 위해 복잡하고 모델 특화된 기하학적 인코더 (geometry encoders)에 의존하거나 막대한 학습 예산을 필요로 합니다. 대신, OneCanvas는 모든 뷰 (view)의 패치 특징 (patch features)을 단일 정거형 파노라마 캔버스 (equirectangular panoramic canvas)로 집계합니다. 구체적으로, 각 패치는 자신의 깊이 (depth)와 카메라 포즈 (camera pose)를 사용하여 3D 세계 좌표 (3D world coordinate)로 역투영 (unprojected)된 후, 캔버스 원점에서 바라본 해당 지점의 연속적인 경도와 위도에 따라 캔버스에 배치되며, 이때 중첩된 뷰 간의 래스터화 (rasterization)나 집계 (aggregation)는 수행되지 않습니다. 패치의 미터법 좌표 (metric coordinates)에 대한 3D 위치 임베딩 (3D position embedding)이 특징에 추가되어, 세계 위치를 각도 기반의 캔버스 좌표로 축소할 때 손실된 깊이 정보를 복원합니다. 따라서 모든 프레임의 패치들은 백본 (backbone)의 융합이나 주요 구조적 수정 없이 하나의 공간 좌표계를 공유합니다. 사전 학습된 VLM은 이 표현 (representation)을 일반적인 이미지인 것처럼 소비합니다. 캔버스는 관심 있는 어떤 포즈 (pose)를 중심으로도 설정될 수 있기 때문에, 동일한 표현이 로보틱스 (robotics) 및 체화된 AI (embodied AI)에서 흔히 요구되는 특정 시점에서의 상황적 추론 (situated reasoning)을 직접적으로 지원합니다. 이러한 표현 덕분에 우리는 공간 사전 학습 커리큘럼 (spatial pretraining curriculum)을 도입할 수도 있습니다. 실제 이미지에서 추출한 객체의 패치 특징을 비어 있는 캔버스의 선택된 3D 세계 위치에 절차적으로 배치함으로써, 공간 추론 지름길 (spatial reasoning shortcuts)을 줄이기 위해 제어된 정답 분포를 가진 광범위한 공간 추론 작업에 걸친 실시간 감독 (on-the-fly supervision)을 생성합니다. OneCanvas는 가장 강력한 경쟁 방법들보다 10배 적은 학습 연산량을 사용하면서도 SQA3D와 VSI-Bench에서 최첨단 (state-of-the-art) 정확도를 달성하였으며, SPBench의 분포 외 (out-of-distribution) 데이터에 대해서도 일반화 성능을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

OneCanvas: 파노라마 재투영을 통한 3D 장면 이해

요약

핵심 포인트

댓글