본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 18. 12:29

OneCanvas: 파노라마 재투영을 통한 3D 장면 이해

요약

OneCanvas는 복잡한 기하학적 인코더 없이 모든 뷰의 패치 특징을 단일 파노라마 캔버스로 집계하여 3D 장면을 이해하는 새로운 방식을 제안합니다. 3D 위치 임베딩을 통해 깊이 정보를 복원하며, 기존 방식보다 10배 적은 연산량으로 SOTA 성능을 달성했습니다.

핵심 포인트

  • 패치 특징을 단일 정거형 파노라마 캔버스로 투영하여 3D 공간 이해
  • 3D 위치 임베딩을 활용해 투영 과정에서 손실된 깊이 정보 복원
  • 로보틱스 및 체화된 AI를 위한 상황적 추론 직접 지원
  • 기존 방식 대비 10배 적은 학습 연산량으로 SOTA 정확도 달성
  • 공간 사전 학습 커리큘럼을 통한 일반화 성능 강화

시각-언어 모델 (Vision-Language Models, VLMs)에서의 기존 3D 장면 이해 방식은 공간 추론을 위해 복잡하고 모델 특화된 기하학적 인코더 (geometry encoders)에 의존하거나 막대한 학습 예산을 필요로 합니다. 대신, OneCanvas는 모든 뷰 (view)의 패치 특징 (patch features)을 단일 정거형 파노라마 캔버스 (equirectangular panoramic canvas)로 집계합니다. 구체적으로, 각 패치는 자신의 깊이 (depth)와 카메라 포즈 (camera pose)를 사용하여 3D 세계 좌표 (3D world coordinate)로 역투영 (unprojected)된 후, 캔버스 원점에서 바라본 해당 지점의 연속적인 경도와 위도에 따라 캔버스에 배치되며, 이때 중첩된 뷰 간의 래스터화 (rasterization)나 집계 (aggregation)는 수행되지 않습니다. 패치의 미터법 좌표 (metric coordinates)에 대한 3D 위치 임베딩 (3D position embedding)이 특징에 추가되어, 세계 위치를 각도 기반의 캔버스 좌표로 축소할 때 손실된 깊이 정보를 복원합니다. 따라서 모든 프레임의 패치들은 백본 (backbone)의 융합이나 주요 구조적 수정 없이 하나의 공간 좌표계를 공유합니다. 사전 학습된 VLM은 이 표현 (representation)을 일반적인 이미지인 것처럼 소비합니다. 캔버스는 관심 있는 어떤 포즈 (pose)를 중심으로도 설정될 수 있기 때문에, 동일한 표현이 로보틱스 (robotics) 및 체화된 AI (embodied AI)에서 흔히 요구되는 특정 시점에서의 상황적 추론 (situated reasoning)을 직접적으로 지원합니다. 이러한 표현 덕분에 우리는 공간 사전 학습 커리큘럼 (spatial pretraining curriculum)을 도입할 수도 있습니다. 실제 이미지에서 추출한 객체의 패치 특징을 비어 있는 캔버스의 선택된 3D 세계 위치에 절차적으로 배치함으로써, 공간 추론 지름길 (spatial reasoning shortcuts)을 줄이기 위해 제어된 정답 분포를 가진 광범위한 공간 추론 작업에 걸친 실시간 감독 (on-the-fly supervision)을 생성합니다. OneCanvas는 가장 강력한 경쟁 방법들보다 10배 적은 학습 연산량을 사용하면서도 SQA3D와 VSI-Bench에서 최첨단 (state-of-the-art) 정확도를 달성하였으며, SPBench의 분포 외 (out-of-distribution) 데이터에 대해서도 일반화 성능을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0