arXiv논문2026. 06. 01. 12:02

RayDer: 실제 세계 비디오를 활용한 확장 가능한 자기지도 학습 기반 신규 시점 합성 (Novel View Synthesis)

요약

RayDer는 카메라 추정, 장면 재구성, 렌더링을 하나의 백본으로 통합한 피드포워드 트랜스포머 모델입니다. 실제 비디오의 동적 요소를 학습 신호로 활용하여, 정적 장면의 신규 시점 합성(NVS) 성능을 데이터 규모에 따라 멱법칙으로 확장합니다.

핵심 포인트

카메라 추정, 재구성, 렌더링을 단일 백본으로 통합
실제 비디오의 동적 콘텐츠를 안정적인 학습 신호로 활용
데이터 및 연산량에 따른 명확한 멱법칙 확장성 증명
지도 학습 기반 방식에 필적하는 제로샷 성능 달성

풍부한 비디오 데이터에도 불구하고, 자기지도 학습 기반의 신규 시점 합성 (Novel View Synthesis, NVS)은 실제 비디오를 이용한 학습의 취약성과 다중 네트워크 시스템 설계의 예측하기 어려운 확장성 (Scaling) 동작으로 인해 규모를 키우는 데 여전히 어려움을 겪고 있습니다. 우리는 카메라 추정 (Camera estimation), 장면 재구성 (Scene reconstruction), 그리고 렌더링 (Rendering)을 하나의 백본 (Backbone)으로 통합하여, 자기지도 NVS를 잘 정의된 단일 모델 확장 문제로 전환하는 통합 피드포워드 트랜스포머 (Feed-forward transformer)인 RayDer를 소개합니다. 방해 요인 (Nuisance factor)으로 취급되는 최소한의 동적 상태 (Dynamic state)는 시간에 따라 변하는 콘텐츠를 흡수하여 제약 없는 실제 세계 비디오에서의 안정적인 학습을 가능하게 합니다. 중요한 점은, RayDer가 정적 장면 (Static-scene) NVS를 목표 작업으로 유지한다는 것입니다. 즉, 동적 콘텐츠는 동적 장면 (4D) NVS에서처럼 재구성되는 것이 아니라, 순수하게 확장 가능한 감독 (Supervision) 신호로 활용됩니다. 다양한 모델 크기와 수십 배 차이 나는 데이터 규모에 걸쳐, RayDer는 데이터 및 연산량에 따른 명확한 멱법칙 확장 (Power-law scaling)을 보여주며, 정적 장면 데이터 혼합 방식보다 뛰어난 성능을 나타냅니다. 수많은 벤치마크에서 RayDer는 최첨단 (State-of-the-art) 지도 학습 기반 방식과 경쟁할 수 있는 강력한 제로샷 오픈셋 (Zero-shot open-set) 성능을 달성합니다. 프로젝트 페이지: https://compvis.github.io/rayder

AI 자동 생성 콘텐츠

원문 바로가기

RayDer: 실제 세계 비디오를 활용한 확장 가능한 자기지도 학습 기반 신규 시점 합성 (Novel View Synthesis)

요약

핵심 포인트

댓글