거리 뷰 신규 시점 합성을 위한 효과적인 다중 센서 조건화 (Effective Multi-sensor Conditioning for
요약
StreetNVS는 LiDAR, 다중 카메라, 자차 움직임 데이터를 활용하여 새로운 시점의 거리 뷰를 합성하는 비디오 확산 모델 프레임워크입니다. 다중 센서 융합 문제를 해결하기 위해 참조 강화 카메라 어텐션 모듈과 2단계 커리큘럼 학습 전략을 제안합니다.
핵심 포인트
- LiDAR, 카메라, 포즈 데이터를 통합하는 다중 센서 조건화 기술
- 참조 강화 카메라 어텐션을 통한 정밀한 시점 합성
- 희소한 LiDAR 데이터로도 고밀도 데이터 수준의 성능 구현
- 극단적인 경로 이탈 상황에서도 일관된 비디오 생성 가능
현대의 차량 플랫폼은 LiDAR, 보정된 다중 카메라 리그 (multi-camera rigs), 그리고 정확한 자차 움직임 (ego-motion)을 포함한 풍부한 센서 제품군을 갖추고 있으며, 이는 원칙적으로 주행 장면을 새로운 시점 (novel viewpoints)에서 재렌더링하기 위한 강력한 신호를 제공합니다. 최근 늘어나고 있는 연구 흐름은 이 작업을 위해 비디오 확산 모델 (video diffusion models)을 활용하며, 이들의 생성적 사전 지식 (generative priors)을 사용하여 희소한 차량 관측 데이터로부터 그럴듯한 신규 시점을 합성합니다. 그러나 실제로 기존 방법들은 이러한 신호의 일부만을 활용하며, 목표 궤적 (target trajectory)이 기록된 주행 경로에서 벗어날수록 품질이 저하되는 경향이 있습니다. 우리는 이것이 근본적으로 다중 센서 융합 (multi-sensor fusion) 문제라고 주장합니다. 즉, 희소한 LiDAR 재투영 (reprojections)은 정확하지만 불완전한 미터법 기하학 (metric geometry)을 제공하고, 주변 시야 참조 이미지 (surround-view reference imagery)는 밀도 높은 외형 (appearance)을 제공하지만 미터법 깊이 (metric depth)는 제공하지 않으며, 카메라 포즈 (camera poses)는 시점 간에 이 두 가지를 연결합니다. 우리는 상대적 광선 수준 위치 인코딩 (relative ray-level positional encoding)에 기반한 참조 강화 카메라 어텐션 (Reference-Enhanced Camera Attention) 모듈을 통해 이 세 가지 신호 모두를 공동으로 조건화하는 비디오 확산 프레임워크인 StreetNVS를 소개합니다. 우리는 모델이 점진적으로 점점 더 희소해지는 LiDAR에 노출되도록 하는 2단계 커리큘럼 학습 (curriculum training) 전략을 개발합니다. Waymo Open Dataset에서 StreetNVS는 희소 LiDAR 조건화 하에서 최첨단 (state-of-the-art) 베이스라인들을 실질적으로 능가하며, 10~100배 더 밀도 높은 포인트 클라우드 (point clouds)에 의존하는 방법들과 대등한 성능을 보여줍니다. 우리는 더 나아가 고도 변화, 차선 변경, 후진, 회전과 같은 극단적인 경로 이탈 (out-of-trajectory) 경로를 따라 일관된 비디오를 합성하는 능력을 보여줍니다. 웹사이트: https://streetnvs.github.io
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기