도시 장면 재구성을 위한 확산 모델 기반의 일반화 가능한 인핸서 (Diffusion-guided Generalizable Enhancer
요약
GenRe는 확산 모델을 활용하여 도시 장면 재구성 시 발생하는 시점 변화 문제를 해결하는 일반화 가능한 인핸서입니다. 기존 방식의 장면별 최적화 비용과 일반화 한계를 극복하여, 미학습 시점에서도 고품질의 3D 가우시안 표현을 효율적으로 생성합니다.
핵심 포인트
- 확산 모델 기반의 GenRe 제안
- 3D 가우시안 표현의 결함을 몇 분 내에 수정
- 미학습 시점(차선 변경 등)에 대한 강력한 일반화 성능
- 자율 주행 시뮬레이션을 위한 고충실도 센서 데이터 생성
실제 관측 데이터로부터 도시 장면을 재구성하는 것은 자율 주행 개발 및 테스트를 위한 강력한 도구로 부상했습니다. 현재의 신경 렌더링 (Neural Rendering) 방식들은 기록된 경로를 따라 높은 충실도의 렌더링을 달성하지만, 시점 변화 (Viewpoint shifts)가 큰 경우에는 품질이 크게 저하되어 폐루프 시뮬레이션 (Closed-loop simulation)에 적용하는 데 한계가 있습니다. 최근 연구들은 확산 모델 (Diffusion models)을 사용하여 이러한 까다로운 시점에서의 품질을 향상시키고, 개선된 사항을 3D 표현 (3D representations)으로 증류 (Distill)하는 유망한 결과를 보여주었습니다. 그러나 이러한 방식들은 종종 장면마다 비용이 많이 드는 최적화 (Per-scene optimization)를 요구하며, 증류된 표현들은 여전히 취약하여 제한된 합성 뷰 (Synthesized views)를 넘어 일반화되지 못하는 문제가 있습니다. 이러한 한계를 해결하기 위해, 우리는 도시 장면 재구성을 위한 새로운 확산 모델 기반의 일반화 가능한 인핸서인 GenRe를 제안합니다. GenRe는 임의의 사전 학습된 3D 가우시안 표현 (3D Gaussian representation)을 입력으로 받아 몇 분 내에 결함을 수정합니다. 다양한 장면에 걸쳐 생성적 사전 지식 (Generative priors)을 증류하는 법을 학습함으로써, GenRe는 까다로운 미학습 시점(예: 차선 변경)에도 안정적으로 일반화되는 견고하고 높은 충실도의 표현을 효율적으로 생성합니다. 실험 결과, GenRe는 품질과 효율성 측면 모두에서 기존 방법보다 뛰어난 성능을 보였으며, 다양한 다운스트림 태스크 (Downstream tasks)에 도움을 주어 자율 주행을 위한 견고하고 확장 가능한 센서 시뮬레이션을 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기