L2D2-GS: 피드포워드 동적 가우시안 장면 재구성을 위한 밀집화 학습 방법

동적인 도시 환경의 고충실도 재구성 (High-fidelity reconstruction)은 자율 주행 시뮬레이션과 대규모 월드 모델링의 초석입니다. 3D 가우시안 스플래팅 (3D Gaussian Splatting, 3DGS)이 실시간 렌더링의 새로운 표준을 세웠지만, 장면마다 수행해야 하는 비용이 큰 최적화 (optimization)에 의존한다는 점은 확장성을 제한합니다. 반대로, 가우시안 파라미터를 추론하는 최근의 피드포워드 (feedforward) 방식들은 더 빠른 속도를 제공하지만 근본적인 병목 현상에 직면해 있습니다. 즉, 고해상도에서 메모리 사용량이 과도하게 많으며, 밀집된 다중 뷰 관측값 (multi-view observations)을 일관되게 융합하는 데 어려움을 겪습니다. 본 논문은 일반화 가능한 재구성을 단판 회귀 (one-shot regression)가 아닌, 최적화와 밀집화 (densification)의 견고한 반복 과정으로 재정의하는 통합 프레임워크인 L2D2-GS를 제시합니다. 프리미티브 (primitive) 생성 시 발생하는 감독 (supervision)의 모호성을 해결하기 위해, 우리는 전역 재구성 이득 (global reconstruction gains)으로부터 명시적인 보상 신호를 도출하여 국소적 밀집화를 가이드하는 자기 지도 밀집화 정책 (self-supervised densification policy)을 제안합니다. 또한, 재매개변수화 (reparameterization)를 활용하여 최적화 매니폴드 (optimization manifold)를 제약하고 좋지 않은 지역 최적점 (local optima)으로의 수렴을 방지함으로써, 기하학적 정규화 (geometric regularization) 메커니즘을 통해 초기 단계의 되돌릴 수 없는 아티팩트 (artifacts)를 완화합니다. PandaSet 및 Waymo 데이터셋에 대한 광범위한 실험을 통해, 우리의 방법론이 경쟁 베이스라인보다 더 적은 수의 프리미티브를 사용하면서도 최첨단 (state-of-the-art) 재구성 충실도와 강력한 제로샷 일반화 (zero-shot generalization) 성능을 달성함을 입증합니다.

Insights

L2D2-GS: 피드포워드 동적 가우시안 장면 재구성을 위한 밀집화 학습 방법

요약

핵심 포인트

댓글

에이전틱 내비게이션(Agentic Navigation)에 대해 알아야 할 모든 것

코딩 에이전트의 SWE-chat 계획 태스크를 위한 지속적 저장소 메모리 (persistent repo memory) 벤치마킹

shot-scraper video를 사용하여 에이전트가 작업 결과의 비디오 데모를 기록하게 하세요

sqlite-utils 4.0rc1

코딩 에이전트의 SWE-chat 계획 태스크를 위한 지속적 저장소 메모리 (persistent repo memory) 벤치마킹

shot-scraper video를 사용하여 에이전트가 작업 결과의 비디오 데모를 기록하게 하세요

sqlite-utils 4.0rc1