F-RNG: 피드포워드 방식의 재조명 가능한 뉴럴 가우시안 (Feed-Forward Relightable Neural Gaussians)
요약
F-RNG는 희소한 입력 뷰로부터 재조명 가능한 3D 가우시안 에셋을 직접 생성하는 피드포워드 프레임워크입니다. LRM과 IDM의 사전 지식을 활용하여 기하학적 표현을 강화하고 조명 분리가 가능한 외관을 추출합니다.
핵심 포인트
- 희소 뷰 입력만으로 재조명 가능한 3DGS 에셋 생성 가능
- LRM 기반 기하학 강화 및 IDM 기반 외관 증류 기술 도입
- 기존 LRM 기반 방식 대비 약 25배 빠른 재조명 속도 달성
- 재조명 품질 측면에서 약 2.0 dB 향상된 성능 입증
실제 사물로부터 재조명(Relightable)이 가능한 3D 에셋을 캡처하는 것은 널리 연구되고 있는 문제입니다. 3D 가우시안 스플래팅 (3DGS)에 기반한 여러 장면별 최적화 (Per-scene optimization) 방식들이 재조명을 지원하지만, 이들은 대개 조밀한 입력 뷰 (Dense input views)를 필요로 하며, 과적합 (Overfitting) 특성 때문에 장면 간 일반화가 어렵습니다. 장면별 최적화 방식과 달리, 일반화된 피드포워드 (Feed-forward) 모델은 희소한 입력 뷰 (Sparse input views)로부터 가우시안을 직접 재구성할 수 있습니다. 그러나 결과물인 에셋에는 조명이 구워져(Baked-in) 있어 재조명에 쉽게 사용할 수 없다는 단점이 있습니다.
본 논문에서는 희소 뷰 입력으로부터 재조명 가능한 3DGS 에셋을 직접 생성하는 피드포워드 프레임워크인 F-RNG를 제안합니다. 이러한 모델을 처음부터 학습시키는 것은 방대한 데이터와 컴퓨팅 자원을 필요로 하며, 특히 수용 가능한 비용 내에서 피드포워드 방식으로 재조명 가능한 에셋을 생성하는 것은 매우 도전적인 과제입니다. 우리는 재조명 가능한 표현형을 추출하기 위해 기존의 대규모 재구성 모델 (LRM)을 기반으로 F-RNG를 개발하였으며, 동시에 내재적 분해 모델 (IDM)의 사전 지식 (Priors)을 활용합니다.
구체적으로, 첫째, LRM의 기하학적 표현 (Geometry representation)을 강화하기 위해 잠재 변수 보간 기반의 미세 기하학 합성 (Latent-interpolated fine-grained geometry synthesis)을 도입합니다. 둘째, IDM의 사전 지식을 통합하여 재조명 가능한 뉴럴 표현형을 추출하기 위한 사전 지식 가이드 재조명 가능 외관 증류 (Prior-guided relightable appearance distillation)를 제안합니다. 마지막으로, 범용 뉴럴 렌더러 (Universal neural renderer)를 통해 유연하고 고충실도의 재조명을 가능하게 합니다.
F-RNG는 기반이 되는 LRM의 재학습이나 미세 조정 (Fine-tuning)을 필요로 하지 않으므로, 향후 더 나은 LRM 및 IDM의 이점을 자동으로 누릴 수 있습니다. 적절한 데이터와 컴퓨팅 자원으로 학습 가능한 작은 네트워크만을 사용함으로써, F-RNG는 서로 다른 조명 조건 하에서 대규모 모델을 반복적으로 추론해야 하는 번거로움을 피할 수 있습니다. 최신 LRM 기반 재조명 방식과 비교했을 때, F-RNG는 약 25배 더 빠른 재조명 속도와 더 우수한 품질 (~+2.0 dB)을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기