RenderFormer++: 메쉬 장면의 전역 조명을 위한 확장 가능하고 물리적으로 근거를 둔 피드포워드 신경 렌더링
요약
RenderFormer++는 메쉬 장면의 전역 조명을 위한 확장 가능한 피드포워드 신경 렌더링 프레임워크입니다. PITG와 HOCT 기술을 통해 물리적 일관성을 유지하면서도 계산 복잡도를 획기적으로 줄였습니다.
핵심 포인트
- 물리 정보 기반 수송 가이드(PITG)로 빛 수송 모델링의 정확도 향상
- 계층적 객체 중심 토큰화(HOCT)를 통한 계산 및 메모리 비용 절감
- 기존 트랜스포머 방식의 이차적 어텐션 복잡도 문제 해결
- 대규모 장면에서도 확장 가능하고 안정적인 전역 조명 렌더링 구현
우리는 메쉬 장면(mesh scenes)에서의 전역 조명(global illumination)을 위한 확장 가능하고 물리적으로 근거를 둔 피드포워드(feed-forward) 신경 렌더링 프레임워크인 RenderFormer++를 선보입니다. RenderFormer와 같은 기존의 트랜스포머(Transformer) 기반 신경 렌더링 방법들은 유망한 교차 장면 일반화(cross-scene generalization)를 달성하지만, 삼각형 수준 토큰화(triangle-level tokenization)의 이차적 어텐션 복잡도(quadratic attention complexity)로 인해 물리적 일관성(physical consistency)이 제한적이고 확장성(scalability)이 떨어진다는 단점이 있습니다. 이러한 문제를 해결하기 위해, 우리는 렌더링 방정식(rendering-equation)의 귀납적 편향(inductive biases)을 어텐션 메커니즘에 내장하고 수송 일관성 손실(transport consistency loss)을 강제하여 물리적으로 일관된 빛 수송(light transport) 모델링을 가능하게 하는 물리 정보 기반 수송 가이드(Physics-Informed Transport Guidance, PITG)를 도입합니다. 나아가, 우리는 학습 가능한 쿼리(learnable queries)와의 교차 어텐션(cross-attention)을 통해 삼각형 수준의 특징을 압축된 객체 수준 토큰(object-level tokens)으로 집계하는 계층적 객체 중심 토큰화(Hierarchical Object-Centric Tokenization, HOCT)를 제안합니다. 이는 기하학적(geometric) 및 복사 에너지적(radiometric) 정보를 보존하면서도 계산 및 메모리 비용을 실질적으로 감소시킵니다. 광범위한 실험을 통해 RenderFormer++가 복잡한 대규모 장면 전반에서 확장 가능하고 안정적이며 일반화 가능한 피드포워드 전역 조명 렌더링을 달성하며, 이전의 신경 렌더링 방법들보다 향상된 물리적 정확도와 효율성을 보여줌을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기