arXiv논문2026. 06. 30. 14:16

RenderFormer++: 메쉬 장면의 전역 조명을 위한 확장 가능하고 물리적으로 근거를 둔 피드포워드 신경 렌더링

요약

RenderFormer++는 메쉬 장면의 전역 조명을 위한 확장 가능한 피드포워드 신경 렌더링 프레임워크입니다. PITG와 HOCT 기술을 통해 물리적 일관성을 유지하면서도 계산 복잡도를 획기적으로 줄였습니다.

핵심 포인트

물리 정보 기반 수송 가이드(PITG)로 빛 수송 모델링의 정확도 향상
계층적 객체 중심 토큰화(HOCT)를 통한 계산 및 메모리 비용 절감
기존 트랜스포머 방식의 이차적 어텐션 복잡도 문제 해결
대규모 장면에서도 확장 가능하고 안정적인 전역 조명 렌더링 구현

우리는 메쉬 장면(mesh scenes)에서의 전역 조명(global illumination)을 위한 확장 가능하고 물리적으로 근거를 둔 피드포워드(feed-forward) 신경 렌더링 프레임워크인 RenderFormer++를 선보입니다. RenderFormer와 같은 기존의 트랜스포머(Transformer) 기반 신경 렌더링 방법들은 유망한 교차 장면 일반화(cross-scene generalization)를 달성하지만, 삼각형 수준 토큰화(triangle-level tokenization)의 이차적 어텐션 복잡도(quadratic attention complexity)로 인해 물리적 일관성(physical consistency)이 제한적이고 확장성(scalability)이 떨어진다는 단점이 있습니다. 이러한 문제를 해결하기 위해, 우리는 렌더링 방정식(rendering-equation)의 귀납적 편향(inductive biases)을 어텐션 메커니즘에 내장하고 수송 일관성 손실(transport consistency loss)을 강제하여 물리적으로 일관된 빛 수송(light transport) 모델링을 가능하게 하는 물리 정보 기반 수송 가이드(Physics-Informed Transport Guidance, PITG)를 도입합니다. 나아가, 우리는 학습 가능한 쿼리(learnable queries)와의 교차 어텐션(cross-attention)을 통해 삼각형 수준의 특징을 압축된 객체 수준 토큰(object-level tokens)으로 집계하는 계층적 객체 중심 토큰화(Hierarchical Object-Centric Tokenization, HOCT)를 제안합니다. 이는 기하학적(geometric) 및 복사 에너지적(radiometric) 정보를 보존하면서도 계산 및 메모리 비용을 실질적으로 감소시킵니다. 광범위한 실험을 통해 RenderFormer++가 복잡한 대규모 장면 전반에서 확장 가능하고 안정적이며 일반화 가능한 피드포워드 전역 조명 렌더링을 달성하며, 이전의 신경 렌더링 방법들보다 향상된 물리적 정확도와 효율성을 보여줌을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RenderFormer++: 메쉬 장면의 전역 조명을 위한 확장 가능하고 물리적으로 근거를 둔 피드포워드 신경 렌더링

요약

핵심 포인트

댓글