Tensor Cores를 이용한 3D Gaussian Splatting 가속화

3D Gaussian Splatting (3DGS)은 실시간 신경 렌더링 (Neural Rendering) 및 3D 장면 재구성 (3D Scene Reconstruction)을 위한 선도적인 기술이 되었으나, 그 렌더링 비용은 여전히 많은 지연 시간 민감형 (Latency-sensitive) 시나리오에서 너무 높습니다. 특히, 3DGS의 래스터화 (Rasterization) 단계는 엔드 투 엔드 (End-to-end) 렌더링 시간을 지배하며, 이 과정에서 렌더러는 각 가우시안 (Gaussian)이 커버된 각 픽셀에 기여하는 바를 반복적으로 계산하므로 이 단계는 연산 제한적 (Compute-bound)입니다. 동시에, 현대의 GPU는 저정밀도 행렬 연산을 위해 높은 처리량을 가진 Tensor Cores를 제공하지만, 기존의 3DGS 시스템은 래스터화를 전적으로 CUDA 코어에서 실행하며 Tensor Cores를 유휴 상태로 방치합니다. 우리는 3DGS 렌더링이 품질 저하를 거의 일으키지 않으면서 FP16으로 실행될 수 있음을 발견하였으며, 이는 Tensor Core 가속을 위한 유망한 기회를 시사합니다. 그러나 래스터화가 Tensor Core의 실행 모델과 자연스럽게 일치하지 않기 때문에 3DGS를 위해 Tensor Cores를 활용하는 것은 쉽지 않습니다. 기존의 3DGS 래스터화는 불규칙한 픽셀별 스칼라 연산 (Per-pixel scalar operations)으로 표현되는 반면, Tensor Cores는 조밀하고 규칙적이며 재사용성이 풍부한 행렬 워크로드 (Matrix workloads)를 요구합니다. 더욱이, 전통적인 타일 단위 (Tile-by-tile) 실행은 인접한 타일 간의 가우시안 재사용을 활용하지 못하여, 반복적인 데이터 로딩과 그에 따른 높은 데이터 이동 오버헤드를 초래합니다. 이를 위해, 우리는 Tensor Cores를 사용하는 3DGS 가속 프레임워크인 TensorGS를 제안합니다. TensorGS는 지배적인 래스터화 계산을 Tensor Core와 호환 가능한 행렬 연산으로 텐서화 (Tensorize)하고, 가우시안 재사용을 개선하며, 오버헤드를 분할 상환 (Amortize)하고, Tensor Core 활용도를 높이기 위해 교차 타일 그룹화 (Cross-tile grouping)를 도입합니다. 실험 결과에 따르면, TensorGS는 이미지 품질을 유지하면서 엔드 투 엔드 렌더링 성능을 1.65$ imes$ 향상시킵니다.

Insights

Tensor Cores를 이용한 3D Gaussian Splatting 가속화

요약

핵심 포인트

댓글

Caterpillar, AI 기반 광업 역량 확대를 위해 Skycatch 인수; 주가 하락

미국 자금 유입 지속되는 가운데 Citi, 유럽 주식 시장의 숏 스퀴즈(Short-squeeze) 위험 증가 경고

CleanSpark, 6월에 614 비트코인 생산, 보유량 13,924 BTC로 증가

관세 비용 상쇄를 위해 섬유 및 의류 무역 인센티브 프로그램을 추진하기 위해 협력하는 산업 단체들

Caterpillar, AI 기반 광업 역량 확대를 위해 Skycatch 인수; 주가 하락

미국 자금 유입 지속되는 가운데 Citi, 유럽 주식 시장의 숏 스퀴즈(Short-squeeze) 위험 증가 경고

CleanSpark, 6월에 614 비트코인 생산, 보유량 13,924 BTC로 증가

관세 비용 상쇄를 위해 섬유 및 의류 무역 인센티브 프로그램을 추진하기 위해 협력하는 산업 단체들