Tensor Cores를 이용한 3D Gaussian Splatting 가속화

3D Gaussian Splatting (3DGS)은 실시간 신경 렌더링 (Neural Rendering) 및 3D 장면 재구성 (3D Scene Reconstruction)을 위한 선도적인 기술이 되었으나, 그 렌더링 비용은 여전히 지연 시간 (Latency)에 민감한 많은 시나리오에서 너무 높습니다. 특히, 3DGS의 래스터화 (Rasterization) 단계는 엔드 투 엔드 (End-to-end) 렌더링 시간을 지배하며, 이 과정에서 렌더러는 각 가우시안 (Gaussian)이 커버된 각 픽셀에 기여하는 바를 반복적으로 계산하므로 이 단계는 연산 제한적 (Compute-bound)입니다. 동시에, 현대의 GPU는 저정밀도 행렬 연산을 위해 높은 처리량을 가진 Tensor Cores를 제공하지만, 기존의 3DGS 시스템은 래스터화를 전적으로 CUDA 코어에서 실행하며 Tensor Cores를 유휴 상태로 남겨둡니다. 우리는 3DGS 렌더링이 품질 저하를 거의 일으키지 않으면서 FP16으로 실행될 수 있음을 발견하였으며, 이는 Tensor Core 가속을 위한 유망한 기회를 시사합니다. 그러나 래스터화가 Tensor Core의 실행 모델과 자연스럽게 일치하지 않기 때문에 3DGS를 위해 Tensor Cores를 활용하는 것은 쉽지 않습니다. 기존의 3DGS 래스터화는 불규칙한 픽셀당 스칼라 연산 (Per-pixel scalar operations)으로 표현되는 반면, Tensor Cores는 조밀하고 규칙적이며 재사용성이 풍부한 행렬 워크로드 (Matrix workloads)를 요구합니다. 더욱이, 전통적인 타일 단위 (Tile-by-tile) 실행은 인접한 타일 간의 가우시안 재사용을 활용하지 못하여 데이터 로딩이 반복되고 결과적으로 높은 데이터 이동 오버헤드 (Data movement overhead)를 초래합니다. 이를 위해, 우리는 Tensor Cores를 사용하는 3DGS 가속 프레임워크인 TensorGS를 제안합니다. TensorGS는 지배적인 래스터화 연산을 Tensor Core와 호환 가능한 행렬 연산으로 텐서화 (Tensorize)하고, 가우시안 재사용을 개선하며, 오버헤드를 분할 상환 (Amortize)하고, Tensor Core 활용도를 높이기 위해 교차 타일 그룹화 (Cross-tile grouping)를 도입합니다. 실험 결과에 따르면 TensorGS는 이미지 품질을 유지하면서 엔드 투 엔드 렌더링 성능을 1.65배 향상시킵니다.

Insights

Tensor Cores를 이용한 3D Gaussian Splatting 가속화

요약

핵심 포인트

댓글

LLM의 답변이 틀렸을 때, 추적(Trace)을 확인해야 하는 이유. 이를 쉽게 도와주는 도구들

에이전트 루프에서 늘어나는 AI 비용

Agent Factory 요약: Google Antigravity 2.0에서 AI 에이전트(AI agents)를 활용한 100배 빠른 엔지니어링

59센트짜리 GLM 5.2: 읽기는 저렴하지만, 구축은 그렇지 않다

에이전트 루프에서 늘어나는 AI 비용

Agent Factory 요약: Google Antigravity 2.0에서 AI 에이전트(AI agents)를 활용한 100배 빠른 엔지니어링

59센트짜리 GLM 5.2: 읽기는 저렴하지만, 구축은 그렇지 않다