본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 11:31

Tensor Cores를 이용한 3D Gaussian Splatting 가속화

요약

3D Gaussian Splatting의 렌더링 지연 시간을 줄이기 위해 Tensor Cores를 활용하는 TensorGS 프레임워크를 제안합니다. 기존 CUDA 코어 중심의 래스터화 방식을 Tensor Core에 적합한 행렬 연산으로 변환하여 성능을 최적화했습니다.

핵심 포인트

  • 3DGS 래스터화의 연산 제한적 특성 해결
  • Tensor Core 활용을 위한 래스터화의 텐서화(Tensorize) 구현
  • 교차 타일 그룹화(Cross-tile grouping)를 통한 데이터 재사용 개선
  • 이미지 품질 저하 없이 렌더링 성능 1.65배 향상

3D Gaussian Splatting (3DGS)은 실시간 신경 렌더링 (Neural Rendering) 및 3D 장면 재구성 (3D Scene Reconstruction)을 위한 선도적인 기술이 되었으나, 그 렌더링 비용은 여전히 많은 지연 시간 민감형 (Latency-sensitive) 시나리오에서 너무 높습니다. 특히, 3DGS의 래스터화 (Rasterization) 단계는 엔드 투 엔드 (End-to-end) 렌더링 시간을 지배하며, 이 과정에서 렌더러는 각 가우시안 (Gaussian)이 커버된 각 픽셀에 기여하는 바를 반복적으로 계산하므로 이 단계는 연산 제한적 (Compute-bound)입니다. 동시에, 현대의 GPU는 저정밀도 행렬 연산을 위해 높은 처리량을 가진 Tensor Cores를 제공하지만, 기존의 3DGS 시스템은 래스터화를 전적으로 CUDA 코어에서 실행하며 Tensor Cores를 유휴 상태로 방치합니다. 우리는 3DGS 렌더링이 품질 저하를 거의 일으키지 않으면서 FP16으로 실행될 수 있음을 발견하였으며, 이는 Tensor Core 가속을 위한 유망한 기회를 시사합니다. 그러나 래스터화가 Tensor Core의 실행 모델과 자연스럽게 일치하지 않기 때문에 3DGS를 위해 Tensor Cores를 활용하는 것은 쉽지 않습니다. 기존의 3DGS 래스터화는 불규칙한 픽셀별 스칼라 연산 (Per-pixel scalar operations)으로 표현되는 반면, Tensor Cores는 조밀하고 규칙적이며 재사용성이 풍부한 행렬 워크로드 (Matrix workloads)를 요구합니다. 더욱이, 전통적인 타일 단위 (Tile-by-tile) 실행은 인접한 타일 간의 가우시안 재사용을 활용하지 못하여, 반복적인 데이터 로딩과 그에 따른 높은 데이터 이동 오버헤드를 초래합니다. 이를 위해, 우리는 Tensor Cores를 사용하는 3DGS 가속 프레임워크인 TensorGS를 제안합니다. TensorGS는 지배적인 래스터화 계산을 Tensor Core와 호환 가능한 행렬 연산으로 텐서화 (Tensorize)하고, 가우시안 재사용을 개선하며, 오버헤드를 분할 상환 (Amortize)하고, Tensor Core 활용도를 높이기 위해 교차 타일 그룹화 (Cross-tile grouping)를 도입합니다. 실험 결과에 따르면, TensorGS는 이미지 품질을 유지하면서 엔드 투 엔드 렌더링 성능을 1.65$ imes$ 향상시킵니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0