본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:20

Tensor Cores를 이용한 3D Gaussian Splatting 가속화

요약

3D Gaussian Splatting(3DGS)의 래스터화 단계에서 발생하는 높은 연산 비용을 해결하기 위해 Tensor Cores를 활용하는 TensorGS 프레임워크를 제안합니다. 기존 방식이 CUDA 코어에 의존하여 Tensor Cores를 활용하지 못했던 한계를 극복하고자, 래스터화 연산을 행렬 연산으로 변환하고 교차 타일 그룹화 기술을 도입했습니다. 실험 결과, 이미지 품질 저하 없이 렌더링 성능을 1.65배 향상시키는 성과를 거두었습니다.

핵심 포인트

  • 3DGS 래스터화 단계의 연산 제한적(Compute-bound) 특성을 해결하기 위해 Tensor Cores 활용
  • 기존의 불규칙한 스칼라 연산을 Tensor Core에 적합한 조밀한 행렬 연산으로 텐서화(Tensorize)
  • 데이터 이동 오버헤드를 줄이기 위해 인접 타일 간 가우시안 재사용을 개선하는 교차 타일 그룹화 도입
  • FP16 정밀도를 사용하여 품질 저하를 최소화하면서 렌더링 성능 1.65배 향상

3D Gaussian Splatting (3DGS)은 실시간 신경 렌더링 (Neural Rendering) 및 3D 장면 재구성 (3D Scene Reconstruction)을 위한 선도적인 기술이 되었으나, 그 렌더링 비용은 여전히 지연 시간 (Latency)에 민감한 많은 시나리오에서 너무 높습니다. 특히, 3DGS의 래스터화 (Rasterization) 단계는 엔드 투 엔드 (End-to-end) 렌더링 시간을 지배하며, 이 과정에서 렌더러는 각 가우시안 (Gaussian)이 커버된 각 픽셀에 기여하는 바를 반복적으로 계산하므로 이 단계는 연산 제한적 (Compute-bound)입니다. 동시에, 현대의 GPU는 저정밀도 행렬 연산을 위해 높은 처리량을 가진 Tensor Cores를 제공하지만, 기존의 3DGS 시스템은 래스터화를 전적으로 CUDA 코어에서 실행하며 Tensor Cores를 유휴 상태로 남겨둡니다. 우리는 3DGS 렌더링이 품질 저하를 거의 일으키지 않으면서 FP16으로 실행될 수 있음을 발견하였으며, 이는 Tensor Core 가속을 위한 유망한 기회를 시사합니다. 그러나 래스터화가 Tensor Core의 실행 모델과 자연스럽게 일치하지 않기 때문에 3DGS를 위해 Tensor Cores를 활용하는 것은 쉽지 않습니다. 기존의 3DGS 래스터화는 불규칙한 픽셀당 스칼라 연산 (Per-pixel scalar operations)으로 표현되는 반면, Tensor Cores는 조밀하고 규칙적이며 재사용성이 풍부한 행렬 워크로드 (Matrix workloads)를 요구합니다. 더욱이, 전통적인 타일 단위 (Tile-by-tile) 실행은 인접한 타일 간의 가우시안 재사용을 활용하지 못하여 데이터 로딩이 반복되고 결과적으로 높은 데이터 이동 오버헤드 (Data movement overhead)를 초래합니다. 이를 위해, 우리는 Tensor Cores를 사용하는 3DGS 가속 프레임워크인 TensorGS를 제안합니다. TensorGS는 지배적인 래스터화 연산을 Tensor Core와 호환 가능한 행렬 연산으로 텐서화 (Tensorize)하고, 가우시안 재사용을 개선하며, 오버헤드를 분할 상환 (Amortize)하고, Tensor Core 활용도를 높이기 위해 교차 타일 그룹화 (Cross-tile grouping)를 도입합니다. 실험 결과에 따르면 TensorGS는 이미지 품질을 유지하면서 엔드 투 엔드 렌더링 성능을 1.65배 향상시킵니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0