arXiv논문2026. 05. 20. 01:23

단 하나의 아틀라스면 충분하다: 몰입형 비디오를 위한 디코더 측 가우시안 스플래팅 (Decoder-Side Gaussian Splatting)

요약

몰입형 비디오 전송의 대역폭 문제를 해결하기 위해 디코더 측에서 가우시안 스플래팅을 수행하는 DSGS 프레임워크를 제안합니다. 이 방식은 기존의 깊이 추정 방식이 가진 기하학적 복잡성과 깜빡임 문제를 해결하며, 압축된 비트스트림을 활용해 효율적인 볼륨 장면 최적화를 구현합니다. 특히 극단적인 뷰 희소성 환경에서도 높은 화질과 안정적인 뷰 합성 성능을 보여줍니다.

핵심 포인트

DSGS는 디코더 측에서 피드포워드 3DGS 추론을 통해 전체 볼륨 장면을 최적화함
손실 압축이 피드포워드 스플랫 예측을 안정화하는 암시적 저역 통과 필터 역할을 수행함
기존 DSDE 방식 대비 BD-PSNR +5.79 dB 및 BD-SSIM +0.054 dB의 성능 향상 달성
뷰 간 Delta IV-PSNR을 17.2 dB에서 6.4 dB로 크게 감소시켜 도메인 시프트 최소화

몰입형 비디오 (Immersive video) 전송은 픽셀 속도 (pixel-rate) 제약으로 인해 병목 현상이 발생하며, 이로 인해 고해상도 깊이 지도 (depth maps) 또는 명시적인 3D 볼륨 데이터 (3D volumetric data)를 전송하는 데 많은 비용이 듭니다. 디코더 측 깊이 추정 (Decoder-Side Depth Estimation, DSDE)은 깊이 계산을 클라이언트로 전환하지만, 복잡한 기하학적 구조, 뷰 간 깜빡임 (inter-view flickering), 그리고 비-람베르시안 반사 (non-Lambertian reflections) 문제로 어려움을 겪습니다. 반대로, 3D 가우시안 스플래팅 (3D Gaussian Splatting, 3DGS)은 최첨단 뷰 합성 (view synthesis) 기술을 제공하지만, 스플랫 (splats) 또는 그 투영된 2D 지도 (2D maps)를 전송하는 것은 과도한 대역폭 비용을 발생시키며 표준 비디오 코덱 (video codecs)과도 잘 맞지 않습니다.

우리는 디코더 측 가우시안 스플래팅 (Decoder-Side Gaussian Splatting, DSGS)을 제안합니다. 이 프레임워크는 DSDE의 깊이 추정 단계를 피드포워드 (feed-forward) 3DGS 추론으로 기본적으로 대체하여, 압축된 텍스처 (textures)와 메타데이터 (metadata)로부터 디코더 측에서만 전체 볼륨 장면 (volumetric scenes)을 최적화합니다. 핵심적이고 직관에 반하는 발견은 손실 압축 (lossy compression)이 피드포워드 스플랫 예측을 안정화하는 암시적 저역 통과 필터 (implicit low-pass filter) 역할을 한다는 점입니다. 즉, 압축된 비트스트림 (bitstreams)은 품질을 10배 축소하면서도 무손실 (lossless) 품질을 상회합니다. 극단적인 뷰 희소성 (view sparsity, 4개의 입력 뷰를 포함하는 하나의 2D 아틀라스) 환경에서, DSGS는 DSDE 앵커 (anchor) 대비 +5.79 dB의 BD-PSNR 및 +0.054 dB의 BD-SSIM 이득을 달성하는 동시에, 최대 뷰 간 Delta IV-PSNR을 17.2 dB에서 6.4 dB로 감소시켜 전송된 뷰포트 (viewports)와 가상 뷰포트 사이의 도메인 시프트 (domain shift)를 최소화합니다.

AI 자동 생성 콘텐츠

원문 바로가기

단 하나의 아틀라스면 충분하다: 몰입형 비디오를 위한 디코더 측 가우시안 스플래팅 (Decoder-Side Gaussian Splatting)

요약

핵심 포인트

댓글