본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 16. 14:09

소비자용 GPU에서 8 FPS 실시간 비디오 구현

요약

MoVerse는 단일 RTX 4090 GPU에서 8 FPS의 실시간 360° 생성형 비디오 구현을 가능하게 하는 새로운 시스템을 선보였습니다. 세계 구축과 관찰 렌더링을 분리하여 소비자용 하드웨어에서도 고충실도 비디오 스트리밍이 가능함을 증명했습니다.

핵심 포인트

  • 단일 RTX 4090에서 8 FPS의 360° 워크스루 비디오 구현
  • 세계 구축과 관찰 렌더링의 분리를 통한 처리량 최적화
  • 3D 가우시안 스캐폴드와 인과적 자기회귀 렌더러 활용
  • 고비용 GPU 클러스터 없이 데스크톱급 하드웨어로 AR/VR 프로토타이핑 가능

MoVerse는 단일 RTX 4090에서 약 8 FPS의 360° 워크스루(walkthrough) 비디오를 제공하며, 상호작용 가능한 생성형 비디오(generative video)가 더 이상 멀티 GPU 클러스터를 필요로 하지 않음을 증명합니다. 이 시스템은 좁은 시야의 입력을 전체 파노라마로 확장하고, 이를 지속적인 3D 가우시안 스캐폴드(3D Gaussian scaffold) 위에 올린 뒤, 인과적 자기회귀 렌더러(causal autoregressive renderer, 증류된 학생 모델)를 통해 결과를 스트리밍합니다. 이 모든 과정은 노트북이나 서버 팜이 아닌 데스크톱급 하드웨어에서 실행됩니다.

이러한 기여가 있기 전에는 고충실도 비디오 합성(high-fidelity video synthesis)이 수십 개의 GPU로 프레임을 오프라인에서 렌더링하는 확산 파이프라인(diffusion pipelines)에 의존하거나, 단일 카드에서 1~2 FPS를 넘기기 힘든 명시적 3D 표현(explicit 3D representations)에 의존해야 했습니다. 연구자들은 일반적으로 시각적 품질을 위해 속도를 희생했으며, 실시간 로밍(real-time roaming)은 소비자용 GPU로는 도달할 수 없는 영역으로 여겨졌습니다. 결과적으로 AR/VR 프로토타입은 사전 녹화된 에셋이나 저해상도 스프라이트(sprites)로 회귀할 수밖에 없었습니다.

우리의 배포 구성에서, 이 인과적 렌더러는 단일 NVIDIA RTX 4090 GPU에서 장면의 엔드 투 엔드(end-to-end) 로밍을 8 FPS로 달성합니다. 저자들은 동일한 하드웨어가 파노라마 확산(panorama diffusion)부터 스캐폴드 렌더링(scaffold rendering)에 이르기까지 전체 파이프라인을 사용자 제어 카메라 경로의 병목 현상 없이 처리할 수 있음을 강조합니다 [1].

이러한 처리량(throughput)의 핵심은 세계 구축(world construction)과 관찰 렌더링(observation rendering)의 분리에 있습니다. 먼저 위상 인식 확산(topology-aware diffusion)을 통해 중력 정렬된 360° 파노라마를 완성한 다음, 기하학 인식 잔차 예측기(geometry-aware residual predictor)가 단일 패스(single pass)로 래스터화(rasterized)할 수 있는 조밀한 가우시안 스캐폴드를 채웁니다. 스캐폴드가 명시적이기 때문에, 다운스트림의 자기회귀 학생 모델(autoregressive student)은 이미 렌더링된 뷰를 정교화하기만 하면 되므로 프레임당 지연 시간(latency)을 제한된 범위 내로 유지할 수 있습니다.

이 접근 방식은 여전히 대화형 경험을 8 FPS로 제한하며, 이는 유연한 VR 헤드 마운트 디스플레이 (VR head-mounted displays)에 통상적으로 요구되는 30 FPS 기준에 훨씬 못 미치는 수준입니다. 더욱이, 이 방법은 단일 협각 입력 (single narrow-field input)과 정적인 장면 기하 구조 (static scene geometry)를 가정하므로, 동적 객체 (dynamic objects)나 더 긴 궤적 (longer trajectories)에 어떻게 대응할지는 여전히 과제로 남아 있습니다.

만약 이 수치들이 유효하다면, 실시간 생성 비디오 (real-time generative video)를 위한 벤치마크 제품군 (benchmark suites)은 단일 RTX 4090에서 엔드 투 엔드 FPS (end-to-end FPS)를 측정하는 소비자용 GPU 트랙을 추가해야 합니다. 이제 다운스트림 개발자들은 GPU 클러스터 (GPU cluster)를 조달할 필요 없이 자유로운 이동이 가능한 AR 경험을 프로토타이핑할 수 있게 되었으며, 이는 비용 곡선을 자본 집약적인 팜 (capital-intensive farms)에서 단일 하이엔드 데스크톱 (high-end desktop)으로 전환시킵니다.

References

  1. MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0