Light Interaction: 상호작용형 비디오 월드 모델을 위한 학습 불필요 추론 가속화
요약
상호작용형 비디오 월드 모델의 추론 비용 문제를 해결하기 위한 Light Interaction 프레임워크를 제안합니다. 적응형 컨텍스트 관리와 디노이징 캐시 가속화를 통해 재학습 없이도 최대 2.59배의 속도 향상을 달성했습니다.
핵심 포인트
- 궤적 의존적 적응형 계산을 통한 추론 가속화
- 적응형 컨텍스트 관리 및 디노이징 캐시 활용
- Triton 커널 기반의 3D 블록 희소 어텐션 설계
- 재학습 없이 시각적 품질 유지하며 속도 2.59배 향상
상호작용형 비디오 월드 모델 (Interactive video world models)은 사용자가 제어하는 카메라 움직임에 반응하여 비디오를 청크 (chunk) 단위로 생성하며, 이를 통해 실시간 게임 시뮬레이션, 가상 장면 탐색, 그리고 Embodied AI 학습과 같은 응용 분야를 가능하게 합니다. 그러나 컨텍스트 메모리 (context memory)의 증가, 이차 복잡도 (quadratic complexity)를 갖는 어텐션 (attention) 메커니즘, 그리고 반복되는 디노이징 (denoising) 단계로 인해 긴 상호작용 궤적 (interactive trajectories)으로 확장하는 것은 비용이 매우 많이 듭니다. 본 논문에서는 상호작용형 비디오 월드 모델을 위한 학습이 필요 없는 추론 가속화 프레임워크인 Light Interaction을 제안합니다. 우리의 핵심 통찰은 상호작용이 자연스럽게 궤적 의존적 적응형 계산 (trajectory-dependent adaptive computation)을 가능하게 한다는 점입니다. 즉, 새로운 탐색 중에는 검색된 공간 메모리 (spatial memory)를 폐기할 수 있고, 국소적 잠재 역학 (local latent dynamics)에 따라 시간적 컨텍스트 (temporal context)를 조정할 수 있으며, 카메라가 익숙한 영역을 다시 방문할 때는 초기 단계의 모델 출력을 재사용할 수 있습니다. 이러한 통찰을 바탕으로, Light Interaction은 적응형 컨텍스트 관리 (adaptive context management), 디노이징 캐시 가속화 (denoising cache acceleration), 그리고 통합된 Triton 커널 (fused Triton kernels)을 사용한 하드웨어-소프트웨어 공동 설계된 3D 블록 희소 어텐션 (3D block sparse attention)을 결합합니다. HY-WorldPlay 및 Matrix-Game-3.0에서 평가한 결과, Light Interaction은 모델 재학습 없이도 경쟁력 있는 시각적 품질을 유지하면서 최대 2.59배의 속도 향상을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기