HuggingFace속보헤드라인2026. 04. 24. 06:07

실시간 상호작용 비디오 확산 모델 Waypoint-1 소개

요약

Waypoint-1은 Overworld에서 개발한 실시간 상호작용 비디오 확산(Diffusion) 모델입니다. 텍스트, 마우스 움직임, 키보드 입력을 통해 제어할 수 있어 사용자가 마치 가상 세계를 직접 탐험하는 듯한 경험을 제공합니다. 기존의 월드 모델들이 단순히 사전 학습된 모델에 제한적인 제어 입력으로 파인튜닝되는 방식과 달리, Waypoint-1은 처음부터 상호작용적 경험에 초점을 맞춰 훈련되었습니다. 특히 마우스 움직임이나 키보드 입력을 지연 없이(zero latency) 자유롭게 반영하며, 소비자급 하드웨어에서도 높은 프

핵심 포인트

Waypoint-1은 Overworld의 실시간 상호작용 비디오 확산 모델로, 텍스트뿐 아니라 마우스 및 키보드 입력을 통해 제어할 수 있습니다.
모델 백본은 10,000시간 분량의 다양한 게임 영상과 제어 입력/캡션 쌍으로 학습된 프레임-인과성(frame-causal) 정류 흐름 변환기(rectified flow transformer)입니다.
WorldEngine이라는 고성능 추론 라이브러리를 통해, 5090 GPU에서 4단계(steps) 시 30 FPS 또는 2단계 시 60 FPS를 달성하는 높은 실시간 성능을 보여줍니다.
추론 과정의 오류 누적 문제를 해결하기 위해 'Self-forcing' 기법으로 추가 학습되었으며, 이는 실제 추론 동작과 일치하도록 모델을 최적화했습니다.

Waypoint-1은 Overworld에서 개발한 혁신적인 실시간 상호작용 비디오 확산(Diffusion) 모델입니다. 이 모델의 가장 큰 특징은 단순한 텍스트 프롬프트뿐만 아니라, 사용자의 마우스 움직임과 키보드 입력을 실시간으로 받아들여 제어할 수 있다는 점입니다. 이를 통해 사용자는 마치 가상 세계를 직접 탐험하며 상호작용하는 듯한 몰입감 높은 경험을 할 수 있습니다.

1. Waypoint-1의 차별점: 상호작용 중심 학습

기존의 월드 모델(world models)들은 일반적으로 이미 사전 훈련된 비디오 모델에 제한적이고 단순화된 제어 입력으로 파인튜닝되는 경향이 있었습니다. 반면, Waypoint-1은 처음부터 '상호작용 경험' 자체에 초점을 맞춰 학습되었습니다. 이 덕분에 카메라를 마우스로 자유롭게 움직이거나 키보드의 모든 키를 지연 없이(zero latency) 입력할 수 있으며, 각 프레임 생성 시 사용자의 제어 정보를 컨텍스트로 활용합니다.

2. 기술적 기반: Rectified Flow와 Self-forcing

Waypoint-1의 핵심 백본은 10,000시간에 달하는 다양한 게임 영상 데이터셋을 활용하여 학습된 프레임-인과성(frame-causal) 정류 흐름 변환기(rectified flow transformer)입니다. 이 모델은 잠재 공간(latent model)에서 작동하며, 비디오의 미래 프레임을 예측하고 디노이징하는 방식으로 훈련됩니다.

초기에는 'Diffusion Forcing' 기법을 사용했지만, 이는 추론 과정에서 오류가 누적되는 문제점(error accumulation)을 야기할 수 있었습니다. Waypoint-1은 이 문제를 해결하기 위해 'Self-forcing'이라는 추가 학습 방식을 도입했습니다. Self-forcing은 모델이 실제 추론 환경과 동일한 방식으로 작동하는지 검증하며 훈련되므로, 현실적인 결과물을 생성하고 안정적인 장시간 스트리밍을 가능하게 합니다.

3. 고성능 구현: WorldEngine 라이브러리

Waypoint-1의 실용성을 극대화한 것이 Overworld의 전용 추론 라이브러리인 WorldEngine입니다. 이 라이브러리는 순수 Python으로 작성되었으며, 낮은 지연 시간(low latency)과 높은 처리량(high throughput)에 최적화되어 있습니다.

성능 측면에서 WorldEngine은 네 가지 핵심 최적화를 통해 뛰어난 성능을 보여줍니다:

AdaLN Feature Caching: 프롬프트 조건이나 타임스텝이 변하지 않는 한, 반복적인 AdaLN 컨디셔닝 투영(projection) 계산을 캐싱하고 재사용하여 연산 부하를 줄입니다.
Static Rolling KV Cache + Flex Attention: 메모리 효율성과 속도를 높이는 최신 트랜스포머 아키텍처 기법을 적용했습니다.
Matmul Fusion: QKV 투영(projection)에 대한 표준 추론 최적화 기법인 융합 행렬 곱셈(fused Matmul)을 사용합니다.
Torch Compile: torch.compile 기능을 활용하여 전체 그래프를 컴파일함으로써 성능을 극대화했습니다.

실제 테스트 결과, Waypoint-1-Small (2.3B) 모델이 5090 GPU에서 구동될 때 WorldEngine은 초당 약 30,000 토큰 패스(single denoising pass 기준)를 유지하며, 4단계 디노이징 시 30 FPS, 또는 2단계 디노이징 시 60 FPS라는 매우 높은 실시간 스트리밍 성능을 입증했습니다. 이 모든 것이 개발자 친화적인 API를 통해 구현되어, 누구나 쉽게 상호작용형 월드 모델 애플리케이션을 구축할 수 있게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

실시간 상호작용 비디오 확산 모델 Waypoint-1 소개

요약

핵심 포인트

댓글