Wan-Streamer v0.1: 엔드투엔드 실시간 상호작용 파운데이션 모델 (End-to-end Real-time Interactive
요약
Wan-Streamer는 실시간 시청각 상호작용을 위해 설계된 엔드투엔드 네이티브 스트리밍 파운데이션 모델입니다. 단일 Transformer 내에서 언어, 오디오, 비디오를 통합 모델링하여 기존 계층형 시스템의 지연 시간과 오류 누적 문제를 해결했습니다.
핵심 포인트
- 단일 Transformer를 통한 언어·오디오·비디오 통합 모델링
- VAD, ASR, TTS 등 외부 모듈 없는 엔드투엔드 구조
- 블록 인과적 어텐션을 활용한 점진적 스트리밍 지원
- 총 상호작용 지연 시간을 약 550ms로 단축하여 실시간성 확보
우리는 실시간, 저지연, 전이중(full-duplex) 시청각 상호작용을 위해 처음부터 설계된 네이티브 스트리밍 방식의 엔드투엔드(end-to-end) 상호작용 파운데이션 모델인 Wan-Streamer를 선보입니다. Wan-Streamer는 단일 Transformer 내에서 언어, 오디오, 비디오를 입력과 출력 모두로 원활하게 모델링하며, 여기서 시퀀스는 점진적 스트리밍을 위해 블록 인과적 어텐션(block-causal attention)에 의해 조정되는 시각, 오디오, 텍스트 입력 토큰과 시각, 오디오, 텍스트 출력 토큰이 교차된 형태로 표현됩니다. 별도의 VAD(Voice Activity Detection), ASR(Automatic Speech Recognition), 언어, TTS(Text-to-Speech), 오디오 기반 애니메이션 또는 비디오 생성 모듈에 의존하는 계층형(cascaded) 상호작용 시스템과 달리, Wan-Streamer는 외부의 언어, 음성, 아바타 또는 비디오 생성 모듈에 의존하지 않습니다. 인지, 추론, 생성, 응답 타이밍, 턴 관리(turn management) 및 교차 모달 동기화(cross-modal synchronization)가 하나의 통합된 모델 내에서 공동으로 학습되어 파이프라인 지연 시간과 오류 누적을 줄입니다. 자연스러운 시청각 반응성을 지원하기 위해, 우리는 인과적 인코더(causal encoders), 인과적 디코더(causal decoders), 블록 인과적 어텐션(block-causal attention), 저지연 멀티모달 토큰 스케줄링을 포함하여 전체 스택을 스트리밍 가능성(streamability)을 중심으로 재설계하였으며, 이를 통해 25 fps에서 160 ms만큼 짧은 스트리밍 단위를 가능하게 합니다. Wan-Streamer는 약 200 ms의 모델 측 응답 지연 시간과 350 ms의 양방향 네트워크 지연 시간이 결합되었을 때 약 550 ms의 총 상호작용 지연 시간을 달성하여, 1초 미만의 전이중(duplex) 시청각 통신을 지원합니다. 이러한 결과는 Wan-Streamer를 저지연 스트리밍 상호작용을 위한 통합된 엔드투엔드 멀티모달 상호작용 파운데이션 모델로 자리매김하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기