arXiv논문2026. 06. 25. 10:36

Wan-Streamer v0.1: 엔드투엔드 실시간 상호작용 파운데이션 모델 (End-to-end Real-time Interactive

요약

Wan-Streamer는 실시간 시청각 상호작용을 위해 설계된 엔드투엔드 네이티브 스트리밍 파운데이션 모델입니다. 단일 Transformer 구조를 통해 언어, 오디오, 비디오를 통합 처리하며, 기존 계층형 시스템의 지연 시간과 오류 누적 문제를 해결했습니다.

핵심 포인트

단일 Transformer 내에서 언어, 오디오, 비디오를 통합 모델링
블록 인과적 어텐션을 통한 점진적 스트리밍 지원
외부 모듈 의존 없는 통합 학습으로 파이프라인 지연 감소
총 상호작용 지연 시간을 약 550ms로 단축하여 실시간성 확보

우리는 실시간, 저지연, 전이중 (full-duplex) 시청각 상호작용을 위해 처음부터 설계된 네이티브 스트리밍 방식의 엔드투엔드 (end-to-end) 상호작용 파운데이션 모델인 Wan-Streamer를 선보입니다. Wan-Streamer는 단일 Transformer 내에서 언어, 오디오, 비디오를 입력과 출력 모두로 원활하게 모델링하며, 여기서 시퀀스는 점진적 스트리밍을 위한 블록 인과적 어텐션 (block-causal attention)에 의해 조정되는 시각, 오디오, 텍스트 입력 토큰과 시각, 오디오, 텍스트 출력 토큰이 교차된 형태로 표현됩니다. 별도의 VAD, ASR, 언어, TTS, 오디오 기반 애니메이션 또는 비디오 생성 모듈에 의존하는 계층형 (cascaded) 상호작용 시스템과 달리, Wan-Streamer는 외부의 언어, 음성, 아바타 또는 비디오 생성 모듈에 의존하지 않습니다. 인지, 추론, 생성, 응답 타이밍, 턴 관리 (turn management) 및 교차 모달 동기화 (cross-modal synchronization)가 하나의 통합된 모델 내에서 공동으로 학습되어 파이프라인 지연 시간과 오류 누적을 줄입니다. 자연스러운 시청각 반응성을 지원하기 위해, 우리는 인과적 인코더 (causal encoders), 인과적 디코더 (causal decoders), 블록 인과적 어텐션 (block-causal attention), 저지연 멀티모달 토큰 스케줄링을 포함하여 전체 스택을 스트리밍 가능성 (streamability)을 중심으로 재설계하였으며, 이를 통해 25 fps에서 160 ms만큼 짧은 스트리밍 단위를 가능하게 합니다. Wan-Streamer는 약 200 ms의 모델 측 응답 지연 시간과 350 ms의 양방향 네트워크 지연 시간이 결합되었을 때 약 550 ms의 총 상호작용 지연 시간을 달성하여, 1초 미만의 전이중 (duplex) 시청각 통신을 지원합니다. 이러한 결과는 Wan-Streamer를 저지연 스트리밍 상호작용을 위한 통합된 엔드투엔드 멀티모달 상호작용 파운데이션 모델로 자리매김하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Wan-Streamer v0.1: 엔드투엔드 실시간 상호작용 파운데이션 모델 (End-to-end Real-time Interactive

요약

핵심 포인트

댓글