Wan-Streamer v0.1: 엔드투엔드 실시간 상호작용 파운데이션 모델 (End-to-end Real-time Interactive

우리는 실시간, 저지연, 전이중(full-duplex) 시청각 상호작용을 위해 처음부터 설계된 네이티브 스트리밍 방식의 엔드투엔드(end-to-end) 상호작용 파운데이션 모델인 Wan-Streamer를 선보입니다. Wan-Streamer는 단일 Transformer 내에서 언어, 오디오, 비디오를 입력과 출력 모두로 원활하게 모델링하며, 여기서 시퀀스는 점진적 스트리밍을 위해 블록 인과적 어텐션(block-causal attention)에 의해 조정되는 시각, 오디오, 텍스트 입력 토큰과 시각, 오디오, 텍스트 출력 토큰이 교차된 형태로 표현됩니다. 별도의 VAD(Voice Activity Detection), ASR(Automatic Speech Recognition), 언어, TTS(Text-to-Speech), 오디오 기반 애니메이션 또는 비디오 생성 모듈에 의존하는 계층형(cascaded) 상호작용 시스템과 달리, Wan-Streamer는 외부의 언어, 음성, 아바타 또는 비디오 생성 모듈에 의존하지 않습니다. 인지, 추론, 생성, 응답 타이밍, 턴 관리(turn management) 및 교차 모달 동기화(cross-modal synchronization)가 하나의 통합된 모델 내에서 공동으로 학습되어 파이프라인 지연 시간과 오류 누적을 줄입니다. 자연스러운 시청각 반응성을 지원하기 위해, 우리는 인과적 인코더(causal encoders), 인과적 디코더(causal decoders), 블록 인과적 어텐션(block-causal attention), 저지연 멀티모달 토큰 스케줄링을 포함하여 전체 스택을 스트리밍 가능성(streamability)을 중심으로 재설계하였으며, 이를 통해 25 fps에서 160 ms만큼 짧은 스트리밍 단위를 가능하게 합니다. Wan-Streamer는 약 200 ms의 모델 측 응답 지연 시간과 350 ms의 양방향 네트워크 지연 시간이 결합되었을 때 약 550 ms의 총 상호작용 지연 시간을 달성하여, 1초 미만의 전이중(duplex) 시청각 통신을 지원합니다. 이러한 결과는 Wan-Streamer를 저지연 스트리밍 상호작용을 위한 통합된 엔드투엔드 멀티모달 상호작용 파운데이션 모델로 자리매김하게 합니다.

Insights

Wan-Streamer v0.1: 엔드투엔드 실시간 상호작용 파운데이션 모델 (End-to-end Real-time Interactive

요약

핵심 포인트

댓글

에이전틱 내비게이션(Agentic Navigation)에 대해 알아야 할 모든 것

코딩 에이전트의 SWE-chat 계획 태스크를 위한 지속적 저장소 메모리 (persistent repo memory) 벤치마킹

shot-scraper video를 사용하여 에이전트가 작업 결과의 비디오 데모를 기록하게 하세요

sqlite-utils 4.0rc1

코딩 에이전트의 SWE-chat 계획 태스크를 위한 지속적 저장소 메모리 (persistent repo memory) 벤치마킹

shot-scraper video를 사용하여 에이전트가 작업 결과의 비디오 데모를 기록하게 하세요

sqlite-utils 4.0rc1