arXiv논문2026. 06. 23. 12:51

전이중(Full-Duplex) 음성 대화 시스템에 얼굴 생성 통합하기

요약

Moshi-Face는 기존의 전이중 음성 모델에 얼굴 생성 기능을 통합한 최초의 모델입니다. VQ-VAE 기반의 페이스 코덱과 Face Transformer를 사용하여 실시간으로 동기화된 오디오와 얼굴 움직임을 생성합니다.

핵심 포인트

오디오와 얼굴 입력을 동시에 처리하는 멀티모달 모델 제시
VQ-VAE를 활용한 3D 헤드 메쉬의 이산 토큰화 및 재구성
Face Transformer를 통한 비자기회回归적 페이스 토큰 생성
낮은 지연 시간 내에 높은 수준의 시청각 정렬 달성

Moshi와 같은 전이중(Full-duplex) 음성 대화 모델은 자연스럽고 지연 시간이 낮은 음성 대화를 가능하게 합니다. 그러나 이러한 모델들은 여전히 오디오 모달리티(audio modality)에 국한되어 있어, 인간의 의사소통에 필수적인 얼굴 표정이 결여되어 있습니다. 본 논문에서는 사용자의 오디오와 얼굴 입력을 공동으로 처리하는 동시에 음성과 얼굴 움직임을 동시에 생성하는 최초의 전이중 대화 모델인 Moshi-Face를 선보입니다. 우리는 먼저 얼굴 비디오에서 추출된 3D 헤드 메쉬(3D head meshes)를 페이스 토큰(face tokens)이라 불리는 압축된 이산 토큰(discrete tokens)으로 인코딩하고, 반대로 이 토큰들로부터 3D 메쉬를 재구성하는 페이스 코덱(face codec)으로서 벡터 양자화 변이형 오토인코더(VQ-VAE)를 구축합니다. 그런 다음, 페이스 토큰을 비자기회귀적(non-autoregressively)으로 생성하는 Face Transformer 모듈을 통해 Moshi를 확장하여, Moshi-Face가 실시간으로 동기화된 오디오와 얼굴 토큰을 생성할 수 있도록 합니다. 실험 결과, Moshi-Face는 기존 오디오 전용 모델의 대화 품질을 유지하면서도 낮은 지연 시간 내에 시청각 정렬(audiovisual alignment)을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

전이중(Full-Duplex) 음성 대화 시스템에 얼굴 생성 통합하기

요약

핵심 포인트

댓글