본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 12:51

전이중(Full-Duplex) 음성 대화 시스템에 얼굴 생성 통합하기

요약

Moshi-Face는 기존의 전이중 음성 모델에 얼굴 생성 기능을 통합한 최초의 모델입니다. VQ-VAE 기반의 페이스 코덱과 Face Transformer를 사용하여 실시간으로 동기화된 오디오와 얼굴 움직임을 생성합니다.

핵심 포인트

  • 오디오와 얼굴 입력을 동시에 처리하는 멀티모달 모델 제시
  • VQ-VAE를 활용한 3D 헤드 메쉬의 이산 토큰화 및 재구성
  • Face Transformer를 통한 비자기회回归적 페이스 토큰 생성
  • 낮은 지연 시간 내에 높은 수준의 시청각 정렬 달성

Moshi와 같은 전이중(Full-duplex) 음성 대화 모델은 자연스럽고 지연 시간이 낮은 음성 대화를 가능하게 합니다. 그러나 이러한 모델들은 여전히 오디오 모달리티(audio modality)에 국한되어 있어, 인간의 의사소통에 필수적인 얼굴 표정이 결여되어 있습니다. 본 논문에서는 사용자의 오디오와 얼굴 입력을 공동으로 처리하는 동시에 음성과 얼굴 움직임을 동시에 생성하는 최초의 전이중 대화 모델인 Moshi-Face를 선보입니다. 우리는 먼저 얼굴 비디오에서 추출된 3D 헤드 메쉬(3D head meshes)를 페이스 토큰(face tokens)이라 불리는 압축된 이산 토큰(discrete tokens)으로 인코딩하고, 반대로 이 토큰들로부터 3D 메쉬를 재구성하는 페이스 코덱(face codec)으로서 벡터 양자화 변이형 오토인코더(VQ-VAE)를 구축합니다. 그런 다음, 페이스 토큰을 비자기회귀적(non-autoregressively)으로 생성하는 Face Transformer 모듈을 통해 Moshi를 확장하여, Moshi-Face가 실시간으로 동기화된 오디오와 얼굴 토큰을 생성할 수 있도록 합니다. 실험 결과, Moshi-Face는 기존 오디오 전용 모델의 대화 품질을 유지하면서도 낮은 지연 시간 내에 시청각 정렬(audiovisual alignment)을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0