본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 12:17

FacePlex: 대화형 아바타를 위한 전이중(Full-Duplex) 결합 음성-얼굴 동작 생성

요약

FacePlex는 실시간 대화형 아바타를 위해 음성과 얼굴 동작을 동시에 생성하는 전이중(Full-Duplex) 프레임워크를 제안합니다. Rolling Flow Matching과 Rolling Cross-Attention 기술을 통해 스트리밍 환경에서도 높은 립싱크 품질과 동작 충실도를 구현했습니다.

핵심 포인트

  • 음성과 얼굴 동작 토큰을 실시간으로 결합 생성하는 전이중 방식 도입
  • Rolling Flow Matching을 통한 온라인 동작 생성 최적화
  • Rolling Cross-Attention으로 음성과 동작 간 상호 조건화 구현
  • 기존 오디오 기반 모델 대비 향상된 립싱크 및 동작 품질 달성

자연스러운 대면 대화는 동기화된 얼굴 동작과 함께 실시간 음성 생성을 필요로 합니다. 기존 시스템들은 이 문제를 부분적으로만 해결하고 있습니다. 음성 전용 전이중 (Full-duplex) 모델은 실시간으로 음성을 생성할 수는 있지만 얼굴 동작을 생성하지 못하며, 오디오 기반 (Audio-driven) 얼굴 동작 모델은 음성과 동작을 온라인에서 공동으로 생성하기보다는 이미 존재하는 오디오로부터 얼굴을 애니메이션화합니다. 이 격차를 해소하기 위해, 우리는 먼저 매 단계마다 음성 토큰 (Speech tokens)과 얼굴 동작 토큰 (Facial motion tokens)이 함께 생성되는 전이중 결합 음성-얼굴 동작 생성을 공식화합니다. 이러한 공식화를 바탕으로, 우리는 두 가지 핵심 구성 요소를 가진 통합 스트리밍 프레임워크인 FacePlex를 제안합니다. 첫째, Rolling Flow Matching은 각 스트리밍 단계에서 새로운 동작 프레임을 확정함으로써 플로우 매칭 (Flow matching)을 온라인 동작 생성에 적응시킵니다. 둘째, Rolling Cross-Attention은 스트리밍 오디오 큐 (Audio queue)와 동작 큐 (Motion queue)를 결합하여, 생성이 진행됨에 따라 음성과 얼굴 동작이 서로를 조건화 (Condition)할 수 있도록 합니다. 광범위한 실험, 어블레이션 연구 (Ablation studies), 그리고 사용자 연구를 통해, 우리는 FacePlex가 온라인 스트리밍 제약 조건 하에서 전이중 결합 음성-얼굴 동작 생성을 가능하게 하는 동시에, 오디오 기반 얼굴 동작 베이스라인보다 더 강력한 립싱크 (Lip-sync) 품질과 동작 충실도 (Motion fidelity)를 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0