arXiv논문2026. 06. 30. 12:17

FacePlex: 대화형 아바타를 위한 전이중(Full-Duplex) 결합 음성-얼굴 동작 생성

요약

FacePlex는 실시간 대화형 아바타를 위해 음성과 얼굴 동작을 동시에 생성하는 전이중(Full-Duplex) 프레임워크를 제안합니다. Rolling Flow Matching과 Rolling Cross-Attention 기술을 통해 스트리밍 환경에서도 높은 립싱크 품질과 동작 충실도를 구현했습니다.

핵심 포인트

음성과 얼굴 동작 토큰을 실시간으로 결합 생성하는 전이중 방식 도입
Rolling Flow Matching을 통한 온라인 동작 생성 최적화
Rolling Cross-Attention으로 음성과 동작 간 상호 조건화 구현
기존 오디오 기반 모델 대비 향상된 립싱크 및 동작 품질 달성

자연스러운 대면 대화는 동기화된 얼굴 동작과 함께 실시간 음성 생성을 필요로 합니다. 기존 시스템들은 이 문제를 부분적으로만 해결하고 있습니다. 음성 전용 전이중 (Full-duplex) 모델은 실시간으로 음성을 생성할 수는 있지만 얼굴 동작을 생성하지 못하며, 오디오 기반 (Audio-driven) 얼굴 동작 모델은 음성과 동작을 온라인에서 공동으로 생성하기보다는 이미 존재하는 오디오로부터 얼굴을 애니메이션화합니다. 이 격차를 해소하기 위해, 우리는 먼저 매 단계마다 음성 토큰 (Speech tokens)과 얼굴 동작 토큰 (Facial motion tokens)이 함께 생성되는 전이중 결합 음성-얼굴 동작 생성을 공식화합니다. 이러한 공식화를 바탕으로, 우리는 두 가지 핵심 구성 요소를 가진 통합 스트리밍 프레임워크인 FacePlex를 제안합니다. 첫째, Rolling Flow Matching은 각 스트리밍 단계에서 새로운 동작 프레임을 확정함으로써 플로우 매칭 (Flow matching)을 온라인 동작 생성에 적응시킵니다. 둘째, Rolling Cross-Attention은 스트리밍 오디오 큐 (Audio queue)와 동작 큐 (Motion queue)를 결합하여, 생성이 진행됨에 따라 음성과 얼굴 동작이 서로를 조건화 (Condition)할 수 있도록 합니다. 광범위한 실험, 어블레이션 연구 (Ablation studies), 그리고 사용자 연구를 통해, 우리는 FacePlex가 온라인 스트리밍 제약 조건 하에서 전이중 결합 음성-얼굴 동작 생성을 가능하게 하는 동시에, 오디오 기반 얼굴 동작 베이스라인보다 더 강력한 립싱크 (Lip-sync) 품질과 동작 충실도 (Motion fidelity)를 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

FacePlex: 대화형 아바타를 위한 전이중(Full-Duplex) 결합 음성-얼굴 동작 생성

요약

핵심 포인트

댓글