SICAGE: TED4C-L 데이터셋을 이용한 화자 독립적 문화 인지 제스처 생성
요약
SICAGE는 화자의 개별 스타일과 분리된 문화적 제스처를 생성하기 위한 모듈형 프레임워크입니다. TED4C-L 데이터셋을 활용하여 화자 독립적인 문화적 표현을 학습함으로써, 더욱 사실적이고 문화적으로 적절한 동시 발화 제스처 생성을 가능하게 합니다.
핵심 포인트
- 화자 정체성에 의존하지 않는 문화 인지 제스처 생성 프레임워크 SICAGE 제안
- 적대적 학습과 Fishr 정규화를 통한 도메인 일반화 접근 방식 적용
- 실시간 확산 기반 제스처 생성기 ALaDiT를 통한 효율적 통합
- 4개 문화 그룹의 TED 연사 데이터를 포함한 TED4C-L 데이터셋 구축
최근의 동시 발화 제스처 생성 (co-speech gesture generation) 방법들은 문화적 차이를 간과하는 경우가 많으며, 이는 인간-에이전트 상호작용 (human-agent interaction)에서의 효과를 제한합니다. 더욱이, 문화 조건부 모델 (culture-conditioned models)은 화자가 서로 다른 분할 (speaker-disjoint splits) 하에서 평가되는 경우가 드물기 때문에, 겉으로 보이는 "문화적" 행동이 화자 특유의 제스처 스타일과 혼동될 수 있습니다. 우리는 모션 합성 (motion synthesis) 모델이 화자 독립적인 문화적 표현 (cultural representations)을 조건으로 하도록 하는 문화 인지 동시 발화 제스처 생성을 위한 모듈형 프레임워크인 SICAGE를 소개합니다. SICAGE는 각 화자를 별도의 도메인으로 취급하면서 화자 간 불변성 (invariance)을 부과함으로써 오디오와 텍스트로부터 이러한 표현을 학습합니다. 이는 표현이 화자 정체성에 대한 의존도를 줄이면서도 문화적으로 판별 가능한 상태를 유지하도록 장려합니다. 결과적으로 생성된 문화적 임베딩 (cultural embeddings)은 멀티모달 생성기 (multimodal generator)의 조건이 되어 문화적으로 적절한 제스처를 생성합니다. 우리는 적대적 학습 (adversarial learning)과 Fishr 정규화 (Fishr regularization)라는 두 가지 도메인 일반화 (domain generalization) 접근 방식을 통해 이 아이디어를 구현합니다. 나아가, 학습된 문화적 임베딩을 효율적으로 통합하도록 설계된 실시간 확산 기반 (diffusion-based) 제스처 생성기인 ALaDiT를 소개합니다. 우리의 방법을 검증하기 위해, 우리는 4개의 문화 그룹에 속한 764명의 TED 연사로부터 얻은 106시간 분량의 멀티모달 데이터셋인 TED4C-L을 구축했습니다. 실험 결과, SICAGE는 모션의 사실성 (realism), 다양성 (diversity), 비트 동기화 (beat synchronization), 의미적 관련성 (semantic relevance) 및 문화적 일관성 (cultural consistency)을 향상시키는 것으로 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기