SICAGE: TED4C-L 데이터셋을 이용한 화자 독립적 문화 인지 제스처 생성

최근의 동시 발화 제스처 생성 (co-speech gesture generation) 방법들은 문화적 차이를 간과하는 경우가 많으며, 이는 인간-에이전트 상호작용 (human-agent interaction)에서의 효과를 제한합니다. 더욱이, 문화 조건부 모델 (culture-conditioned models)은 화자가 서로 다른 분할 (speaker-disjoint splits) 하에서 평가되는 경우가 드물기 때문에, 겉으로 보이는 "문화적" 행동이 화자 특유의 제스처 스타일과 혼동될 수 있습니다. 우리는 모션 합성 (motion synthesis) 모델이 화자 독립적인 문화적 표현 (cultural representations)을 조건으로 하도록 하는 문화 인지 동시 발화 제스처 생성을 위한 모듈형 프레임워크인 SICAGE를 소개합니다. SICAGE는 각 화자를 별도의 도메인으로 취급하면서 화자 간 불변성 (invariance)을 부과함으로써 오디오와 텍스트로부터 이러한 표현을 학습합니다. 이는 표현이 화자 정체성에 대한 의존도를 줄이면서도 문화적으로 판별 가능한 상태를 유지하도록 장려합니다. 결과적으로 생성된 문화적 임베딩 (cultural embeddings)은 멀티모달 생성기 (multimodal generator)의 조건이 되어 문화적으로 적절한 제스처를 생성합니다. 우리는 적대적 학습 (adversarial learning)과 Fishr 정규화 (Fishr regularization)라는 두 가지 도메인 일반화 (domain generalization) 접근 방식을 통해 이 아이디어를 구현합니다. 나아가, 학습된 문화적 임베딩을 효율적으로 통합하도록 설계된 실시간 확산 기반 (diffusion-based) 제스처 생성기인 ALaDiT를 소개합니다. 우리의 방법을 검증하기 위해, 우리는 4개의 문화 그룹에 속한 764명의 TED 연사로부터 얻은 106시간 분량의 멀티모달 데이터셋인 TED4C-L을 구축했습니다. 실험 결과, SICAGE는 모션의 사실성 (realism), 다양성 (diversity), 비트 동기화 (beat synchronization), 의미적 관련성 (semantic relevance) 및 문화적 일관성 (cultural consistency)을 향상시키는 것으로 나타났습니다.

Insights

SICAGE: TED4C-L 데이터셋을 이용한 화자 독립적 문화 인지 제스처 생성

요약

핵심 포인트

댓글

당신의 AI 에이전트에는 GPU가 필요합니다 — 하지만 당신이 생각하는 이유 때문은 아닙니다

MemoryOps AI 구축: AI 어시스턴트를 위한 관리형 메모리 레이어

확률적 표면(Stochastic Surface) 축소하기: 확률적 시스템을 위한 설계 표준

세 명의 HPC 전문가가 묻다: 과연 GPU는 여전히 필요한가?

MemoryOps AI 구축: AI 어시스턴트를 위한 관리형 메모리 레이어

확률적 표면(Stochastic Surface) 축소하기: 확률적 시스템을 위한 설계 표준

세 명의 HPC 전문가가 묻다: 과연 GPU는 여전히 필요한가?