arXiv논문2026. 06. 02. 11:44

오디오 기반 토킹 헤드 생성(Audio-Driven Talking Head Generation)을 위한 시간적 정렬 평가 방식

요약

기존의 프레임 단위 평가 방식이 가진 시간적 불일치 문제를 해결하기 위해 Soft DTW를 활용한 시퀀스 정렬 기반의 새로운 평가 프레임워크를 제안합니다. 이를 통해 오디오 기반 토킹 헤드 생성 모델의 품질을 더욱 공정하고 강건하게 측정할 수 있음을 입증했습니다.

핵심 포인트

프레임 단위 지표의 시간적 정렬 한계 지적
Soft DTW를 활용한 시퀀스 수준의 재정식화 도입
타이밍 변화 및 스타일 변동에 대한 강건성 확보
7개 데이터셋 및 20개 방법론 대상 대규모 벤치마크 수행

오디오 기반 토킹 헤드 생성(Audio-driven talking-head generation) 기술은 급격히 발전해 왔으나, 기존의 평가 프로토콜은 주로 생성된 비디오와 참조 비디오 사이에 엄격한 시간적 대응(temporal correspondence)이 존재한다고 가정하는 프레임 단위 지표(frame-wise metrics)에 의존하고 있습니다. 이러한 가정은 자연스럽게 약간의 타이밍 변화, 서로 다른 말하기 속도, 그리고 스타일적 변동을 포함하는 음성 기반 얼굴 움직임(speech-driven facial motion)의 특성과 일치하지 않습니다. 그 결과, 전통적인 지표들은 무해한 타이밍 차이를 품질 오류로 취급할 수 있으며, 이로 인해 방법론들을 공정하게 비교하고 그 트레이드오프(trade-offs)를 이해하는 것이 더 어려워집니다.

본 연구에서 우리는 동적 생성 모델(dynamic generative models)의 평가는 독립적인 프레임 비교가 아닌 시퀀스 정렬 문제(sequence-alignment problem)로 정식화되어야 한다고 주장합니다. 우리는 소프트 동적 시간 워핑(Soft Dynamic Time Warping, Soft DTW)을 기존 평가 파이프라인에 통합하는 통일된 시퀀스 수준의 재정식화(sequence-level reformulation)를 도입합니다. 제안된 프레임워크는 시간적 순서를 유지하면서 특징 궤적(feature trajectories)을 정렬함으로써, 기저에 있는 지각(perceptual), 정체성(identity), 또는 동기화(synchronization) 인코더를 변경하지 않고도 제한된 범위 내의 시간적 불일치(temporal misalignments)에 대한 강건성(robustness)을 제공합니다.

우리는 프레임 단위 평가가 경직된 정렬(rigid alignment) 하에서의 특수한 사례로 간주될 수 있는 반면, 시퀀스 수준의 정렬은 향상된 안정성, 타이밍 차이에 대한 낮은 민감도, 그리고 모델링 패러다임 간의 더 명확한 구분을 제공한다는 것을 보여줍니다. 이러한 원칙적인 정식화를 바탕으로, 우리는 표준화된 프로토콜 하에 정형(canonical), 야생(in-the-wild), 그리고 스타일이 다양한(style-diverse) 시나리오를 아우르는 7개의 데이터셋에 대해 20개 방법론을 대상으로 대규모 벤치마크를 수행합니다. 광범위한 실험을 통해 시간적으로 정렬된 지표가 타이밍 차이에 더 강건하고, 데이터셋 전반에 걸쳐 더 일관된 결과를 제공하며, 동기화 대 사실성(synchronization versus realism), 표현력 대 안정성(expressiveness versus stability)과 같은 모델링 패러다임 간의 체계적인 트레이드오프를 더 잘 드러낸다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

오디오 기반 토킹 헤드 생성(Audio-Driven Talking Head Generation)을 위한 시간적 정렬 평가 방식

요약

핵심 포인트

댓글