arXiv논문2026. 06. 08. 11:20

CULTURESCORE: 비디오 생성 모델의 문화적 충실도 평가

요약

비디오 생성 모델의 문화적 충실도를 평가하기 위한 새로운 프레임워크인 CultureScore를 제안합니다. 기존 지표가 시각적 품질에만 치중된 한계를 극복하기 위해 정체성, 맥락, 행동의 세 가지 차원으로 평가를 세분화했습니다.

핵심 포인트

CultureScore는 정체성, 맥락, 행동의 세 차원으로 문화적 충실도를 평가함
현재 최첨단 비디오 생성 모델들도 문화적 충실도 구현에 한계를 보임
시각적 품질이 높더라도 문화적 맥락이 틀리면 인간 선호도가 낮게 나타남
행동(Behavior) 차원이 모델들이 가장 구현하기 어려운 영역으로 분석됨

Veo 3.1 및 LTX-2와 같은 비디오 생성 모델 (Video Generation Models)이 발전함에 따라, 다양한 글로벌 문화를 정확하게 표현하는 능력은 매우 중요하지만 아직 충분히 연구되지 않은 영역으로 남아 있습니다. VideoScore와 같은 현재의 지표들은 시각적 품질 (Visual Quality)만을 측정할 뿐, 문화적 충실도 (Cultural Faithfulness)를 평가할 수 있는 메커니즘을 제공하지 않습니다. 결과적으로, '나마스테 (Namaste)' 인사를 악수로 대체하는 모델이 제스처를 올바르게 생성하는 모델과 동일한 점수를 받게 됩니다. 우리는 문화적 충실도를 세 가지 세부 차원인 정체성 (Identity: 누가 표현되는가), 맥락 (Context: 문화적으로 현지화된 배경), 행동 (Behavior: 규범적인 제스처 및 상호작용)으로 분해하는 구성적 평가 프레임워크인 CultureScore를 제안합니다. 우리는 10개국에 걸친 평가 스위트를 통해 이 프레임워크를 실행하였으며, 세 가지 최첨단 모델 (State-of-the-art models)을 통해 6,180개의 생성된 비디오를 도출했습니다. 우리의 평가 결과, 현재 어떤 모델도 문화적으로 충실한 비디오 생성을 달성하지 못하는 것으로 나타났습니다. 가장 성능이 좋은 모델조차 전체 CultureScore에서 56.8%에 그쳤으며, 행동 (Behavior) 차원이 가장 어려운 영역으로 나타나 모든 모델에서 52% 미만의 점수를 기록했습니다. 또한, 인간의 선호도 순위는 CultureScore와 방향성은 일치하지만 VideoScore와는 반대로 나타났습니다. 시각적 품질에서 가장 높은 점수를 받은 모델이 어노테이터 (Annotators)들에 의해 최하위로 평가되었으며, 이는 문화적 충실도가 공평한 비디오 생성을 위한 필수적인 기준임을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CULTURESCORE: 비디오 생성 모델의 문화적 충실도 평가

요약

핵심 포인트

댓글