텍스트 기반 3D 인간 동작 편집을 위한 관절별 동작 차이 예측을 결합한 교차 축 특징 융합 (Cross-Axis Feature Fusion
요약
텍스트 지시어를 통해 3D 인간 동작을 편집할 때, 소스 동작의 스타일을 유지하며 특정 관절의 변화를 정밀하게 제어하는 새로운 아키텍처를 제안합니다. 축 고정 트랜스포머와 교차 축 융합 블록을 통해 시간적·관절별 특징을 통합하여 편집 성능을 극대화했습니다.
핵심 포인트
- 관절 및 시간 차원의 특징을 분리 추출하는 축 고정 트랜스포머 제안
- 관절별 동작 차이 예측을 위한 Soft-DTW 기반 보조 작업 도입
- 텍스트 지시어와 소스 동작 간의 의미론적 정렬 및 충실도 향상
- MotionFix 데이터셋을 활용한 SOTA 성능 입증
우리는 자연어로 설명된 편집 사항을 적용하면서 소스 동작 (source motion)의 스타일과 구조를 보존하는 것을 목표로 하는 텍스트 기반 3D 인간 동작 편집 (text-based 3D human motion editing) 문제를 다룹니다. MotionFix 데이터셋의 출시는 소스 동작과 텍스트 지시어로부터 편집된 동작을 직접 생성하는 학습 기반 확산 모델 (diffusion models)에 대한 활발한 연구를 촉진했습니다. 기존 연구들이 주로 편집이 시간적으로 언제 발생해야 하는지를 학습하는 데 집중했다면, 우리의 목표는 이러한 시간적 측면뿐만 아니라 어떤 특정 관절 (joints)이 변화를 담당하는지를 이해하는 모델을 만드는 것입니다. 이를 목표로, 우리는 새로운 아키텍처와 학습을 돕기 위한 상호 보완적인 보조 작업 (auxiliary task)을 제안합니다. 우리의 아키텍처는 각각 관절 (joint) 차원과 시간 (time) 차원을 따라 별도의 특징을 추출하는 두 개의 축 고정 트랜스포머 (axis-anchored transformers)와, 이러한 표현들을 통합하는 교차 축 융합 블록 (cross-axis fusion block)으로 구성됩니다. 나아가 우리는 관절 고정 트랜스포머 (joint-anchored transformer)가 소스 및 타겟 관절 회전 사이의 Soft-DTW 거리를 회귀하도록 학습시키는 보조 작업을 도입합니다. 이 목적 함수는 모듈이 어떤 관절을 수정하고 어떤 관절을 보존해야 하는지를 이해하도록 가르칩니다. MotionFix 데이터셋에 대한 종합적인 실험을 통해, 우리는 우리의 방법론이 텍스트 지시어 및 소스 동작 모두와의 의미론적 정렬 (semantic alignment)과 생성된 동작의 전반적인 충실도 (fidelity)를 크게 향상시켜 최첨단 (state-of-the-art) 결과를 달성함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기