arXiv논문2026. 06. 15. 08:23

MoGeFlow: 텍스트-모션 생성을 위한 모션 코드북 기하학(Motion Codebook Geometry) 기반의 플로우(Flow) 생성

요약

MoGeFlow는 모션 코드북이 가진 기하학적 특성을 활용하여 텍스트로부터 모션을 생성하는 새로운 모델입니다. 기존의 범주형 코드 예측 방식 대신 코드북 공간의 기하학적 구조를 인식하는 연속 플로우(Continuous Flow) 방식을 사용하여 생성 성능을 극대화했습니다.

핵심 포인트

모션 코드북이 물리적 움직임의 기하학적 정보를 담고 있음을 증명
범주형 예측을 기하학 인식 코드북 공간 생성 방식으로 대체
HumanML3D 및 KIT-ML 벤치마크에서 SOTA 성능 달성
이산 토큰화의 압축성을 유지하면서 연속적인 모션 생성 가능

벡터 양자화(Vector-quantized) 모션 토크나이저(tokenizer)는 텍스트-모션(text-to-motion) 생성을 위한 압축된 이산 인터페이스(discrete interface)를 제공하지만, 대부분의 모션 코드 사전(motion-code priors)은 코드 인덱스를 순서가 없는 범주형 레이블(categorical labels)로 취급합니다. 이러한 관점은 모션 코드의 핵심적인 특성을 간과합니다. 즉, 모션 코드는 물리적 움직임의 디코더 종속적 프로토타입(decoder-bound prototypes)이며, 학습된 코드북(codebooks)은 의미 있는 국소 운동학적 기하학(local kinematic geometry)을 담을 수 있다는 점입니다. 우리는 코드북 진단을 통해 이 특성을 검증합니다. 학습된 PartVQ 그룹별 코드 간의 거리는 국소 모션 프로토타입 거리와 일치하며, 컨트롤을 섞으면 이 일치성이 사라지고, 코드를 점진적으로 더 먼 이웃으로 교체하면 디코딩된 모션의 변화가 단조적으로 커집니다. 이러한 결과는 모션 코드북이 측정 가능하고, 무작위적이지 않으며, 디코더 인과적인(decoder-causal) 기하학을 나타냄을 보여줍니다. 이러한 관찰을 바탕으로, 우리는 모션 코드북 기하학을 통해 생성하는 텍스트-모션 모델인 \textbf{MoGeFlow}를 제안합니다. MoGeFlow는 각 모션 코드 프레임을 PartVQ 그룹별 코드 임베딩(code embeddings)의 구조화된 집합으로 표현하고, 이러한 프레임 상태에 대해 텍스트 조건부 연속 플로우(text-conditioned continuous flow)를 학습하며, 최종 상태를 고정된 디코딩(frozen decoding)을 위한 유효한 모션 코드로 다시 투영합니다. 이는 범주형 코드 예측을 기하학을 인식하는 코드북 공간 생성(geometry-aware codebook-space generation)으로 대체하면서도, 이산 토큰화(discrete tokenization)의 압축성과 유효성을 보존합니다. 실험 결과, HumanML3D 및 KIT-ML의 R-Precision에서 새로운 SOTA(state of the art)를 기록하였으며, 생성된 방법들 중 HumanML3D MultiModal Distance 및 KIT-ML FID에서 최고 성능을 달성하였고, 벤치마크 프로토콜 하에서 최고의 MotionMillion R@1, R@2, R@3 및 FID를 확보하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MoGeFlow: 텍스트-모션 생성을 위한 모션 코드북 기하학(Motion Codebook Geometry) 기반의 플로우(Flow) 생성

요약

핵심 포인트

댓글