arXiv논문2026. 06. 10. 11:42

AnimaSpark: 임의의 3D 객체를 애니메이션화하기 위한 피드포워드 (Feed-Forward) 방식

요약

AnimaSpark는 카테고리에 구애받지 않는 3D 애니메이션 생성을 위한 새로운 피드포워드 파이프라인을 제안합니다. 비디오 생성 모델과 키포인트 추적을 결합하여 2D 도메인의 움직임을 3D 공간으로 리프트하는 방식을 사용합니다.

핵심 포인트

카테고리 불가지론적 3D 애니메이션 생성 방식 제안
비디오 생성 모델과 키포인트 추적 기술의 결합
2D 부분 공간 내 관절 변환 모델링을 통한 효율성 확보
기존 SOTA 기술 대비 동작 품질 및 계산 효율성 우수

최근 생성형 AI (Generative AI)의 발전으로 정적인 3D 모델 생성 워크플로우는 상당히 가속화되었으나, 카테고리에 구애받지 않는 (category-agnostic) 3D 애니메이션의 합성은 3D 에셋 제작에서 여전히 중요한 병목 현상으로 남아 있습니다. 카테고리 불가지론적 애니메이션 생성을 위한 현재의 방법들은 추론 속도, 동작 품질, 그리고 텍스트 프롬프트 (textual prompts) 준수 측면에서 결정적인 한계를 보이며, 이로 인해 해당 프로세스는 노동 집약적인 수동 예술 작업에 의존하게 됩니다. 이러한 과제를 해결하기 위해, 본 논문은 카테고리 불가지론적 3D 애니메이션 생성을 위한 새로운 파이프라인인 AnimaSpark를 소개합니다. 우리의 접근 방식은 3D 세계의 많은 근본적인 동작들에 대해, 그에 상응하는 관절 변환 (joint transformations)이 종종 2차원 부분 공간 (two-dimensional subspace) 내에서 효과적으로 모델링될 수 있다는 핵심적인 통찰에서 영감을 얻었습니다. 파이프라인은 리깅된 (rigged) 정적 3D 모델을 메쉬 (mesh)와 스켈레톤 (skeleton)의 다층 이미지 표현으로 렌더링하는 것으로 시작하며, 이는 이후 비디오 생성 모델 (video generation model)에 입력됩니다. 그런 다음 생성된 비디오에 키포인트 추적 (keypoint tracking) 알고리즘을 적용하여 카메라의 시야 평면 (viewing plane)에 투영된 골격 관절의 움직임을 포착합니다. 마지막 단계에서, 우리는 이러한 추적된 키포인트로부터 평면 변환 (planar translations) 및 회전 (rotations)을 추출하고, 이를 2D 도메인에서 3D 공간으로 리프트 (lift)하여 캐릭터를 애니메이션화합니다. 종합적인 평가 결과, 우리의 방법은 텍스트-동작 정렬 (text-motion alignment), 동작 품질, 그리고 계산 효율성 (computational efficiency)을 포함한 주요 지표에서 기존의 최첨단 (state-of-the-art) 기술들보다 우수한 성능을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

AnimaSpark: 임의의 3D 객체를 애니메이션화하기 위한 피드포워드 (Feed-Forward) 방식

요약

핵심 포인트

댓글