본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 28. 12:33

Sketch2Motion: 확산 모델 기반 스켈레톤 최적화를 통한 텍스트 주도형 2D 스케치 기반 3D 애니메이션 생성

요약

Sketch2Motion은 2D 스케치를 텍스트 가이드 기반의 3D 애니메이션으로 변환하는 새로운 확산 가이드 프레임워크를 제안합니다. 스켈레톤 변환과 MoSDS 기술을 결합하여 데이터 쌍 없이도 물리적으로 타당하고 자연스러운 동작을 생성합니다.

핵심 포인트

  • 확산 모델 기반의 스켈레톤 최적화 기술 제안
  • MoSDS를 통한 텍스트-비디오 확산 모델 통합
  • 물리 기반 제약 조건 및 스프링-질량 시뮬레이터 적용
  • 이족/사족 보행 및 관절형 캐릭터에 대한 범용성 확보

2D 손그림 스케치의 애니메이션화는 시각적 커뮤니케이션을 위한 효과적인 매체를 제공합니다. 하지만 이러한 스케치는 특히 폐쇄(occlusions)를 처리하고 동작을 정확하게 매핑하는 데 있어 어려움이 있습니다. 3D 애니메이션은 이러한 문제를 자연스럽게 해결하지만, 3D 동작(motion)을 추정하는 것은 여전히 매우 복잡한 작업입니다. 2D 스케치를 3D 애니메이션으로 변환하는 최근의 접근 방식들은 주로 이족 보행(bipedal movements)이나 얼굴 표정과 같은 특정 유형의 동작에 집중해 왔습니다. 우리는 고전적인 캐릭터 애니메이션 파이프라인과 딥 생성 사전 지식(deep generative priors)을 결합한, 스켈레톤 기반 동작 합성(skeleton-based motion synthesis)을 위한 확산 가이드 프레임워크(diffusion-guided framework)인 Sketch2Motion을 제안합니다. 우리의 방법은 동작을 스켈레톤 변환(skeletal transformations)을 사용하여 표현하며, 이는 선형 블렌드 스키닝(linear blend skinning, LBS)을 통해 메쉬 변형(mesh deformations)으로 전파됩니다. 결과물인 애니메이션을 현실적이고 의미론적으로 유의미한 동작으로 유도하기 위해, 우리는 동작 인식 점수 증류 샘플링(motion-aware score-distillation sampling, MoSDS)을 통해 텍스트-비디오 확산 모델(text-to-video diffusion model)을 통합하여, 쌍을 이룬 동작 데이터(paired motion data) 없이도 최적화를 가능하게 합니다. 또한, 최적화를 안정화하고 동작의 타당성을 유지하기 위해 물리 기반의 매끄러움(smoothness), 위상(topological), 접촉 제약 조건(contact constraints)을 적용합니다. 더 나아가, 부차적 동작 효과(secondary motion effects)를 도입하기 위해 스프링-질량 시뮬레이터(spring-mass simulator)를 통합합니다. 제안된 프레임워크는 일반화되어 있으며, 완전 미분 가능(fully differentiable)하고, 모듈식(modular)이며, 이족 보행(biped), 사족 보행(quadruped), 그리고 생명이 없는 관절형 캐릭터(non-living articulated characters)와 호환됩니다. 실험을 통해 우리의 접근 방식이 생성적 사전 지식(generative priors)이나 명시적인 물리적 제약 조건이 부족한 기존의 동작 전이(motion transfer) 방법들보다 성능이 뛰어나며, 시간적으로 일관되고(temporally coherent) 텍스트와 일치하는(text-aligned) 애니메이션을 생성함을 입증합니다. 우리는 코드와 데이터셋을 공개할 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0