arXiv논문2026. 06. 10. 10:33

Pose-ICL: 포즈 제어가 가능한 피사체 커스텀을 위한 3D 인지 인컨텍스트 러닝 (3D-Aware In-Context Learning)

요약

Pose-ICL은 튜닝 없이 이미지-포즈 참조를 통해 피사체의 외형을 유지하며 포즈를 제어하는 3D 인지 인컨텍스트 러닝 프레임워크입니다. SAPE 메커니즘을 통해 모델에 명시적인 3D 인지 능력을 부여하여 포즈 정확도와 정체성 일관성을 높였습니다.

핵심 포인트

튜닝이 필요 없는(tuning-free) 피사체 커스텀 프레임워크 제안
SAPE를 통한 이미지 토큰의 3D 표면 좌표 고정 및 인지 능력 부여
기존 DiT 모델들과의 원활한 호환성 보장
포즈 정확도 및 정체성 일관성 측면에서 기존 방식 능가

피사체 커스텀 (Subject Customization)은 현대 이미지 생성 분야의 기초적인 작업입니다. 사용자는 몇 장의 참조 이미지와 텍스트 프롬프트를 제공함으로써, 원하는 어떤 장면에서든 특정 객체의 이미지를 생성할 수 있습니다. 그러나 기존 방식들은 커스텀된 피사체에 대해 효과적인 포즈 제어 (pose control)를 달성하는 데 여전히 어려움을 겪고 있습니다. 실제로 이들은 종종 부정확한 포즈를 보이거나, 포즈가 바뀔 때 외형이 일관되지 않은 모습을 보입니다. 이러한 한계점들은 2D 기반의 백본 (backbones) 모델이 객체를 볼륨 (volumetric) 방식으로 이해하는 것이 여전히 큰 과제임을 시사합니다. 이 문제를 해결하기 위해, 우리는 여러 개의 쌍을 이룬 이미지-포즈 참조를 통해 새로운 피사체에 직접 적응하는, 튜닝이 필요 없는 (tuning-free) 프레임워크인 Pose-ICL을 제안합니다. Pose-ICL의 핵심 메커니즘인 표면 고정 위치 임베딩 (Surface-Anchored Position Embedding, SAPE)은 이미지 토큰을 볼륨 경계 상자 (volumetric bounding box)의 표면 좌표에 고정함으로써 모델에 명시적인 3D 인지 능력을 부여합니다. 전용 정밀화 (refinements) 과정을 통해 기존의 DiT 모델들과의 원활한 호환성을 보장합니다. 3D 에셋 (assets)과 실제 피사체 모두에 대한 광범위한 평가 결과, Pose-ICL은 포즈 정확도와 정체성 일관성 (identity consistency) 모두에서 현재의 방식들을 크게 능가함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Pose-ICL: 포즈 제어가 가능한 피사체 커스텀을 위한 3D 인지 인컨텍스트 러닝 (3D-Aware In-Context Learning)

요약

핵심 포인트

댓글