변형된 RoPE 강화 확산 모델을 이용한 제어 가능한 텍스처 타일링 (Controllable Texture Tiling with
요약
Diffusion Transformers를 기반으로 사용자가 지정한 매개변수에 따라 텍스처를 정밀하게 타일링하는 새로운 프레임워크를 제안합니다. 좌표 변환 RoPE와 분리된 어텐션 마스크를 통해 구조적 충실도와 조명 일관성을 동시에 확보합니다.
핵심 포인트
- 좌표 변환 RoPE를 통한 정밀한 타일링 패턴 제어
- 분리된 어텐션 마스크로 시맨틱 누출 방지 및 구조 보존
- 픽셀 워핑 없이도 빈도, 방향, 스케일 조절 가능
- 기존 SOTA 모델 대비 높은 제어 정확도와 텍스처 충실도 입증
사용자가 지정한 텍스처를 장면 이미지에 사실적으로 통합하는 것은 컴퓨터 그래픽스 및 이미지 편집 분야의 근본적인 과제입니다. 기존의 재질 전이(material transfer) 및 참조 가이드 인페인팅(reference-guided inpainting) 방식은 표면 외관을 편집할 수는 있지만, 텍스처 타일링(texture tiling)의 구체적인 요구 사항을 해결하는 데는 종종 실패합니다. 이 작업은 빈도(frequency), 방향(orientation), 스케일(scale)과 같이 사용자가 정의한 매개변수에 따라 참조 패턴을 정밀하게 반복할 것을 요구합니다. 또한, 현재의 생성적 접근 방식은 파괴적인 픽셀 수준의 리샘플링(resampling) 또는 시맨틱 이미지 인코더(semantic image encoder)의 미세한 공간 정보 부족으로 인해 참조 텍스처의 구조적 충실도(structural fidelity)를 유지하는 데 어려움을 겪는 경우가 많으며, 원래 장면의 일관된 조명(lighting)과 기하학적 구조(geometry)를 보존하는 데도 자주 실패합니다. 본 논문에서는 Diffusion Transformers를 기반으로 제어 가능하고 충실도가 높은 텍스처 타일링을 위한 새로운 프레임워크를 제안합니다. 우리의 접근 방식은 공간 조작(spatial manipulation)과 콘텐츠 생성(content generation)을 분리하기 위해 두 가지 핵심 기술 혁신을 도입합니다. 첫째, 좌표 변환 회전 임베딩(Coordinate-Transformed Rotary Embedding) 메커니즘을 제안합니다. 타겟 잠재 공간(target latent)과 이미지 조건(image condition) 사이의 상대적 위치 임베딩(relative positional embeddings)에 2D 아핀 변환(affine transformations)을 직접 적용함으로써, 명시적인 픽셀 워핑(pixel warping) 없이도 타일링 패턴에 대한 정밀한 제어를 달성하며, 이를 통해 저하 없이 참조 조건의 모든 정보를 활용합니다. 둘째, 시맨틱 누출(semantic leakage)로부터 참조 특징(reference features)을 보호하기 위해 분리된 어텐션 마스크(Disjoint Attention Mask)를 사용합니다. 이는 구조적 무결성(structural integrity)을 보존하는 동시에 합성된 텍스처를 장면의 원래 조명 및 기하학적 구조와 매끄럽게 혼합합니다. 광범위한 실험을 통해 우리의 방법이 제어 정확도와 텍스처 충실도 모두에서 최첨단(state-of-the-art) 베이스라인 모델보다 뛰어난 성능을 보임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기