GeM-NR: 비강체 장면 변화를 위한 기하학 인지 다중 뷰 편집
요약
GeM-NR은 별도의 학습 없이 장면의 기하학적 구조와 외관을 동시에 변화시킬 수 있는 다중 뷰 이미지 편집 기술을 제안합니다. 깊이 지도 추정과 투영 기술을 활용하여 비강체(Nonrigid) 장면에서도 높은 다중 뷰 일관성을 유지합니다.
핵심 포인트
- 학습이 필요 없는(Training-free) 유연한 편집 방식 제안
- 기하학적 구조와 외관의 급격한 변화를 지원하는 비강체 편집
- 깊이 지도 추정을 통한 3D 포인트 클라우드 정렬 최적화
- 다중 뷰 전반에서 뛰어난 기하학적 및 광도 일관성 확보
생성 모델 (Generative models)을 이용한 다중 뷰 이미지 편집 (Multi-view image editing) 분야의 최근 발전은 일반적인 3D 콘텐츠 생성 및 커스텀화에 한 걸음 더 다가서게 했습니다. 대부분의 기존 연구들은 편집되지 않은 장면의 기하학적 구조 (Geometry)를 활용하여 강체 (Rigid) 또는 외관 (Appearance)만을 변경하는 편집에 집중하고 있습니다. 이는 자연스럽게 이러한 방법들이 근본적인 장면 구조를 유지하는 편집으로 제한되는 결과를 낳습니다. 다른 접근 방식들은 객체 제거 및 추가와 같은 특정 이미지 편집 작업에 맞춰 학습됩니다. 이러한 진전에도 불구하고, 장면의 기하학적 구조를 실질적으로 변화시키는 일반적인 비강체 (Nonrigid) 편집은 기존 방법들에게 여전히 도전적인 과제로 남아 있습니다.
우리는 장면의 기하학적 구조와 외관을 급격하게 변화시키는 편집을 포함하여, 일반적인 다중 뷰 일관성 (Multi-view consistent) 이미지 편집을 위한 빠르고 유연하며 별도의 학습이 필요 없는 (Training-free) 방식인 GeM-NR을 제안합니다. 선택된 백본 에디터 (Backbone editor, 예: FLUX, Qwen, BrushNet)로 편집된 앵커 이미지 (Anchor image)와 편집되지 않은 쿼리 이미지 (Query unedited image)가 주어지면, GeM-NR은 앵커의 편집 내용과 일관되게 쿼리 이미지를 편집합니다. 이 방법은 다음과 같은 여러 단계를 포함합니다: (i) 편집된 장면과 편집되지 않은 장면의 3D 포인트 클라우드 (3D point clouds) 간의 정렬을 극대화하는 전략을 제안하는 깊이 지도 추정 (Depth map estimation), (ii) 쿼리 시점 (Query viewpoint)으로의 투영 (Projection), (iii) 편집되지 않은 쿼리를 조건으로 하여 얻어진 이미지의 정교화 (Refinement). 이러한 조건부 기반 공식화 (Conditioning-based formulation)는 객체의 2개 뷰에서 다수의 뷰로 잘 확장됩니다.
우리는 기존 방법들이 어려움을 겪었던 기하학적 구조와 외관의 상당한 변화를 수반하는 편집을 처리할 수 있는 우리 방법의 능력을 입증합니다. 우리는 편집된 장면의 3D 표현 (3D representations) 생성을 포함하여, 다양한 편집 작업에 대해 우리 방법이 일관성을 향상시킨다는 광범위한 평가를 수행합니다. 정량적 및 정성적 결과 모두에서 우리 방법이 편집 품질뿐만 아니라 다중 뷰 전반의 기하학적 및 광도 일관성 (Geometric and photometric consistency) 측면에서 최첨단 (State-of-the-art) 성능을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기