arXiv논문2026. 06. 16. 13:15

ResEdit: 정밀한 생성 이미지 편집을 위한 잔차 임베딩 (Residual embeddings)

요약

ResEdit는 잔차 임베딩(Residual embeddings)을 활용하여 생성 이미지의 정체성을 유지하면서 정밀한 편집을 가능하게 하는 연구입니다. 인버전 과정의 한계를 극복하기 위해 잔차 이미지 인코딩을 조건부 신호로 통합하고, 그래디언트 역전 전략을 통해 편집 가능성을 높였습니다.

핵심 포인트

잔차 이미지 인코딩을 통한 이미지 정체성 및 일관성 보존
그래디언트 역전 기반의 잔차와 편집 조건 분리 최적화
내재적 특징 기반 편집 및 재조명(Relighting) 성능 향상
텍스트 가이드 조작에 대한 개념 증명 완료

조건부 확산 이미지 생성기 (Conditional diffusion image generators)는 대규모의 쌍을 이룬 미세 조정 (fine-tuning) 데이터 없이도 인버전 (inversion)을 통해 편집 용도로 재사용될 수 있습니다. 그러나 약한 조건부 인버전 (weakly conditioned inversion)은 종종 노이즈에 상충하는 이미지 특징을 임베딩하기 때문에, 이미지의 정체성 (identity)과 전역적 일관성 (global consistency)을 유지하면서 고품질의 타겟팅된 편집을 수행하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 잔차 이미지 인코딩 (residual image encoding)을 추가적인 조건부 (conditioning)로 통합함으로써 정체성 보존과 편집 가능성 (editability)을 모두 향상시킬 수 있음을 입증합니다. 우리는 이 잔차 인코딩을 최적화하여 재구성 (reconstruction)을 위한 강력한 조건부 신호를 제공함으로써, 인버전에 대한 의존도와 앞서 언급한 문제점들에 대한 취약성을 줄입니다. 이 잔차가 원하는 편집을 방해하지 않도록, 우리는 잔차를 편집된 조건으로부터 분리(disentangle)하는 그래디언트 역전 (gradient reversal) 기반의 최적화 전략을 통합합니다. 우리는 정밀한 내재적 특징 기반 편집 (intrinsic-based editing) 및 재조명 (relighting) 전반에 걸쳐 고충실도 (high-fidelity) 결과를 생성하는 본 방법론의 능력을 보여주며, 텍스트 가이드 조작 (text-guided manipulation)에 대한 개념 증명 (proof-of-concept)을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ResEdit: 정밀한 생성 이미지 편집을 위한 잔차 임베딩 (Residual embeddings)

요약

핵심 포인트

댓글