맞춤형 개념 임베딩을 통한 전경 조건부 아웃페인팅 (Foreground Conditioned Out-Painting)의 텍스트-인스턴스 정렬
요약
CCE-Diffusion은 전경 인스턴스와 텍스트 임베딩 간의 정렬 불량 문제를 해결하여 아웃페인팅 시 발생하는 아티팩트를 줄이는 프레임워크입니다. CCE-모듈을 통해 특정 시각적 인스턴스와 일반 명사 의미론 사이의 간극을 메워 고품질 배경 생성을 지원합니다.
핵심 포인트
- 기존 FCO 방식의 고질적인 아티팩트 문제 해결
- CCE-모듈을 통한 맞춤형 개념 임베딩 최적화
- 인스턴스 인식 손실을 활용한 정렬 성능 향상
- 의미 보존 프롬프트 템플릿으로 단어 왜곡 방지
- 다양한 FCO 방식에 적용 가능한 플러그 앤 플레이 구조
제품을 전시하기 위해 상인들은 종종 고품질의 디스플레이 이미지를 제작하는 데 상당한 비용을 지불합니다. 전경 조건부 아웃페인팅 (Foreground Conditioned Outpainting, FCO)은 이러한 요구를 충족하며, 사용자가 텍스트 프롬프트 (text prompt)를 조정함으로써 낮은 비용으로 전경 인스턴스 (foreground instances)에 대한 원하는 배경을 생성할 수 있도록 합니다. 그러나 기존의 텍스트 기반 FCO 방식은 출력물에서 심각한 결함을 보이며, 가장 눈에 띄는 것은 아티팩트 (artifacts)의 존재입니다. 여기서 아티팩트란 합성된 배경 내에서 전경 인스턴스와 동일한 의미론적 (semantics) 특징을 공유하는 영역을 의미합니다. 이러한 아티팩트는 객체의 두드러짐을 감소시키고 이미지 품질을 저하시킵니다. 우리는 이 문제의 원인이 주어진 인스턴스와 텍스트에서 유도된 개념 임베딩 (concept embeddings) 사이의 정렬 불량 (misalignment)에 있다고 판단합니다. 이를 해결하기 위해, 우리는 맞춤형 개념 임베딩 확산 (Customized Concept Embedding Diffusion, CCE-Diffusion) 프레임워크를 제안합니다. 이 프레임워크의 핵심은 개념 임베딩을 맞춤화하여 일반적인 명사 의미론과 특정 시각적 인스턴스 사이의 간극을 메우는 CCE-모듈 (CCE-Module)입니다. 인스턴스 인식 손실 (Instance-Aware Loss)이 모듈의 최적화를 가이드하며, 의미 보존 프롬프트 템플릿 (Semantic-Preserving Prompt Template)은 맞춤형 임베딩이 프롬프트 내의 다른 단어들을 왜곡하는 것을 방지합니다. 정성적 및 정량적 평가 모두에서 CCE-Diffusion이 출력물의 아티팩트를 크게 감소시킨다는 것을 입증했습니다. 플러그 앤 플레이 (plug-and-play) 구성 요소로서, CCE-모듈은 다양한 FCO 방식과 통합되어 그 성능을 향상시킬 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기