소수의 사례를 넘어선 구상: 소수 샷의 비전형적 레이아웃-이미지 생성을 위한 분리된 의미론 및 프리미티브
요약
소수 샷 환경에서 레이아웃-이미지(L2I) 생성 시 발생하는 표현 파편화 문제를 해결하기 위한 새로운 프레임워크를 제안합니다. 의미론과 프리미티브를 분리하여 시각적 충실도와 정렬 성능을 동시에 개선했습니다.
핵심 포인트
- 의미론과 프리미티브 분리를 통한 표현 파편화 해결
- 의미론적 앵커링을 통한 안정적인 정체성 유지
- 재구성 가능한 프리미티브로 견고한 국소 세부 사항 모델링
- 5-샷 환경에서 기존 SOTA 방식 대비 성능 우위 입증
레이아웃-이미지 (Layout-to-Image, L2I) 작업은 객체 카테고리와 공간 레이아웃을 통해 이미지 생성에 대한 미세한 제어를 가능하게 합니다. 그러나 기존의 L2I 방식은 소수 샷 (Few-shot)의 비전형적인 설정 하에서 파편화되고 왜곡된 생성 결과를 초래합니다. 우리는 이러한 실패를 표현 파편화 (Representation fragmentation)라고 명명하며, 이는 의미론적 정체성 (Semantic identity)이 시각적 세부 사항과 얽히는 입도 불일치 (Granularity mismatch)로 인해 발생합니다. 이 문제를 해결하기 위해, 우리는 강력한 소수 샷 적응을 위해 의미론 (Semantics)을 프리미티브 (Primitives)로부터 분리하는 표현 주도 프레임워크를 제안합니다. 구체적으로, 의미론적 앵커링 (Semantic Anchoring)은 안정적인 정체성을 위해 카테고리 의미론을 앵커 (Anchors)로 집계하며, 프리미티브 임뷰잉 (Primitive Imbuing)은 견고한 국소 세부 사항 모델링을 위해 재구성 가능한 프리미티브를 모델링합니다. 개념적 스티어링 (Conceptual Steering)은 전경의 의미론적 일관성을 유지하기 위해 돌출도 인식 목적 함수 (Saliency-aware objective)를 사용하여 최적화를 추가로 조절합니다. 광범위한 실험을 통해, 다양한 비전형적 도메인에서 시각적 충실도 (Visual fidelity)와 정렬 (Alignment) 모두에 대해 5-샷 (5-shot) 환경에서 최첨단 (State-of-the-art) L2I 방식보다 일관된 개선을 보임을 입증했습니다. 소스 코드는 https://github.com/iCVTEAM/DSP 에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기