히스토그램 제약 이미지 생성 (Histogram-constrained Image Generation)
요약
확산 모델의 생성 과정을 사용자가 지정한 히스토그램 분포(색상 또는 잠재 토큰)에 맞춰 제어하는 HIG 프레임워크를 제안합니다. 최적 운송(OT) 이론을 활용해 전역적 일관성과 지역적 정밀도 사이의 균형을 맞추는 새로운 제어 메커니즘을 선보입니다.
핵심 포인트
- 사용자 지정 히스토그램을 통한 정밀한 이미지 생성 제어
- 최적 운송(Optimal Transport) 문제를 활용한 샘플링 가이드
- 색상 및 잠재 토큰 분포를 조절하는 하이브리드 제어 전략
- 기존 ControlNet 등 제어 메커니즘과의 높은 호환성
확산 모델 (Diffusion models)은 생성 모델링 (generative modeling) 분야에서 지배적인 패러다임으로 부상하며, 복잡한 데이터 분포로부터 고충실도 (high-fidelity) 샘플링을 가능하게 했습니다. 이러한 인상적인 능력에도 불구하고, 특히 전역적 일관성 (global coherence)과 지역적 정밀도 (local precision) 사이의 균형을 맞출 때 사용자의 의도에 부합하는 출력을 생성하도록 확산 모델을 제어하는 것은 여전히 해결되지 않은 과제로 남아 있습니다. 기존의 제어 메커니즘은 조건화 신호 (conditioning signals)의 입도 (granularity)에 따라 다양합니다. 예를 들어, 텍스트 프롬프트 (textual prompts)는 상위 수준의 의미론 (high-level semantics)을 통해 전역적으로 생성을 안내하는 반면, ControlNet과 같은 접근 방식은 밀집된 조건 (dense conditions)을 통해 정밀한 지역 구조를 확보합니다. 본 연구에서는 제어 입도의 중간 지점에 위치하는 새로운 제어 메커니즘인 히스토그램 제약 이미지 생성 (Histogram-constrained Image Generation, HIG)을 소개합니다. 우리의 프레임워크는 생성 과정 동안 사용자가 지정한 분포 제약 (distributional constraints) (예: 색상 히스토그램 또는 잠재 토큰 분포 (latent token distributions))을 정확한 정밀도로 강제합니다. 우리는 이러한 제어를 최적 운송 (optimal transport, OT) 문제로 모델링하고 샘플링 중에 명시적인 가이드 변환 (guidance transformations)을 적용하여, 확산 궤적 (diffusion trajectory)이 원하는 히스토그램과 일치하도록 유도합니다. 우리는 색상/잠재 히스토그램을 통한 제약 생성 및 히스토그램 수준 인코딩 (histogram-level encoding)을 통한 고용량 정보 임베딩 (information embedding)을 포함하여 다양한 응용 분야에서 HIG의 다재다능함을 입증합니다. 우리의 연구 결과는 기존 제어 메커니즘과 완전히 호환되면서도 제어 가능한 이미지 생성을 위한 하이브리드 전략을 다양화하는 유연하고 해석 가능한 제어 방식인 분포 제어 (distributional control)의 가능성을 강조합니다. 우리의 프로젝트 페이지는 다음에서 확인할 수 있습니다: https://maps-research.github.io/hig/.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기