IV-CoT: 구조 인지적 텍text-to-image 생성을 위한 암시적 시각적 사고 사슬 (Implicit Visual
요약
IV-CoT는 텍스트-이미지 생성 시 객체 수, 공간 관계 등 구조적 프롬프트 준수 능력을 향상시키기 위한 새로운 프레임워크입니다. 구조적 계획과 외형 렌더링을 분리하여 암시적 시각적 사고 사슬을 통해 정교한 이미지 생성을 가능하게 합니다.
핵심 포인트
- 구조적 계획과 외형 렌더링을 분리하여 구조 인지 능력 향상
- 구조적-세만틱 캐스케이드 방식을 통한 단계적 이미지 생성
- 학습 시 스케치 감독을 도입하여 추론 시 효율성 극대화
- GenEval 및 T2I-CompBench 벤치마크에서 우수한 성능 입증
통합 멀티모달 거대 언어 모델 (MLLMs)은 강력한 텍스트-이미지 생성 (text-to-image generation) 품질을 달성했지만, 객체 수, 공간 관계, 속성 결합 (attribute bindings), 그리고 거친 레이아웃 (coarse layouts)이 보존되어야 하는 구조 인지적 프롬프트 준수 (structure-aware prompt following) 측면에서는 여전히 어려움을 겪고 있습니다. 우리는 이러한 한계의 원인 중 일부가 단일 조건부 스트림 (conditioning stream) 내에서 구조적 계획 (structural planning)과 외형 렌더링 (appearance rendering)이 얽혀 있기 때문이라고 판단합니다. 이 문제를 해결하기 위해, 우리는 질의 조건부 이미지 생성을 위한 잠재 시각적 추론 프레임워크인 암시적 시각적 사고 사슬 (Implicit Visual Chain-of-Thought, IV-CoT)을 제안합니다. IV-CoT는 시각적 조건부 질의를 구조적-세만틱 캐스케이드 (structural-to-semantic cascade)로 분해하며, 여기서 구조적 질의 (structural queries)가 먼저 잠재 시각적 계획 (latent visual plan)을 형성하면, 세만틱 질의 (semantic queries)가 이 계획을 조건으로 외형을 렌더링합니다. 구조적 질의를 가이드하기 위해, 우리는 학습 전용 스케치 감독 (training-only sketch supervision)을 도입하여, 추론 시 스케치 추출이나 중간 디코딩 (intermediate decoding)을 요구하지 않고도 스케치로부터 구조를 포착하도록 장려합니다. IV-CoT는 단일 순전파 (forward pass) 과정에서 암시적 CoT 추론을 수행하며, GenEval 및 T2I-CompBench에서 우수한 결과를 달성합니다. 시각화 및 분석을 통해 학습된 구조적 및 세만틱 질의가 구조 인지적 생성에서 상호 보완적인 역할을 한다는 것을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기