arXiv논문2026. 06. 24. 11:15

IV-CoT: 구조 인지적 텍text-to-image 생성을 위한 암시적 시각적 사고 사슬 (Implicit Visual

요약

IV-CoT는 텍스트-이미지 생성 시 객체 수, 공간 관계 등 구조적 프롬프트 준수 능력을 향상시키기 위한 새로운 프레임워크입니다. 구조적 계획과 외형 렌더링을 분리하여 암시적 시각적 사고 사슬을 통해 정교한 이미지 생성을 가능하게 합니다.

핵심 포인트

구조적 계획과 외형 렌더링을 분리하여 구조 인지 능력 향상
구조적-세만틱 캐스케이드 방식을 통한 단계적 이미지 생성
학습 시 스케치 감독을 도입하여 추론 시 효율성 극대화
GenEval 및 T2I-CompBench 벤치마크에서 우수한 성능 입증

통합 멀티모달 거대 언어 모델 (MLLMs)은 강력한 텍스트-이미지 생성 (text-to-image generation) 품질을 달성했지만, 객체 수, 공간 관계, 속성 결합 (attribute bindings), 그리고 거친 레이아웃 (coarse layouts)이 보존되어야 하는 구조 인지적 프롬프트 준수 (structure-aware prompt following) 측면에서는 여전히 어려움을 겪고 있습니다. 우리는 이러한 한계의 원인 중 일부가 단일 조건부 스트림 (conditioning stream) 내에서 구조적 계획 (structural planning)과 외형 렌더링 (appearance rendering)이 얽혀 있기 때문이라고 판단합니다. 이 문제를 해결하기 위해, 우리는 질의 조건부 이미지 생성을 위한 잠재 시각적 추론 프레임워크인 암시적 시각적 사고 사슬 (Implicit Visual Chain-of-Thought, IV-CoT)을 제안합니다. IV-CoT는 시각적 조건부 질의를 구조적-세만틱 캐스케이드 (structural-to-semantic cascade)로 분해하며, 여기서 구조적 질의 (structural queries)가 먼저 잠재 시각적 계획 (latent visual plan)을 형성하면, 세만틱 질의 (semantic queries)가 이 계획을 조건으로 외형을 렌더링합니다. 구조적 질의를 가이드하기 위해, 우리는 학습 전용 스케치 감독 (training-only sketch supervision)을 도입하여, 추론 시 스케치 추출이나 중간 디코딩 (intermediate decoding)을 요구하지 않고도 스케치로부터 구조를 포착하도록 장려합니다. IV-CoT는 단일 순전파 (forward pass) 과정에서 암시적 CoT 추론을 수행하며, GenEval 및 T2I-CompBench에서 우수한 결과를 달성합니다. 시각화 및 분석을 통해 학습된 구조적 및 세만틱 질의가 구조 인지적 생성에서 상호 보완적인 역할을 한다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

IV-CoT: 구조 인지적 텍text-to-image 생성을 위한 암시적 시각적 사고 사슬 (Implicit Visual

요약

핵심 포인트

댓글