arXiv논문2026. 05. 12. 12:03

SCOPE: 복잡한 이미지 생성을 위한 구조적 분해 및 조건부 스킬 오케스트레이션

요약

본 논문은 텍스트-이미지 모델이 여러 요구사항을 통합하여 복잡한 시각적 의도를 구현하는 데 어려움을 겪는 문제를 다룹니다. 이를 해결하기 위해, 연구진은 '의미론적 약속'을 구조적으로 유지하고 미해결된 약속 주변으로 검색, 추론, 복구 스킬을 조건부로 호출하는 명세 기반 오케스트레이션 프레임워크인 SCOPE를 제안합니다. SCOPE는 새로운 벤치마크 Gen-Arena와 평가 지표 EGIP를 도입하여, 복잡한 이미지 생성에서 지속적인 약속 추적의 효과를 입증하며 기존 모델들을 크게 능가하는 성능을 보여줍니다.

핵심 포인트

복잡한 이미지 생성을 위해서는 여러 요구사항(의미론적 약속)을 전 과정에 걸쳐 정확하게 추적하고 유지하는 것이 핵심 과제이다.
SCOPE는 명세 기반 스킬 오케스트레이션 프레임워크로, 의미론적 약속이 깨지거나 미해결될 때 조건부로 검색, 추론, 복구 스킬을 호출하여 일관성을 유지한다.
새로운 벤치마크 Gen-Arena와 평가 지표 EGIP를 도입하여, 개체 및 제약 조건 수준의 의도 구현 능력을 엄격하게 측정할 수 있게 했다.
SCOPE는 기존 베이스라인 대비 높은 성능을 보여주었으며, 이는 복잡한 시각적 의도를 가진 이미지 생성에 효과적인 접근 방식임을 입증한다.

텍스트-이미지 모델이 시각적 충실도 측면에서 큰 발전을 이루었음에도 불구하고, 여러 요구사항을 접지(grounding), 생성(generation), 검증(verification) 전반에 걸쳐 정확하게 추적해야 하므로 복잡한 시각적 의도를 충실히 구현하는 것은 여전히 어렵습니다. 우리는 이러한 요구사항들을 '의미론적 약속(semantic commitments)'이라고 부르며, 이들의 생애주기 불연속성을 '개념적 단층(Conceptual Rift)'으로 공식화합니다. 개념적 단층이란 약속들이 국소적으로 해결되거나 확인될 수는 있지만, 생성 수명 주기 전반에 걸쳐 동일한 작동 단위로 식별 가능한 상태를 유지하지 못하는 현상을 말합니다. 이를 해결하기 위해, 우리는 SCOPE라는 명세 기반 스킬 오케스트레이션 프레임워크를 제안합니다. 이 프레임워크는 진화하는 구조적 명세 내에서 의미론적 약속을 유지하며, 미해결되거나 위반된 약속 주변으로 검색(retrieval), 추론(reasoning), 복구(repair) 스킬을 조건부로 호출합니다. 약속 수준의 의도 구현을 평가하기 위해, 우리는 개체 및 제약 조건 수준의 명세가 포함된 인간 주석 기반 벤치마크인 Gen-Arena를 도입하고, 엄격한 개체 우선 통과 기준인 Entity-Gated Intent Pass Rate (EGIP)를 함께 제시합니다. SCOPE는 Gen-Arena에서 평가된 모든 베이스라인을 크게 능가하여 0.60의 EGIP를 달성했으며, 또한 WISE-V(0.907)와 MindBench(0.61)에서도 강력한 결과를 보여 복잡한 이미지 생성을 위한 지속적인 약속 추적의 효과를 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SCOPE: 복잡한 이미지 생성을 위한 구조적 분해 및 조건부 스킬 오케스트레이션

요약

핵심 포인트

댓글