시맨틱 브라우징 (Semantic Browsing): 이미지 생성을 위한 제어 가능한 다양성
요약
텍스트-이미지 모델의 시각적 다양성 부족 문제를 해결하기 위해 '시맨틱 브라우징' 기술을 제안합니다. VLM과 에이전트 워크플로우를 활용하여 사용자가 의미 있는 변동 축을 따라 창의적으로 이미지를 탐색할 수 있도록 돕습니다.
핵심 포인트
- 기존 모델의 단일 시각적 해석 붕괴 문제 해결
- 텍스트 수준에서 직접적인 다양성 유도 방식 채택
- VLM과 에이전트 워크플로우를 통한 구조적 변동 강제
- 사용자가 이해 가능한 시맨틱 디자인 공간 생성
최신 텍스트-이미지 (text-to-image) 모델은 시각적 충실도와 프롬프트 준수 능력에서 탁월한 성능을 보입니다. 하지만 이러한 엄격한 준수는 다양성의 희생을 수반합니다. 즉, 생성된 샘플들이 단일한 시각적 해석으로 붕괴(collapse)되는 경향이 있습니다. 다양성을 개선하기 위한 기존 방법들은 의미 있는 디자인 선택보다는 부수적인 변동에 의해 결과물이 유도됩니다. 이는 생성된 샘플에 구조를 강제하는 새로운 형태의 다양성 과제를 촉발합니다. 우리는 사용자가 구조화된 이미지 갤러리를 탐색하고, 의미 있고 해석 가능한 변동 축(axes of variation)을 체계적으로 횡단함으로써 창의적인 탐색을 경험할 수 있는 '시맨틱 브라우징 (Semantic Browsing)'을 가능하게 하는 제어 가능한 다양성 방법을 소개합니다. 이러한 수준의 시맨틱 제어를 달성하기 위해서는 장면에 대한 깊은 이해가 필요합니다. 우리는 최근의 텍스트-이미지 모델들이 정교한 캡션 (captions)으로 학습되어, 시맨틱 의사결정과 픽셀 생성을 효과적으로 분리한다는 사실을 활용합니다. 이를 통해 패러다임의 전환이 가능해집니다. 즉, 텍스트-이미지 모델 내부의 확률적 변동 (stochastic variation)에 의존하는 대신, 텍스트 수준에서 직접 다양성을 유도합니다. 풍부한 텍스트 표현을 활용함으로써, 우리는 시각 언어 모델 (Vision Language Model, VLM)이 전체 장면 문맥 (scene context) 상에서 작동할 수 있도록 합니다. 표준적인 VLM에서 나타나는 일반적인 출력 문제를 극복하기 위해, 우리는 원래의 프롬프트에 맞춘 구조화된 변동을 명시적으로 강제하는 에이전트 워크플로우 (agentic workflow)를 채택합니다. 우리는 우리의 방법이 모든 변동이 사용자가 이해할 수 있는 특정 시맨틱 의사결정에 대응하는, 다양하고 탐색 가능한 디자인 공간을 생성함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기