본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 05:36

EPIG: 개인화된 이미지 생성을 위한 감정 기반 프롬프팅 (Emotion-Based Prompting for Personalised

요약

EPIG는 심리학적 감정 모델을 활용하여 텍스트-투-이미지 확산 모델의 감정 표현력을 높이는 새로운 프롬프팅 방법론을 제안합니다. 별도의 모델 재학습 없이도 프롬프트를 풍부하게 만들어, 생성된 이미지의 감정적 일관성과 각성(arousal) 제어 능력을 크게 향상시킵니다.

핵심 포인트

  • 심리학적 가치-각성(valence-arousal) 모델 기반 프롬프트 풍부화
  • 모델 재학습이 필요 없는 경량화된 training-free 방식
  • 기존 LLM 기반 확장 방식 대비 평균 각성 오차 12~14% 감소
  • 인간, 동물 등 특정 피사체에 대한 감정 표현력 강화

텍스트-투-이미지 (Text-to-image) 확산 모델 (diffusion models)은 자연어 프롬프트로부터 고품질 이미지를 합성하는 데 있어 인상적인 결과를 달성했습니다. 그러나 일반적으로 사용되는 프롬프팅 전략은 여전히 상대적으로 일반적이며, 이는 모델이 감정적 의도와 미묘한 정서적 속성을 정확하게 표현하는 능력을 제한합니다. 본 연구는 이미지 생성 전 프롬프트 단계에서 감정적 표현력을 향상시키는 방법론인 EPIG를 제안합니다. 심리학적 지식에 기반한 감정 표현 (valence-arousal, 가치-각성)에 근거하고 구조화된 역할 인식 프롬프트 풍부화 (role-aware prompt enrichment)를 활용하는 EPIG는, 이미지 생성 백본 (backbone)을 수정하거나 재학습시키지 않고도 프롬프트의 감정 관련 구성 요소를 풍부하게 만듭니다. 그 결과 생성된 감정 인식 프롬프트는 생성 과정을 더욱 감정적으로 일관된 시각적 출력물로 유도하며, 특히 각성 (arousal)을 제어하는 데 탁월한 효과를 보입니다. EPIG는 경량이며, 별도의 학습이 필요하지 않아 (training-free) 자원이 제한된 환경 및 개인화된 이미지 생성 시나리오에 적합합니다. 10개의 다양한 프롬프트 벤치마크에 대한 실험 결과, EPIG는 단순 삽입 (naive insertion) 및 LLM 기반 프롬프트 확장 (LLM-based prompt expansion)을 포함한 강력한 베이스라인 모델들과 비교했을 때 평균 각성 오차를 각각 14%와 12% 감소시켰습니다. 이러한 개선은 통계적으로 유의미합니다. 또한 EPIG는 CLIPScore로 측정되었으며 절제 연구 (ablation studies)를 통해 뒷받침되었듯이, 가치 정렬 (valence alignment)과 의미론적 일관성 (semantic consistency)을 유지합니다. 이러한 효과는 인간, 어린이 또는 동물과 같은 명시적인 피사체가 포함된 프롬프트에서 더 두드러지게 나타나며, 감소율이 17%에 달해 제안된 방법의 피사체 민감적 (subject-sensitive) 특성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0