arXiv논문2026. 05. 28. 12:08

제품 이미지 생성을 위한 유틸리티 인식 멀티모달 대조 학습 (Utility-Aware Multimodal Contrastive Learning)

요약

소비자 수요를 반영하여 제품 이미지 생성 성능을 최적화하는 '유틸리티 인식 멀티모달 대조 학습' 프레임워크를 제안합니다. 기존 모델의 의미론적 정렬 한계를 넘어, 수요 중심의 시각적 단서를 학습함으로써 상업적 효과를 극대화합니다.

핵심 포인트

유틸리티 인식 InfoNCE 손실 함수를 통한 수요 중심 학습
텍스트-이미지 일관성과 상업적 수요 간의 격차 해소
Amazon 및 Airbnb 데이터 적용 시 SOTA 모델 대비 우수한 성능
미학 및 독특함에 대한 역 U자형 수요 패턴 보존

온라인 마켓플레이스에서 제품 이미지는 소비자의 의사결정에 강력한 영향을 미칩니다. 멀티모달 대조 학습 (Multimodal Contrastive Learning)에 의해 강화된 생성형 AI (Generative AI)는 텍스트 프롬프트 (Text Prompt)와 밀접하게 일치하는 이미지를 출력할 수 있습니다. 그러나 기존의 생성형 AI 모델들은 마켓플레이스의 성과를 직접적으로 최적화하지는 못합니다. 이는 의미론적 정렬 (Semantic Alignment)만으로는 이미지가 판매될 것임을 보장할 수 없기 때문에 발생하는 중요한 격차입니다. 이러한 한계를 해결하기 위해, 우리는 소비자 수요를 새로운 유틸리티 인식 InfoNCE 손실 함수 (Utility-Aware InfoNCE loss)에 통합하는 '유틸리티 인식 멀티모달 대조 학습 (Utility-aware multimodal contrastive learning)' 프레임워크를 제안합니다. 이 유틸리티 인식 목적 함수를 최적화하면 생성이 의미론적으로 일관되면서도 수요를 증진시키는 이미지로 유도됩니다. 이러한 효과는 학습된 이미지-텍스트 표현 공간 (Image-text representation space)이 수요 중심의 시각적 단서 (Visual cues)를 향해 이동함으로써 직접적으로 발생하며, 우리는 제안된 목적 함수의 이론적 경계 (Theoretical bound)를 통해 이를 검증합니다. Amazon 및 Airbnb에서의 다운스트림 애플리케이션 (Downstream applications) 적용 결과, 우리 방법으로 생성 및 편집된 제품 이미지는 텍스트-이미지 일관성 (Text-image consistency)을 유지하면서도 수요를 높이고 충실도 (Fidelity)를 보존하는 측면에서 최첨단 (State-of-the-art) 모델들보다 뛰어난 성능을 보였습니다. 특히, 우리의 유틸리티 인식 프레임워크는 미학 (Aesthetics) 및 독특함 (Uniqueness)과 같은 속성에 대해 역 U자형 (Inverse U-shaped) 수요 패턴을 보존하며, 충실도와 의미론적 일관성을 유지하면서 수요 기반 성능을 향상시킵니다. 인간 대상 실험 (Human-subject experiments)을 통해 상업적 효과를 추가로 검증했습니다. 생성형 AI 기술이 계속 진화함에 따라, 우리의 유틸리티 인식 구성 요소는 신규 생성 모델에 유연하게 내장되어 직접적인 상업적 활용도를 높일 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

제품 이미지 생성을 위한 유틸리티 인식 멀티모달 대조 학습 (Utility-Aware Multimodal Contrastive Learning)

요약

핵심 포인트

댓글