ProductWebGen: 멀티모달 제품 웹페이지 생성 벤치마킹
요약
제품 이미지와 지침을 바탕으로 웹페이지를 생성하는 능력을 평가하기 위한 새로운 벤치마크 ProductWebGen을 제안합니다. LLM과 이미지 편집 모델을 결합한 방식과 단일 통합 모델(UM) 방식의 성능을 체계적으로 비교 분석했습니다.
핵심 포인트
- 제품 웹페이지 생성을 위한 500개의 테스트 샘플 벤치마크 구축
- 편집 기반 방식과 통합 모델(UM) 방식의 성능 비교 연구
- SFT를 위한 1,000개의 데이터셋 ProductWebGen-1k 공개
- 오픈 소스 모델 BAGEL을 통한 생성 능력 검증
소스 제품 이미지와 레이아웃 및 시각적 콘텐츠 지침을 사용하여 제품 전시 웹페이지를 제작하는 것은 마케팅, 광고, 이커머스(E-commerce)와 같은 분야에서 상당한 실용적 가치를 지닙니다. 직관적으로 이 작업은 제품 전시 전반에 걸친 엄격한 시각적 일관성과 렌더링 가능한 HTML 코드를 공동으로 생성하기 위한 고충실도 지침 준수(instruction following)를 요구합니다. 제어 가능성(controllability)과 지침 준수에 대한 이러한 요구 사항은 이미지 편집 모델(image editing models) 및 통합 모델(unified models, UM)과 같은 고급 멀티모달 생성 모델(multimodal generative models)의 핵심 기능과 밀접하게 맞닿아 있습니다. 이를 위해 본 논문은 이러한 모델들의 제품 웹페이지 생성 능력을 체계적으로 벤치마킹하기 위한 ProductWebGen을 소개합니다. 우리는 13개의 제품 카테고리를 아우르는 500개의 테스트 샘플로 ProductWebGen을 구성하였습니다. 각 샘플은 소스 이미지, 시각적 콘텐츠 지침, 그리고 웹페이지 지침으로 구성됩니다. 과제는 소스 이미지와 지침에 따라 여러 개의 일관된 이미지를 포함하는 제품 쇼케이스 웹페이지를 생성하는 것입니다. 작업의 혼합 모달리티(mixed-modality) 입출력 특성을 고려하여, 우리는 평가를 위한 두 가지 워크플로우를 설계하고 체계적으로 비교하였습니다. 하나는 대규모 언어 모델(large language models, LLM)과 이미지 편집 모델을 사용하여 HTML 코드와 이미지를 각각 생성하는 방식(편집 기반, editing-based)이며, 다른 하나는 단일 통합 모델(UM)에 의존하여 이전의 멀티모달 컨텍스트를 조건으로 이미지 생성을 포함한 두 가지를 모두 생성하는 방식(UM 기반, UM-based)입니다. 실증적 결과에 따르면, 편집 기반 접근 방식은 웹페이지 지침 준수와 콘텐츠 매력도 측면에서 선도적인 결과를 달성한 반면, UM 기반 방식은 시각적 콘텐츠 지침을 이행하는 데 더 많은 이점을 보일 수 있습니다. 또한 우리는 1,000개의 실제 제품 이미지와 LLM이 생성한 HTML 코드 그룹으로 구성된 지도 미세 조정(supervised fine-tuning, SFT) 데이터셋인 ProductWebGen-1k를 구축하였습니다. 우리는 오픈 소스 UM인 BAGEL에서 그 효과를 검증하였습니다. 데이터와 코드는 https://github.com/SJTU-DENG-Lab/ProductWebGen 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기