ProductConsistency: SFT 및 RL을 통한 지시어 기반 이미지 편집에서의 제품 정체성 보존 개선
요약
지시어 기반 이미지 편집 시 제품의 정체성과 브랜딩을 보존하기 위한 새로운 연구를 소개합니다. SFT와 RL을 활용한 ProductConsistency 데이터셋과 벤치마크를 통해 Qwen 및 Flux 모델의 제품 일관성과 텍스트 렌더링 성능을 크게 개선했습니다.
핵심 포인트
- 제품 정체성 보존을 위한 ProductConsistency 데이터셋 및 벤치마크 제안
- SFT(87k 샘플) 및 RL(869개 이미지)을 결합한 학습 방법론 적용
- 캡션 유사도를 활용한 순환 일관성(Cyclic Consistency) 보상 설계
- Qwen-Image-Edit-2511 모델의 문자 오류율(CER) 5배 감소 달성
최근 지시어 기반 이미지 편집(instruction-based image editing)의 발전으로 모델이 자연어 지시로부터 복잡한 시각적 편집을 수행할 수 있게 되었습니다. 그러나 제품의 특징, 브랜딩, 텍스트 요소를 보존하는 것이 매우 중요한 제품 중심 시나리오에서, 현재의 오픈 소스 및 폐쇄형 소스 모델들은 이러한 미세한 객체 정체성(object identity)을 유지하는 데 종종 어려움을 겪습니다. 이러한 문제는 텍스트 충실도(text fidelity) 제약 조건이 포함된 지시어 기반 제품 이미지 편집을 위한 데이터셋의 부족으로 인해 더욱 심화되며, 이로 인해 해당 기능은 지시어 기반 이미지 편집 모델의 암묵적인 능력으로 간주되어 왔습니다. 본 연구에서는 제품 중심 이미지 편집을 개선하기 위해 설계된 ProductConsistency 데이터셋을 소개합니다. 우리의 접근 방식에는 제품 편집을 위한 87k개의 샘플로 구성된 지도 미세 조정 (SFT, supervised fine-tuning) 데이터셋, 869개의 고유 제품 이미지로 구성된 강화 학습 (RL, reinforcement learning) 데이터셋, 그리고 편집 모델의 엄격하고 표준화된 평가를 가능하게 하는 새로운 벤치마크 데이터셋인 ProductConsistency Benchmark가 포함됩니다. RL 학습을 가이드하기 위해, 우리는 원본 제품 설명과 편집된 이미지에서 생성된 캡션 사이의 캡션 유사도를 사용하여 제품 정체성의 의미론적 보존을 강제하는 순환 일관성 (Cyclic Consistency) 보상을 제안합니다. 우리는 우리의 데이터셋을 사용하여 Qwen-Image-Edit-2511과 Flux.1-Kontext-dev를 모두 미세 조정하였으며, OCR 및 지각 지표 (Perceptual metrics), 그리고 MLLM 기반 평가 모두에서 베이스라인 모델 대비 일관된 개선을 입증했습니다. 이는 더 강력한 제품 일관성, 텍스트 렌더링 및 전반적인 시각적 품질을 나타내며, 특히 Qwen-Image-Edit-2511 모델은 문자 오류율 (character error rate)을 5배 감소시켰습니다. 코드와 파이프라인은 https://anonymous.4open.science/r/ProductConsistency-6FCC/README.md 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기