본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 12:59

멀티모달 이미지 채색: 텍스트 조건부 가이드가 그레이스케일-컬러 변환에 미치는 영향 정량화

요약

그레이스케일 이미지를 컬러로 변환할 때 텍스트 조건부(Text Conditioning)가 미치는 영향을 정량적으로 분석한 연구입니다. U-Net과 Stable Diffusion 1.5 아키텍처를 비교하여 텍스트 가이드가 이미지 품질 지표를 어떻게 개선하는지 증명했습니다.

핵심 포인트

  • 텍스트 조건부가 U-Net과 Stable Diffusion 모두에서 채색 품질을 향상시킴
  • U-Net의 경우 텍스트 조건부 사용 시 채도가 36.6% 크게 향상됨
  • Stable Diffusion은 LPIPS를 11.3% 감소시켜 지각적 품질 개선 효과를 보임
  • CLIP 기반 텍스트 가이드가 픽셀 및 지각적 지표 모두에서 긍정적 영향 미침

그레이스케일 (Grayscale) 이미지는 역사적 사진 복원, 의료 영상, 그리고 예술 매체에서 흔히 발견됩니다. 그러나 동일한 그레이스케일 입력에 대해 여러 가지 그럴듯한 채색 결과가 존재할 수 있기 때문에, 이러한 이미지에 자동으로 색상을 적용하는 것은 컴퓨터 비전 (Computer Vision) 분야에서 여전히 중요한 과제로 남아 있습니다. 본 연구에서는 그레이스케일-컬러 (Grayscale-to-Color) 이미지 모델에 대해 텍스트 조건부 (Text Conditioning)가 픽셀 수준 및 지각적 지표 (Perceptual Metrics)에 미치는 영향을 정량화합니다. 구체적으로, 우리는 다른 모든 변수를 일정하게 유지한 상태에서 CLIP 텍스트 조건부 유무에 따라 각각 테스트된 두 가지 아키텍처인 U-Net과 Stable Diffusion 1.5를 비교합니다. 연구 결과에 따르면, U-Net 계층에서는 텍스트 조건부가 PSNR을 5.6%, SSIM을 1.2%, 채도 (Colorfulness)를 36.6% 향상시키는 동시에 LPIPS를 7.6% 감소시키는 것으로 나타났습니다. Stable Diffusion 계층에서는 텍스트 조건부가 PSNR을 5.8%, SSIM을 1.5%, 채도를 0.6% 향상시키는 한편, LPIPS를 11.3% 감소시켰습니다. 이러한 결과는 텍스트 조건부가 두 아키텍처 규모 모두에서 채색 품질에 대해 일관되고 측정 가능한 개선을 제공한다는 것을 나타냅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0