로컬 텍스트-이미지 (text-to-image) 모델 비교: 궁극의 테스트
요약
192개의 프롬프트를 사용하여 다양한 로컬 텍스트-이미지(text-to-image) 모델의 성능을 비교 분석한 테스트 결과입니다. 텍스트 생성, 인체 해부학, 공간 구성 등 여러 측면을 평가하였으며 VLM을 활용한 정량적 분석을 포함합니다.
핵심 포인트
- 192개 프롬프트를 통한 로컬 T2I 모델의 다각도 성능 비교
- 텍스트 표현력, 인체 해부학, 공간 구성 능력 등 평가
- VLM을 활용하여 로컬 모델의 성능을 객관적으로 측정
- 로컬 환경에서 구동 가능한 모델들의 벤치마크 데이터 제공
저는 텍스트-이미지 (text-to-image) 모델의 다양한 능력을 평가하기 위해 192개의 프롬프트를 선정하였으며, 제 GX10 Spark에서 구동 가능한 모든 로컬 모델에 대해 이미지를 생성했습니다.
예를 들어: 모델이 텍스트를 잘 생성하는가? 얼굴은? 인체 해부학은? 공간적 구성을 존중하는가 등등...? 여러분은 직접 이미지를 보고 판단하시면 됩니다.
모든 이미지는 여기에서 확인하실 수 있습니다:
https://imagebench.ai/gallery?g=1_vbohinub2qwsahfzi_c11l7fi3.6wh838_lm
모든 프롬프트는 여기 있습니다: https://github.com/dh7/image-bench-ai
또한 이미지를 평가하기 위해 몇 가지 VLM (Vision Language Models)을 사용했습니다. VLM이 완벽하지는 않지만, 프런티어 (frontier) API와 비교했을 때 로컬 모델들이 어떻게 성능을 내는지 이해하기에는 충분히 훌륭합니다. 이 테스트의 결과는 여기 있습니다: https://imagebench.ai/imagebench-v1
이 내용이 여러분에게 유용하기를 바라며, 제 GX10 Spark에서 다음에 무엇을 테스트하면 좋을지 궁금합니다.
https://preview.redd.it/884996abvo8h1.png?width=2472&format=png&auto=webp&s=f5482c5391711a2186d5b4ff0bbd11d724a40aab
submitted by /u/dh7net
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기