r/LocalLLaMA분석2026. 06. 22. 04:58

로컬 텍스트-이미지 (text-to-image) 모델 비교: 궁극의 테스트

요약

192개의 프롬프트를 사용하여 다양한 로컬 텍스트-이미지(text-to-image) 모델의 성능을 비교 분석한 테스트 결과입니다. 텍스트 생성, 인체 해부학, 공간 구성 등 여러 측면을 평가하였으며 VLM을 활용한 정량적 분석을 포함합니다.

핵심 포인트

192개 프롬프트를 통한 로컬 T2I 모델의 다각도 성능 비교
텍스트 표현력, 인체 해부학, 공간 구성 능력 등 평가
VLM을 활용하여 로컬 모델의 성능을 객관적으로 측정
로컬 환경에서 구동 가능한 모델들의 벤치마크 데이터 제공

저는 텍스트-이미지 (text-to-image) 모델의 다양한 능력을 평가하기 위해 192개의 프롬프트를 선정하였으며, 제 GX10 Spark에서 구동 가능한 모든 로컬 모델에 대해 이미지를 생성했습니다.

예를 들어: 모델이 텍스트를 잘 생성하는가? 얼굴은? 인체 해부학은? 공간적 구성을 존중하는가 등등...? 여러분은 직접 이미지를 보고 판단하시면 됩니다.

모든 이미지는 여기에서 확인하실 수 있습니다:
https://imagebench.ai/gallery?g=1_vbohinub2qwsahfzi_c11l7fi3.6wh838_lm
모든 프롬프트는 여기 있습니다: https://github.com/dh7/image-bench-ai

또한 이미지를 평가하기 위해 몇 가지 VLM (Vision Language Models)을 사용했습니다. VLM이 완벽하지는 않지만, 프런티어 (frontier) API와 비교했을 때 로컬 모델들이 어떻게 성능을 내는지 이해하기에는 충분히 훌륭합니다. 이 테스트의 결과는 여기 있습니다: https://imagebench.ai/imagebench-v1

이 내용이 여러분에게 유용하기를 바라며, 제 GX10 Spark에서 다음에 무엇을 테스트하면 좋을지 궁금합니다.
https://preview.redd.it/884996abvo8h1.png?width=2472&format=png&auto=webp&s=f5482c5391711a2186d5b4ff0bbd11d724a40aab
submitted by /u/dh7net
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

로컬 텍스트-이미지 (text-to-image) 모델 비교: 궁극의 테스트

요약

핵심 포인트

댓글