Qwen/Qwen-Image-Bench · Hugging Face

요약

Q-Judger는 텍text-to-image 생성 이미지의 품질을 자동 평가하기 위해 미세 조정된 시각-언어 모델입니다. Qwen3.6-27B를 기반으로 하며, 사고 사슬(CoT) 추론을 통해 품질, 미학, 정렬 등 5가지 차원에서 구조화된 JSON 점수를 출력합니다.

핵심 포인트

Qwen3.6-27B 기반의 시각-언어 모델 활용
품질, 미학, 정렬 등 5개 상위 차원의 세밀한 평가 기준 제공
사고 사슬(CoT)을 통한 논리적 추론 및 JSON 출력
텍스트 프롬프트와 이미지 간의 정렬 및 해부학적 충실도 평가

Model Description 모델 설명

Q-Judger는 텍스트-이미지 생성 (text-to-image generated) 이미지의 자동 평가를 위해 특별히 미세 조정 (fine-tuned)된 시각-언어 모델 (vision-language model)입니다. 텍스트 프롬프트 (text prompt)와 생성된 이미지가 주어지면, 모델은 3단계 계층 구조로 구성된 세밀한 품질 기준에 따라 이미지를 평가하고 구조화된 JSON 점수를 출력합니다.

기반 모델 (Base Model): Qwen3.6-27B
작업 (Task): 이미지 품질 평가 / 판정 (Image quality evaluation / judging)
입력 (Input): 텍스트 프롬프트 (Text prompt) + 생성된 이미지
출력 (Output): 차원별 점수가 포함된 구조화된 JSON (0 = 실패 (Fail), 1 = 통과 (Pass), 2 = 우수 (Excel), N/A)
사고 모드 (Thinking Mode): 활성화됨 — 모델은 최종 JSON 출력을 생성하기 전에 사고 사슬 (chain-of-thought) 추론을 사용합니다

Evaluation Dimensions 평가 차원

모델은 각각 여러 하위 차원을 가진 5개의 상위 차원에 걸쳐 이미지를 평가합니다:

Quality 품질

사실주의 (Realism): 물리적 논리 (Physical Logic), 질감 (Material Texture)
세부 사항 (Detail): 노이즈 (Noise), 가장자리 선명도 (Edge Clarity), 자연스러움 (Naturalness)
해상도 (Resolution): 해상도 (Resolution)

Aesthetics 미학

구도 (Composition): 구도 (Composition)
색상 조화 (Color Harmony): 색상 조화 (Color Harmony)
조명 (Lighting): 조명 및 분위기 (Lighting & Atmosphere)
해부학적 초상화 (Anatomical Portraiture): 해부학적 충실도 (Anatomical Fidelity)
감정 표현 (Emotional Expression): 감정 표현 (Emotional Expression)
스타일 제어 (Style Control): 스타일 제어 (Style Control)

Alignment 정렬

속성 (Attributes): 수량 (Quantity), 얼굴 표정 (Facial Expression), 재질 특성 (Material Properties), 색상 (Color), 모양 (Shape), 크기 (Size)
동작 (Actions): 접촉 상호작용 (Contact Interaction), 비접촉 상호작용 (Non-contact Interaction), 전신 동작 (Full-body Action)
레이아웃 (Layout): 2D 공간 (2D Space), 3D 공간 (3D Space)
관계 (Relations): 구도 관계 (Composition Relationship), 차이/유사성 (Difference/Similarity), 포함 관계 (Containment)
장면 (Scene): 현실 세계 장면 (Real-world Scene), 가상 장면 (Virtual Scene)

Real-world Fidelity 현실 세계 충실도

공정성 (Fairness): 사회적 편향 (Social Bias), 문화적 공정성 (Cultural Fairness)
안전성 및 준수 (Safety & Compliance): 안전성 및 준수 (Safety & Compliance)
세계 지식 (World Knowledge): 동물 (Animals), 사물 (Objects), 정보 시각화 (Information Visualization), 시간적 특성 (Temporal Characteristics), 문화적 요소 (Cultural Elements)

Creative Generation 창의적 생성

상상력 (Imagination): 상상력 (Imagination)
특징 매칭 (Feature Matching): 특징 매칭 (Feature Matching)
논리적 해상도 (Logical Resolution): 논리적 해상도 (Logical Resolution)
텍스트 렌더링 (Text Rendering): 텍스트 정확도 (Text Accuracy), 텍스트 레이아웃 (Text Layout), 글꼴 (Font), 교차 언어 생성 (Cross-lingual Generation)
디자인 응용 (Design Applications): 그래픽 디자인 (Graphic Design), 제품 디자인 (Product Design), 공간 디자인 (Spatial Design), 패션 스타일링 (Fashion Styling), 게임 디자인 (Game Design), 아트 디자인 (Art Design)
시각적 스토리텔링 (Visual Storytelling): 영화적 스타일 (Cinematic Style), 카메라 / 렌즈 스타일 (Camera / Lens Style), 스토리보드 제작 (Storyboard Creation), 샷 크기 (Shot Sizes), 구도 (Composition), 각도 (Angles), 만화 제작 (Comic Creation)

AI 자동 생성 콘텐츠

원문 바로가기