Qwen/Qwen-Image-Bench · Hugging Face
요약
Q-Judger는 텍text-to-image 생성 이미지의 품질을 자동 평가하기 위해 미세 조정된 시각-언어 모델입니다. Qwen3.6-27B를 기반으로 하며, 사고 사슬(CoT) 추론을 통해 품질, 미학, 정렬 등 5가지 차원에서 구조화된 JSON 점수를 출력합니다.
핵심 포인트
- Qwen3.6-27B 기반의 시각-언어 모델 활용
- 품질, 미학, 정렬 등 5개 상위 차원의 세밀한 평가 기준 제공
- 사고 사슬(CoT)을 통한 논리적 추론 및 JSON 출력
- 텍스트 프롬프트와 이미지 간의 정렬 및 해부학적 충실도 평가
Model Description 모델 설명
Q-Judger는 텍스트-이미지 생성 (text-to-image generated) 이미지의 자동 평가를 위해 특별히 미세 조정 (fine-tuned)된 시각-언어 모델 (vision-language model)입니다. 텍스트 프롬프트 (text prompt)와 생성된 이미지가 주어지면, 모델은 3단계 계층 구조로 구성된 세밀한 품질 기준에 따라 이미지를 평가하고 구조화된 JSON 점수를 출력합니다.
- 기반 모델 (Base Model): Qwen3.6-27B
- 작업 (Task): 이미지 품질 평가 / 판정 (Image quality evaluation / judging)
- 입력 (Input): 텍스트 프롬프트 (Text prompt) + 생성된 이미지
- 출력 (Output): 차원별 점수가 포함된 구조화된 JSON (0 = 실패 (Fail), 1 = 통과 (Pass), 2 = 우수 (Excel), N/A)
- 사고 모드 (Thinking Mode): 활성화됨 — 모델은 최종 JSON 출력을 생성하기 전에 사고 사슬 (chain-of-thought) 추론을 사용합니다
Evaluation Dimensions 평가 차원
모델은 각각 여러 하위 차원을 가진 5개의 상위 차원에 걸쳐 이미지를 평가합니다:
Quality 품질
- 사실주의 (Realism): 물리적 논리 (Physical Logic), 질감 (Material Texture)
- 세부 사항 (Detail): 노이즈 (Noise), 가장자리 선명도 (Edge Clarity), 자연스러움 (Naturalness)
- 해상도 (Resolution): 해상도 (Resolution)
Aesthetics 미학
- 구도 (Composition): 구도 (Composition)
- 색상 조화 (Color Harmony): 색상 조화 (Color Harmony)
- 조명 (Lighting): 조명 및 분위기 (Lighting & Atmosphere)
- 해부학적 초상화 (Anatomical Portraiture): 해부학적 충실도 (Anatomical Fidelity)
- 감정 표현 (Emotional Expression): 감정 표현 (Emotional Expression)
- 스타일 제어 (Style Control): 스타일 제어 (Style Control)
Alignment 정렬
- 속성 (Attributes): 수량 (Quantity), 얼굴 표정 (Facial Expression), 재질 특성 (Material Properties), 색상 (Color), 모양 (Shape), 크기 (Size)
- 동작 (Actions): 접촉 상호작용 (Contact Interaction), 비접촉 상호작용 (Non-contact Interaction), 전신 동작 (Full-body Action)
- 레이아웃 (Layout): 2D 공간 (2D Space), 3D 공간 (3D Space)
- 관계 (Relations): 구도 관계 (Composition Relationship), 차이/유사성 (Difference/Similarity), 포함 관계 (Containment)
- 장면 (Scene): 현실 세계 장면 (Real-world Scene), 가상 장면 (Virtual Scene)
Real-world Fidelity 현실 세계 충실도
- 공정성 (Fairness): 사회적 편향 (Social Bias), 문화적 공정성 (Cultural Fairness)
- 안전성 및 준수 (Safety & Compliance): 안전성 및 준수 (Safety & Compliance)
- 세계 지식 (World Knowledge): 동물 (Animals), 사물 (Objects), 정보 시각화 (Information Visualization), 시간적 특성 (Temporal Characteristics), 문화적 요소 (Cultural Elements)
Creative Generation 창의적 생성
- 상상력 (Imagination): 상상력 (Imagination)
- 특징 매칭 (Feature Matching): 특징 매칭 (Feature Matching)
- 논리적 해상도 (Logical Resolution): 논리적 해상도 (Logical Resolution)
- 텍스트 렌더링 (Text Rendering): 텍스트 정확도 (Text Accuracy), 텍스트 레이아웃 (Text Layout), 글꼴 (Font), 교차 언어 생성 (Cross-lingual Generation)
- 디자인 응용 (Design Applications): 그래픽 디자인 (Graphic Design), 제품 디자인 (Product Design), 공간 디자인 (Spatial Design), 패션 스타일링 (Fashion Styling), 게임 디자인 (Game Design), 아트 디자인 (Art Design)
- 시각적 스토리텔링 (Visual Storytelling): 영화적 스타일 (Cinematic Style), 카메라 / 렌즈 스타일 (Camera / Lens Style), 스토리보드 제작 (Storyboard Creation), 샷 크기 (Shot Sizes), 구도 (Composition), 각도 (Angles), 만화 제작 (Comic Creation)
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기