본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 28. 22:59

Qwen/Qwen-Image-Bench · Hugging Face

요약

Q-Judger는 텍text-to-image 생성 이미지의 품질을 자동 평가하기 위해 미세 조정된 시각-언어 모델입니다. Qwen3.6-27B를 기반으로 하며, 사고 사슬(CoT) 추론을 통해 품질, 미학, 정렬 등 5가지 차원에서 구조화된 JSON 점수를 출력합니다.

핵심 포인트

  • Qwen3.6-27B 기반의 시각-언어 모델 활용
  • 품질, 미학, 정렬 등 5개 상위 차원의 세밀한 평가 기준 제공
  • 사고 사슬(CoT)을 통한 논리적 추론 및 JSON 출력
  • 텍스트 프롬프트와 이미지 간의 정렬 및 해부학적 충실도 평가

Model Description 모델 설명

Q-Judger는 텍스트-이미지 생성 (text-to-image generated) 이미지의 자동 평가를 위해 특별히 미세 조정 (fine-tuned)된 시각-언어 모델 (vision-language model)입니다. 텍스트 프롬프트 (text prompt)와 생성된 이미지가 주어지면, 모델은 3단계 계층 구조로 구성된 세밀한 품질 기준에 따라 이미지를 평가하고 구조화된 JSON 점수를 출력합니다.

  • 기반 모델 (Base Model): Qwen3.6-27B
  • 작업 (Task): 이미지 품질 평가 / 판정 (Image quality evaluation / judging)
  • 입력 (Input): 텍스트 프롬프트 (Text prompt) + 생성된 이미지
  • 출력 (Output): 차원별 점수가 포함된 구조화된 JSON (0 = 실패 (Fail), 1 = 통과 (Pass), 2 = 우수 (Excel), N/A)
  • 사고 모드 (Thinking Mode): 활성화됨 — 모델은 최종 JSON 출력을 생성하기 전에 사고 사슬 (chain-of-thought) 추론을 사용합니다

Evaluation Dimensions 평가 차원

모델은 각각 여러 하위 차원을 가진 5개의 상위 차원에 걸쳐 이미지를 평가합니다:

Quality 품질

  • 사실주의 (Realism): 물리적 논리 (Physical Logic), 질감 (Material Texture)
  • 세부 사항 (Detail): 노이즈 (Noise), 가장자리 선명도 (Edge Clarity), 자연스러움 (Naturalness)
  • 해상도 (Resolution): 해상도 (Resolution)

Aesthetics 미학

  • 구도 (Composition): 구도 (Composition)
  • 색상 조화 (Color Harmony): 색상 조화 (Color Harmony)
  • 조명 (Lighting): 조명 및 분위기 (Lighting & Atmosphere)
  • 해부학적 초상화 (Anatomical Portraiture): 해부학적 충실도 (Anatomical Fidelity)
  • 감정 표현 (Emotional Expression): 감정 표현 (Emotional Expression)
  • 스타일 제어 (Style Control): 스타일 제어 (Style Control)

Alignment 정렬

  • 속성 (Attributes): 수량 (Quantity), 얼굴 표정 (Facial Expression), 재질 특성 (Material Properties), 색상 (Color), 모양 (Shape), 크기 (Size)
  • 동작 (Actions): 접촉 상호작용 (Contact Interaction), 비접촉 상호작용 (Non-contact Interaction), 전신 동작 (Full-body Action)
  • 레이아웃 (Layout): 2D 공간 (2D Space), 3D 공간 (3D Space)
  • 관계 (Relations): 구도 관계 (Composition Relationship), 차이/유사성 (Difference/Similarity), 포함 관계 (Containment)
  • 장면 (Scene): 현실 세계 장면 (Real-world Scene), 가상 장면 (Virtual Scene)

Real-world Fidelity 현실 세계 충실도

  • 공정성 (Fairness): 사회적 편향 (Social Bias), 문화적 공정성 (Cultural Fairness)
  • 안전성 및 준수 (Safety & Compliance): 안전성 및 준수 (Safety & Compliance)
  • 세계 지식 (World Knowledge): 동물 (Animals), 사물 (Objects), 정보 시각화 (Information Visualization), 시간적 특성 (Temporal Characteristics), 문화적 요소 (Cultural Elements)

Creative Generation 창의적 생성

  • 상상력 (Imagination): 상상력 (Imagination)
  • 특징 매칭 (Feature Matching): 특징 매칭 (Feature Matching)
  • 논리적 해상도 (Logical Resolution): 논리적 해상도 (Logical Resolution)
  • 텍스트 렌더링 (Text Rendering): 텍스트 정확도 (Text Accuracy), 텍스트 레이아웃 (Text Layout), 글꼴 (Font), 교차 언어 생성 (Cross-lingual Generation)
  • 디자인 응용 (Design Applications): 그래픽 디자인 (Graphic Design), 제품 디자인 (Product Design), 공간 디자인 (Spatial Design), 패션 스타일링 (Fashion Styling), 게임 디자인 (Game Design), 아트 디자인 (Art Design)
  • 시각적 스토리텔링 (Visual Storytelling): 영화적 스타일 (Cinematic Style), 카메라 / 렌즈 스타일 (Camera / Lens Style), 스토리보드 제작 (Storyboard Creation), 샷 크기 (Shot Sizes), 구도 (Composition), 각도 (Angles), 만화 제작 (Comic Creation)

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0