Arena-T2I Hard: 의존성 인식 체크리스트를 통한 충실도(Faithfulness) 벤치마킹 및 개선
요약
텍스트-투-이미지(T2I) 모델의 프롬프트 충실도를 정밀하게 측정하기 위한 새로운 벤치마크 Arena-T2I Hard를 제안합니다. 의존성 인식 체크리스트 보상과 GDPO를 결합하여 미학적 품질과 프롬프트 준수 사이의 최적의 트레이드오프를 달성하는 방법론을 다룹니다.
핵심 포인트
- 기존 벤치마크의 한계를 극복하는 310개 스트레스 테스트 프롬프트 도입
- 복잡한 제약 조건을 DAG 구조로 분해하여 충실도를 학습 신호로 전환
- 미학적 품질과 충실도 간의 균형을 맞추는 GDPO 및 보상 체계 제안
- SD3.5 및 FLUX.1 모델에서 기존 베이스라인 대비 우수한 성능 입증
충실도(Faithfulness) — 생성된 이미지가 프롬프트와 얼마나 정확하게 일치하는지 — 는 텍스트-투-이미지 (T2I) 모델의 실질적인 유용성에 있어 점점 더 핵심적인 요소가 되고 있습니다. 그러나 기존의 충실도 벤치마크는 단순한 원자적 지시 사항(atomic instructions)에 의존하고 있으며, 최상위 시스템들은 이미 여기서 거의 완벽에 가까운 점수를 기록하고 있습니다. T2I 모델이 창의적인 워크플로우에 진입함에 따라, 사용자들은 복잡한 공간 관계, 스타일 제약, 그리고 복잡한 텍스트 렌더링(text rendering)이 결합된 다면적인 요청을 내립니다. 이러한 환경에서는 단일 이진 VLM-판사(VLM-judge) 점수만으로는 모델이 어떤 특정 제약 조건을 충족하지 못했는지 더 이상 포착할 수 없습니다.
우리는 실제 아레나(arena) T2I 로그에서 추출한 310개의 프롬프트 스트레스 벤치마크인 Arena-T2I Hard를 소개합니다. 이 벤치마크는 텍스트 렌더링을 포함한 6개 카테고리에 걸쳐 프롬프트당 약 30개의 분해된 yes/no 제약 조건을 가집니다. 우리가 평가한 가장 강력한 폐쇄형(closed-source) 시스템은 0.855에 도달했으며, 11개 시스템 사이에서 33%p의 성능 격차를 보여주며 상당한 변별력을 입증했습니다. 더욱이, 높은 공개 아레나 순위가 충실도를 예측하지 못한다는 점은 총체적인 Bradley-Terry (BT) 선호도 점수가 미세한 프롬프트 준수보다 미학(aesthetics)을 우선시한다는 것을 확인시켜 줍니다.
우리는 각 프롬프트를 yes/no 질문의 유향 비순환 그래프 (DAG)로 분해하고, 실패한 부모 노드의 자식 노드들을 0으로 처리하여 충실도를 제약 조건별 학습 신호로 전환하는 의존성 인식 체크리스트 보상(dependency-aware checklist reward)을 제안합니다. 이를 각 보상이 롤아웃 그룹 내에서 표준화되어 어느 하나도 붕괴되지 않도록 하는 그룹 분리 정규화 (GDPO)를 통한 BT 미학 보상과 결합함으로써, 이 레시피는 MMRB2 쌍체 비교(pairwise comparisons) 하에서 SD3.5-Medium 및 FLUX.1-dev를 대상으로 모든 단일 보상, 단순 가중치 합산, 또는 4개 보상 BT-앙상블 베이스라인보다 엄격하게 더 나은 충실도-미학 트레이드오프(faithfulness-aesthetics trade-off)를 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기