Arena-T2I Hard: 의존성 인식 체크리스트를 통한 충실도(Faithfulness) 벤치마킹 및 개선

충실도(Faithfulness) — 생성된 이미지가 프롬프트와 얼마나 정확하게 일치하는지 — 는 텍스트-투-이미지 (T2I) 모델의 실질적인 유용성에 있어 점점 더 핵심적인 요소가 되고 있습니다. 그러나 기존의 충실도 벤치마크는 단순한 원자적 지시 사항(atomic instructions)에 의존하고 있으며, 최상위 시스템들은 이미 여기서 거의 완벽에 가까운 점수를 기록하고 있습니다. T2I 모델이 창의적인 워크플로우에 진입함에 따라, 사용자들은 복잡한 공간 관계, 스타일 제약, 그리고 복잡한 텍스트 렌더링(text rendering)이 결합된 다면적인 요청을 내립니다. 이러한 환경에서는 단일 이진 VLM-판사(VLM-judge) 점수만으로는 모델이 어떤 특정 제약 조건을 충족하지 못했는지 더 이상 포착할 수 없습니다.

우리는 실제 아레나(arena) T2I 로그에서 추출한 310개의 프롬프트 스트레스 벤치마크인 Arena-T2I Hard를 소개합니다. 이 벤치마크는 텍스트 렌더링을 포함한 6개 카테고리에 걸쳐 프롬프트당 약 30개의 분해된 yes/no 제약 조건을 가집니다. 우리가 평가한 가장 강력한 폐쇄형(closed-source) 시스템은 0.855에 도달했으며, 11개 시스템 사이에서 33%p의 성능 격차를 보여주며 상당한 변별력을 입증했습니다. 더욱이, 높은 공개 아레나 순위가 충실도를 예측하지 못한다는 점은 총체적인 Bradley-Terry (BT) 선호도 점수가 미세한 프롬프트 준수보다 미학(aesthetics)을 우선시한다는 것을 확인시켜 줍니다.

우리는 각 프롬프트를 yes/no 질문의 유향 비순환 그래프 (DAG)로 분해하고, 실패한 부모 노드의 자식 노드들을 0으로 처리하여 충실도를 제약 조건별 학습 신호로 전환하는 의존성 인식 체크리스트 보상(dependency-aware checklist reward)을 제안합니다. 이를 각 보상이 롤아웃 그룹 내에서 표준화되어 어느 하나도 붕괴되지 않도록 하는 그룹 분리 정규화 (GDPO)를 통한 BT 미학 보상과 결합함으로써, 이 레시피는 MMRB2 쌍체 비교(pairwise comparisons) 하에서 SD3.5-Medium 및 FLUX.1-dev를 대상으로 모든 단일 보상, 단순 가중치 합산, 또는 4개 보상 BT-앙상블 베이스라인보다 엄격하게 더 나은 충실도-미학 트레이드오프(faithfulness-aesthetics trade-off)를 달성합니다.

Insights

Arena-T2I Hard: 의존성 인식 체크리스트를 통한 충실도(Faithfulness) 벤치마킹 및 개선

요약

핵심 포인트

댓글

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기