AtelierEval: 텍스트-이미지 프롬프트 작성자로서의 인간 및 LLM에 대한 에이전트 기반 평가
요약
AtelierEval은 텍스트-이미지(T2I) 시스템의 프롬프트 작성 숙련도를 평가하기 위한 최초의 통합 벤치마크입니다. 인간과 MLLM의 프롬프트 작성 능력을 정량화하며, 인간 전문가와 높은 상관관계를 보이는 에이전트 기반 평가자인 AtelierJudge를 함께 제안합니다.
핵심 포인트
- 프롬프트 작성 숙련도 측정을 위한 최초의 통합 벤치마크 AtelierEval 소개
- 인간 전문가와 높은 상관관계를 가진 에이전트 평가자 AtelierJudge 제안
- MLLM의 프롬프트 작성 시 계획보다 모방 능력이 더 우월함을 입증
- 향후 이미지 증강(Image-augmented) 프롬프트 작성 방향성 제시
텍스트-이미지 (Text-to-image, T2I) 시스템은 사용자의 의도를 상세한 프롬프트로 변환하기 위해 인간 또는 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)과 같은 상위 프롬프트 작성자 (Prompters)에게 점점 더 의존하고 있습니다. 그러나 현재의 벤치마크는 프롬프트를 고정하고 T2I 모델만을 평가하며, 이 상위 구성 요소의 프롬프트 작성 숙련도는 전혀 측정하지 못하고 있습니다. 우리는 360개의 전문가 제작 태스크를 통해 프롬프트 작성 숙련도를 정량화하는 최초의 통합 벤치마크인 AtelierEval을 소개합니다. 인지적 관점에 기반한 이 벤치마크는 세 가지 태스크 범주를 포괄하며, 실제 세계의 도전 과제 분류 체계를 사용하여 태스크를 구체화하고, 인간과 MLLM 모두를 위한 이중 인터페이스를 제공합니다. 확장 가능하고 신뢰할 수 있는 평가를 가능하게 하기 위해, 우리는 기술 기반의 메모리 증강 에이전트 평가자인 AtelierJudge를 제안합니다. 이는 프롬프트-이미지 쌍에 대해 주관적 및 객관적 점수를 생성하며, 인간 전문가와 0.79의 Spearman 상관관계를 달성하여 인간의 성능에 근접합니다. 광범위한 실험을 통해 4개의 T2I 백엔드에서 8개의 MLLM을 48명의 인간 사용자와 비교 벤치마킹하였으며, AtelierEval이 강력한 진단 도구임을 검증하고, 계획 (Planning)보다 모방 (Mimicry)이 우월함을 밝혀내어 향후 프롬프트 작성자를 위한 이미지 증강 (Image-augmented) 방향을 옹호합니다. 우리의 연구는 향후 연구를 지원하기 위해 공개되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기