arXiv논문2026. 06. 02. 11:44

PaintBench: 정밀한 시각적 편집의 결정론적 평가

요약

정밀한 시각적 편집 능력을 평가하기 위한 새로운 벤치마크인 PaintBench를 소개합니다. 기하학적 변환, 구조적 조작 등 4개 범주의 20가지 작업을 통해 기존 멀티모달 모델들의 낮은 정밀도를 입증하고 엄격한 평가 토대를 제공합니다.

핵심 포인트

정밀한 단일 정답 편집을 위한 벤치마크 PaintBench 제안
판사 모델 의존성을 제거한 결정론적 픽셀 수준 평가 방식
기존 11개 모델의 전반적으로 낮은 정밀도 성능 확인
데이터 시각화 편집 평가를 위한 TinyGrafixBench 구축 및 상관관계 입증

현재의 멀티모달 모델(Multimodal models)은 개방형 시각적 편집(Open-ended visual editing)에는 능숙하지만, 정밀한 단일 정답 편집(Single-answer edits)을 수행하는 것은 여전히 중요한 장애물로 남아 있습니다. 이러한 과제를 조사하기 위해, 우리는 기하학적 변환(Geometric transformation), 구조적 조작(Structural manipulation), 색상 변경(Color change), 기호 추론(Symbolic reasoning)의 네 가지 범주에 걸친 20가지의 근본적인 정밀 시각적 편집 작업을 대상으로 하는 동적으로 확장 가능한 벤치마크인 PaintBench를 소개합니다. 구성 가능한 복잡성을 가진 절차적 생성(Procedural generation)은 효과적으로 무한하며 오염에 강한(Contamination-resistant) 평가 세트를 가능하게 하며, 결정론적인 픽셀 수준 평가(Deterministic pixel-level evaluation)는 편향되기 쉬운 판사 모델(Judge models)에 대한 의존성을 제거합니다. 11개의 이미지 편집 모델을 대상으로 조사한 결과, 전반적으로 낮은 성능을 확인하였으며, 현재 가장 높은 성능을 보이는 업계 선두 모델조차 17.1%(mIoU)의 점수를 기록하는 데 그쳤습니다. 작업 분해(Task decomposition)를 통해 특히 도전적인 작업 유형(기하학적 변환, 대부분의 구조적 조작, 공식 기반 색상 변경)과 모델별 특화 영역을 밝혀냈습니다. 세밀한 벤치마크 진단은 객체 수, 배경 복잡도, 색상 체계 및 편집 영역 크기의 장면 변화로 인해 발생하는 성능 저하를 추가로 보여줍니다. PaintBench 점수의 실제 작업 성능에 대한 일반화 능력을 테스트하기 위해, 우리는 데이터 시각화 편집을 위한 절차적이고 결정론적인 평가 방식인 TinyGrafixBench를 구축하였으며, PaintBench 점수와 강력한 선형 상관관계($R^2 = 0.91$, $p < 0.001$)가 있음을 발견했습니다. 종합적으로, PaintBench는 정밀한 멀티모달 시각적 편집의 발전을 측정하고 추진하기 위한 엄격한 토대를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PaintBench: 정밀한 시각적 편집의 결정론적 평가

요약

핵심 포인트

댓글