본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 10:47

CV-Arena: 인간-AI 협업 선호도를 활용한 지시 기반 컴퓨터 비전 문제 해결을 위한 오픈 벤치마크

요약

지시 기반 컴퓨터 비전 문제 해결 능력을 평가하기 위한 오픈 벤치마크 CV-Arena를 제안합니다. 인간과 AI의 협업을 통해 고품질 선호도를 측정하는 Active Elo 프로토콜과 에이전트 모델 CV-Agent를 함께 소개합니다.

핵심 포인트

  • 16가지 작업 유형과 12K개의 고해상도 데이터셋 포함
  • 인간-AI 협업 기반의 Active Elo 평가 방식 제안
  • VLM 평가자인 CV-Judge를 활용한 효율적 벤치마크 구축
  • 계획·편집·검증을 결합한 CV-Agent 모델 개발

지시 기반 이미지 편집 (Instruction-guided image editing)은 시각적 작업을 위한 범용 인터페이스가 되어가고 있지만, 기존의 벤치마크들은 여전히 좁은 범위의 외형 편집 (appearance edits)에 주로 집중하고 있으며 전문적인 워크플로우에서의 실제 이미지 작업의 다양성을 충분히 포착하지 못하고 있습니다. 본 논문에서 우리는 지시 기반 컴퓨터 비전 문제 해결 (instructional computer vision problem solving)을 이미지 편집의 더 넓은 공식으로 정의합니다. 즉, 실제 입력 이미지와 자연어 지시 (natural-language instruction)가 주어졌을 때, 시스템은 명시적인 보존 (preservation), 기하학적 (geometric), 물리적 (physical) 및 사용성 제약 조건 (usability constraints)을 만족하면서 요청된 변환을 실현하는 편집된 출력을 생성해야 합니다. 우리는 이러한 능력을 전문적인 규모에서 평가하기 위해 설계된 오픈 벤치마크인 CV-Arena를 소개합니다. CV-Arena는 16가지 지시 기반 시각적 작업 유형에 걸쳐 12K개의 고해상도 실제 이미지 지시 쌍을 포함하고 있으며, 이는 타겟팅된 웹 검색, 에이전트 기반 쿼리 정제 (agentic query refinement), 검증 및 추적성을 결합한 이중 트랙 검색 및 큐레이션 파이프라인인 CogRetriever를 사용하여 구축되었습니다. 인간의 충실도 (human fidelity)를 유지하면서 대규모로 모델을 평가하기 위해, 우리는 Active Elo를 제안합니다. 이는 논리 게이트 방식의 다차원 VLM 평가자인 CV-Judge를 활용하여 명백한 실패를 거부하고 신뢰도가 높은 비교를 해결하며, 근소한 차이의 고품질 비교는 전문가 평가자에게 전달하는 인간-AI 협업 선호도 프로토콜 (human-AI collaborative preference protocol)입니다. 이후 인간과 AI의 혼합 감독은 신뢰도 가중 Elo 업데이트 (reliability-weighted Elo updates)를 통해 집계됩니다. 독점 모델, 오픈 소스 모델 및 에이전트 모델을 포함한 21개 시스템에 대해 CV-Arena에서 수행한 종합적인 평가 결과, 지시 준수 (instruction adherence), 물리적 추론 (physical reasoning), 구조적 제어 (structural control) 및 미세한 세부 사항 보존 (fine-grained detail preservation) 측면에서 지속적인 격차가 있음이 드러났습니다. 나아가 우리는 계획 (planning), 편집 (editing) 및 검증 (verification)을 결합한 경량 에이전트 모델인 CV-Agent를 개발하였으며, 폐쇄 루프 추론 (closed-loop reasoning)이 전문 등급의 지시 준수 시각적 편집을 위한 유망한 방향임을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0