arXiv논문2026. 05. 20. 11:37

CutVerse: 미디어 후반 작업 편집을 위한 구성적 GUI 에이전트 벤치마크

요약

CutVerse는 전문적인 미디어 후반 작업 환경에서 자율 GUI 에이전트의 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. Premiere Pro와 Photoshop 등 7개의 전문 애플리케이션을 활용하여 186개의 복잡한 과제를 제공하며, 기존 에이전트들이 실제 편집 워크플로에서 낮은 성공률을 보임을 입증했습니다.

핵심 포인트

미디어 후반 작업이라는 전문적인 창의적 워크플로를 위한 GUI 에이전트 평가 체계 구축
7개의 전문 소프트웨어와 186개의 장기적(long-horizon) 과제를 포함한 데이터셋 제공
화면 녹화 및 저수준 로그를 구조화된 GUI 작업 궤적으로 변환하는 경량 파서 개발
기존 에이전트의 미디어 편집 작업 성공률이 36.0%에 불과함을 확인하여 기술적 격차 증명
현재 모델들이 공간적 그라운딩은 우수하나 장기적 신뢰성과 도메인 특화 계획 능력은 부족함

GUI 에이전트(GUI agents)가 웹 탐색 및 기본적인 운영 체제(OS) 작업에서 상당한 진전을 이루었지만, 전문적인 창의적 워크플로(creative workflows)에서의 능력은 여전히 미개척 분야로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 현실적인 미디어 후반 작업(media post-production) 환경에서 자율 GUI 에이전트를 체계적으로 평가하도록 설계된 벤치마크인 CutVerse를 소개합니다. 우리는 7개의 전문 애플리케이션(예: Premiere Pro, Photoshop)에 걸쳐 전문가의 시연(demonstrations)을 큐레이션하였으며, 이는 밀집된 멀티모달 인터페이스(multimodal interfaces)와 긴밀하게 결합된 상호작용 시퀀스(interaction sequences)를 포함하며, 실제 편집 워크플로에 기반한 186개의 복잡하고 장기적인(long-horizon) 과제를 다룹니다. 확장 가능한 평가를 지원하기 위해, 우리는 원본 화면 녹화 및 저수준 상호작용 로그(low-level interaction logs)를 정밀한 그라운딩(grounding)이 포함된 구조화되고 구성적인 GUI 작업 궤적(action trajectories)으로 변환하는 경량 파서(parser)를 개발했습니다. 광범위한 평가 결과, 기존 에이전트들은 현실적인 미디어 편집 작업에서 단 36.0%의 작업 성공률을 보였으며, 이는 우리 벤치마크의 복잡하고 장기적인 미디어 후반 작업 워크플로가 제기하는 어려움을 강조합니다. 현재의 모델들은 유망한 공간적 그라운딩(spatial grounding), 멀티모달 정렬(multimodal alignment) 및 조정된 작업 실행 능력을 보여주지만, 장기적인 신뢰성(long-horizon reliability)과 도메인 특화된 계획(domain-specific planning) 측면에서는 여전히 한계가 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CutVerse: 미디어 후반 작업 편집을 위한 구성적 GUI 에이전트 벤치마크

요약

핵심 포인트

댓글