CutVerse: 미디어 후반 작업 편집을 위한 구성적 GUI 에이전트 벤치마크
요약
CutVerse는 전문적인 미디어 후반 작업 환경에서 자율 GUI 에이전트의 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. Premiere Pro와 Photoshop 등 7개의 전문 애플리케이션을 활용하여 186개의 복잡한 과제를 제공하며, 기존 에이전트들이 실제 편집 워크플로에서 낮은 성공률을 보임을 입증했습니다.
핵심 포인트
- 미디어 후반 작업이라는 전문적인 창의적 워크플로를 위한 GUI 에이전트 평가 체계 구축
- 7개의 전문 소프트웨어와 186개의 장기적(long-horizon) 과제를 포함한 데이터셋 제공
- 화면 녹화 및 저수준 로그를 구조화된 GUI 작업 궤적으로 변환하는 경량 파서 개발
- 기존 에이전트의 미디어 편집 작업 성공률이 36.0%에 불과함을 확인하여 기술적 격차 증명
- 현재 모델들이 공간적 그라운딩은 우수하나 장기적 신뢰성과 도메인 특화 계획 능력은 부족함
GUI 에이전트(GUI agents)가 웹 탐색 및 기본적인 운영 체제(OS) 작업에서 상당한 진전을 이루었지만, 전문적인 창의적 워크플로(creative workflows)에서의 능력은 여전히 미개척 분야로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 현실적인 미디어 후반 작업(media post-production) 환경에서 자율 GUI 에이전트를 체계적으로 평가하도록 설계된 벤치마크인 CutVerse를 소개합니다. 우리는 7개의 전문 애플리케이션(예: Premiere Pro, Photoshop)에 걸쳐 전문가의 시연(demonstrations)을 큐레이션하였으며, 이는 밀집된 멀티모달 인터페이스(multimodal interfaces)와 긴밀하게 결합된 상호작용 시퀀스(interaction sequences)를 포함하며, 실제 편집 워크플로에 기반한 186개의 복잡하고 장기적인(long-horizon) 과제를 다룹니다. 확장 가능한 평가를 지원하기 위해, 우리는 원본 화면 녹화 및 저수준 상호작용 로그(low-level interaction logs)를 정밀한 그라운딩(grounding)이 포함된 구조화되고 구성적인 GUI 작업 궤적(action trajectories)으로 변환하는 경량 파서(parser)를 개발했습니다. 광범위한 평가 결과, 기존 에이전트들은 현실적인 미디어 편집 작업에서 단 36.0%의 작업 성공률을 보였으며, 이는 우리 벤치마크의 복잡하고 장기적인 미디어 후반 작업 워크플로가 제기하는 어려움을 강조합니다. 현재의 모델들은 유망한 공간적 그라운딩(spatial grounding), 멀티모달 정렬(multimodal alignment) 및 조정된 작업 실행 능력을 보여주지만, 장기적인 신뢰성(long-horizon reliability)과 도메인 특화된 계획(domain-specific planning) 측면에서는 여전히 한계가 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기