arXiv논문2026. 05. 20. 10:59

OpenComputer: 컴퓨터 사용 에이전트를 위한 검증 가능한 소프트웨어 환경

요약

OpenComputer는 컴퓨터 사용 에이전트의 성능을 정확하게 측정하기 위해 검증기 기반(verifier-grounded)의 소프트웨어 환경을 제안합니다. 이 프레임워크는 앱 특화 검증기, 자기 진화형 검증 레이어, 작업 생성 파이프라인, 평가 하네스라는 네 가지 핵심 구성 요소를 통해 에이전트의 실행 결과를 정밀하게 검증합니다. 실험 결과, 하드코딩된 검증기가 기존의 LLM-as-judge 방식보다 인간의 판단과 더 높은 일치도를 보임을 확인했습니다.

핵심 포인트

검증기 기반 프레임워크를 통해 컴퓨터 사용 에이전트의 실행 상태를 정밀하게 검증 가능
브라우저, 오피스, 개발 환경 등 33개의 애플리케이션과 1,000개의 작업을 포함하는 환경 구축
하드코딩된 검증기가 LLM 기반 평가보다 인간의 판정과 더 유사한 신뢰도를 보임
최첨단 에이전트와 오픈 소스 모델 간의 컴퓨터 자동화 완수 능력 격차 확인

우리는 컴퓨터 사용 에이전트 (computer-use agents)를 위한 검증 가능한 소프트웨어 환경을 구축하기 위해 검증기 기반 (verifier-grounded) 프레임워크인 OpenComputer를 제시합니다. OpenComputer는 네 가지 구성 요소를 통합합니다: (1) 실제 애플리케이션에 대해 구조화된 검사 엔드포인트 (inspection endpoints)를 노출하는 앱 특화 상태 검증기 (app-specific state verifiers), (2) 실행 기반 피드백 (execution-grounded feedback)을 사용하여 검증기 신뢰도를 향상시키는 자기 진화형 검증 레이어 (self-evolving verification layer), (3) 현실적이고 기계 검증이 가능한 데스크톱 작업을 합성하는 작업 생성 파이프라인 (task-generation pipeline), (4) 전체 궤적 (trajectories)을 기록하고 감사 가능한 부분 점수 보상 (auditable partial-credit rewards)을 계산하는 평가 하네스 (evaluation harness)입니다. 현재 형태의 OpenComputer는 브라우저, 오피스 도구, 크리에이티브 소프트웨어, 개발 환경, 파일 관리자 및 통신 애플리케이션을 아우르는 33개의 데스크톱 애플리케이션과 1,000개의 확정된 작업을 다룹니다. 실험 결과, OpenComputer의 하드코딩된 검증기 (hard-coded verifiers)는 특히 성공 여부가 미세한 애플리케이션 상태에 달려 있을 때, LLM-as-judge 평가보다 인간의 판정 (human adjudication)과 더 밀접하게 일치함을 보여줍니다. 최첨단 에이전트 (Frontier agents)들은 부분적인 진전에도 불구하고 엔드 투 엔드 (end-to-end) 완수에 어려움을 겪으며, 오픈 소스 모델들은 OSWorld-Verified 점수에서 급격한 하락을 보이며 견고한 컴퓨터 자동화 분야의 지속적인 격차를 드러냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

OpenComputer: 컴퓨터 사용 에이전트를 위한 검증 가능한 소프트웨어 환경

요약

핵심 포인트

댓글