arXiv논문2026. 06. 23. 12:14

MacAgentBench: 실제 macOS 데스크톱 환경에서의 AI 에이전트 벤치마킹

요약

macOS 환경에서 AI 에이전트의 성능을 정밀하게 측정하기 위한 새로운 벤치마크인 MacAgentBench를 제안합니다. 기존의 이진 평가 방식에서 벗어나 GUI와 CLI 상호작용을 포함한 다중 애플리케이션 작업과 세밀한 다중 체크포인트 점수 산정 방식을 도입했습니다.

핵심 포인트

25개 앱, 676개 태스크로 구성된 포괄적인 macOS 에이전트 벤치마크 제시
GUI와 CLI 상호작용을 모두 포함하는 하이브리드 평가 방식 채택
결정론적 규칙 기반 및 세밀한 다중 체크포인트 점수 산정 방식 도입
Claude Opus 4.6 기반 OpenClaw 구성이 73.7%의 Pass@1 달성
모델의 하위 목표 완료 능력을 정밀하게 분석할 수 있는 지표 제공

컴퓨터 사용 에이전트 (Computer use agents, CUAs)는 데스크톱 자동화 분야에서 급격히 발전해 왔으며, 점점 더 많은 사용자가 상시 자동화를 위해 Mac Mini에서 OpenClaw와 같은 CUAs를 배포하고 있습니다. 그러나 macOS를 포함한 기존의 벤치마크들은 프레임워크 증강 (framework augmentation) 없이 에이전트를 평가하며 이진 평가 (binary evaluation)에 의존합니다. 그 결과, 현대적인 CUAs가 활용하는 프레임워크 기능과 장기적 (long-horizon) 다중 애플리케이션 작업에서의 부분적인 진전을 모두 포착하지 못합니다. 본 논문에서는 25개의 애플리케이션에 걸쳐 676개의 태스크로 구성된 포괄적인 macOS 에이전트 벤치마크인 MacAgentBench를 제시하며, 이 중 약 60%는 GUI와 CLI 상호작용을 모두 포함합니다. 이 벤치마크는 결정론적 규칙 기반 평가 (deterministic rule-based evaluation)를 채택하고, 다중 애플리케이션 작업을 위한 기능 주석 (capability annotations)이 포함된 세밀한 다중 체크포인트 점수 산정 방식을 도입합니다. 3개의 프레임워크와 16개의 모델을 대상으로 한 실험 결과, 최적의 구성인 OpenClaw 기반의 Claude Opus 4.6이 73.7%의 Pass@1을 달성했으나, 이러한 우위는 프레임워크 설계보다는 주로 스킬 라이브러리 (skill library)에 의해 주도되었습니다. 세밀한 지표를 통해 분석한 결과, 유사한 Pass@1을 가진 모델이라도 하위 목표 (sub-goal) 완료 능력에서는 상당한 차이가 있을 수 있음을 확인했습니다. 우리의 코드와 데이터는 https://github.com/JetAstra/MacAgentBench 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MacAgentBench: 실제 macOS 데스크톱 환경에서의 AI 에이전트 벤치마킹

요약

핵심 포인트

댓글