MyPCBench: 개인화된 지능형 컴퓨터 사용 에이전트를 위한 벤치마크
요약
개인화된 컴퓨터 사용 에이전트를 평가하기 위한 새로운 벤치마크인 MyPCBench를 소개합니다. 실제 사용자의 컨텍스트와 로그인 환경을 반영한 Linux 데스크톱 환경에서 모델의 성능을 측정하며, Claude Opus 4.6이 가장 높은 성능을 기록했습니다.
핵심 포인트
- 개인화된 컨텍스트와 로그인 환경을 반영한 벤치마크 제안
- 17개의 시뮬레이션 웹 앱과 Linux 데스크톱 환경 구축
- Claude Opus 4.6이 55.4%의 작업 성공률로 가장 우수한 성능 기록
- 다중 애플리케이션 활용 및 긴 작업 궤적에서의 모델 한계 확인
현재의 컴퓨터 사용 에이전트 (computer-use agents)를 위한 벤치마크들은 비개인적인 환경에서 모델을 평가합니다. 이는 평가와 실제 배포 사이의 간극을 남기는데, 실제 개인 비서 (personal assistants)는 사용자의 컨텍스트 (context), 과거 데이터, 그리고 로그인된 계정을 포함하여 사용자의 전체 디지털 생활 전반에 걸쳐 작동할 것으로 기대되기 때문입니다. 이러한 간극은 웹 작업 (web tasks)에서 가장 크게 나타나는데, 실시간 웹 평가에서는 실제 개인 비서가 다루어야 하는 유형인 로그인이나 개인 정보가 필요한 사이트들을 실행할 수 없기 때문입니다. 우리는 17개의 시뮬레이션된 실세계 웹 애플리케이션 (web applications)과 전체 데스크톱 스택 (desktop stack)이 구축된 Linux 데스크톱 환경에서 개인 비서로서의 컴퓨터 사용 에이전트를 테스트하는 MyPCBench를 소개합니다. 이 환경은 모두 'The Office'의 등장인물인 Michael Scott이라는 하나의 정형화된 페르소나 (persona)를 기반으로 설정되었습니다. 우리는 이 환경에서 184개의 작업을 정의하였으며, 각 작업은 OpenClaw 커뮤니티에서 추출한 실제 요청에서 영감을 얻었습니다. 또한 균일한 computer+bash 도구 인터페이스를 사용하여 6개의 폐쇄형 (closed) 및 오픈 웨이트 (open-weight) 모델을 벤치마킹했습니다. 연구 결과, 가장 우수한 모델인 Claude Opus 4.6이 작업의 55.4%를 완전히 해결하였으며, 이는 50%를 넘긴 유일한 모델이었습니다. 모델의 실패는 여러 애플리케이션에 걸쳐 있는 작업과 긴 궤적 (trajectories)을 가진 작업에 집중되었는데, 이러한 지점은 개인화 (personalization)가 비서에게 가장 큰 스트레스를 주는 부분입니다. 우리는 환경, 작업 세트, 그리고 에이전트 하네스 (agent harness)를 https://mypcbench.com 에서 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기