TUA-Bench: 범용 터미널 사용 에이전트를 위한 벤치마크
요약
터미널 기반 범용 컴퓨터 사용 에이전트(TUA)를 평가하기 위한 새로운 벤치마크인 TUA-Bench를 소개합니다. 일상적인 디지털 활동부터 전문적인 과학·공학 워크플로우까지 120개의 실제 작업을 포함하며, 실행 기반 점수 산정 방식을 사용합니다.
핵심 포인트
- 기존 셸 중심 벤치마크의 한계를 극복하는 범용성 제공
- 문서 편집, 이메일, 웹 검색 및 전문 과학 워크플로우 포함
- 실제 터미널 환경에서의 실행 기반 점수 산정 프로토콜 적용
- Claude Code가 전체 성능에서 65.8%를 달성하며 강력한 성능 입증
대규모 언어 모델 (LLM)과 활용 프레임워크가 계속해서 발전함에 따라, 터미널에서 작동하는 에이전트들은 코딩을 넘어 더 넓은 범위의 범용 컴퓨터 사용 (computer-use) 작업을 수행할 수 있는 능력을 점점 더 갖추고 있습니다. 그러나 기존의 벤치마크들은 범용 터미널 컴퓨터 사용 에이전트 (TUAs)를 적절하게 평가하지 못하고 있습니다. 범용 컴퓨터 사용 벤치마크는 주로 그래픽 사용자 인터페이스 (GUIs)를 대상으로 하는 반면, 터미널 기반 벤치마크는 역사적으로 셸 (shell)에 내장된 기술적이고 프로그래밍 중심적인 워크플로우를 주로 강조합니다. 우리는 터미널 사용 에이전트를 위한 범용 벤치마크인 TUA-Bench를 소개합니다. TUA-Bench는 5개의 작업군에 걸쳐 120개의 실제 세계 작업을 포함하며, 문서 편집, 이메일 관리, 실시간 웹 정보 검색을 포함한 일상적인 디지털 활동뿐만 아니라 전문 소프트웨어를 필요로 하는 박사급 도메인 전문가들과 공동 설계한 과학 및 공학 워크플로우를 다룹니다. 이러한 폭넓은 범위는 TUA-Bench를 기존의 셸 중심 또는 특정 도메인 중심 벤치마크와 차별화합니다. 각 작업은 수동으로 설계되었으며, 결정론적인 설정 스크립트와 함께 실제 터미널에서 실행되고, 실행 기반 점수 산정 프로토콜 (execution-based scoring protocol)에 의해 평가됩니다. 우리는 가장 강력한 최첨단 에이전트인 Claude Opus 4.8의 최대 추론 노력을 사용하는 Claude Code가 65.8%의 전체 성능을 달성했으며, 두 트랙 모두에서 상당한 격차가 있음을 발견했습니다. 터미널 사용 능력에 대한 광범위하고 현실적인 평가를 제공함으로써, TUA-Bench는 좁고 특정 작업에 국한된 어시스턴트에서 다양한 디지털 환경에서 안정적으로 작동할 수 있는 범용 에이전트로의 전환을 가속화하는 것을 목표로 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기