PACE: 에이전트 역량 평가를 위한 프록시 (Proxy)
요약
LLM 에이전트 평가의 높은 비용과 복잡성을 해결하기 위해 프록시 벤치마크 프레임워크인 PACE를 제안합니다. 소수의 비에이전트 평가 항목만으로도 타겟 에이전트 벤치마크의 성능을 저렴하고 정확하게 예측할 수 있음을 입증했습니다.
핵심 포인트
- 에이전트 평가 비용을 1% 미만으로 절감 가능
- Spearman 상관계수 0.80 이상의 높은 예측 정확도
- 로컬 및 글로벌 선택 전략을 결합한 인스턴스 큐레이션
- 모델 개발 및 라우팅 과정에서 신뢰할 수 있는 성능 추정 제공
SWE-Bench 및 GAIA와 같은 벤치마크에서 LLM 에이전트(LLM agents)를 평가하는 것은 비용이 많이 들고 시간이 오래 걸리며 복잡한 인프라를 필요로 합니다. 단 한 번의 평가에 수천 달러의 비용이 들 수 있으며 완료하는 데 며칠이 걸리기도 합니다. 이와 대조적으로, 개별 능력(예: 추론 (reasoning), 코드 생성 (code generation))을 테스트하는 비에이전트(non-agentic) LLM 벤치마크는 실행 속도가 빠르고 비용이 저렴합니다. 본 논문에서는 정교하게 선택된 소수의 원자적 평가 인스턴스(atomic evaluation instances) 집합에서의 성능을 통해, 비용이 많이 드는 에이전트 벤치마크의 성능을 정확하게 예측할 수 있는지 조사합니다. 우리는 에이전트 벤치마크에서의 모델 성능을 가장 신뢰성 있게 예측하는 집합적 점수를 가진 기존 비에이전트 평가 항목들을 선택함으로써 프록시 벤치마크를 구축하는 프레임워크인 PACE를 소개합니다. 원자적 능력(atomic capabilities)을 아우르는 후보 인스턴스 풀이 주어지면, PACE는 소스 인스턴스의 압축된 서브셋에 대한 모델의 점수를 타겟 에이전트 벤치마크의 점수로 매핑하는 회귀(regression)를 수행합니다. 이 서브셋 자체는 상호 보완적인 두 가지 인스턴스 선택 전략인 타겟 관련 로컬 선택(target-relevance local selection)과 전역 정보 제공 글로벌 선택(globally informative global selection)을 결합하여 큐레이션됩니다. 우리는 본 논문에서 4개의 타겟 에이전트 벤치마크에 PACE를 적용하였으며, 이를 통해 본 논문에서 평가하는 구체적인 프록시 벤치마크인 PACE-Bench를 도출했습니다. 14개의 모델, 4개의 에이전트 벤치마크, 19개의 비에이전트 벤치마크에 걸친 실험 결과, PACE-Bench는 전체 에이전트 평가 비용의 1% 미만으로 leave-one-out 교차 검증 (LOOCV) 평균 절대 오차 (MAE) 4% 미만, Spearman 상관계수 0.80 이상, 그리고 모델 쌍 순위 정확도(pairwise model-ranking accuracy) 약 85%를 기록하며 에이전트 점수를 예측함을 보여주었습니다. 우리는 또한 선택된 프록시 인스턴스들을 추가로 분석하여, 각 에이전트 벤치마크가 고유하게 요구하는 기술이 무엇인지 밝혀냈습니다. PACE를 통해 실무자들은 전체 에이전트 평가의 오버헤드 없이도 모델 개발, 선택 및 라우팅 과정에서 에이전트 성능에 대한 신뢰할 수 있는 추정치를 얻을 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기