PACE: 에이전트 역량 평가를 위한 프록시 (Proxy)

SWE-Bench 및 GAIA와 같은 벤치마크에서 LLM 에이전트(LLM agents)를 평가하는 것은 비용이 많이 들고 시간이 오래 걸리며 복잡한 인프라를 필요로 합니다. 단 한 번의 평가에 수천 달러의 비용이 들 수 있으며 완료하는 데 며칠이 걸리기도 합니다. 이와 대조적으로, 개별 능력(예: 추론 (reasoning), 코드 생성 (code generation))을 테스트하는 비에이전트(non-agentic) LLM 벤치마크는 실행 속도가 빠르고 비용이 저렴합니다. 본 논문에서는 정교하게 선택된 소수의 원자적 평가 인스턴스(atomic evaluation instances) 집합에서의 성능을 통해, 비용이 많이 드는 에이전트 벤치마크의 성능을 정확하게 예측할 수 있는지 조사합니다. 우리는 에이전트 벤치마크에서의 모델 성능을 가장 신뢰성 있게 예측하는 집합적 점수를 가진 기존 비에이전트 평가 항목들을 선택함으로써 프록시 벤치마크를 구축하는 프레임워크인 PACE를 소개합니다. 원자적 능력(atomic capabilities)을 아우르는 후보 인스턴스 풀이 주어지면, PACE는 소스 인스턴스의 압축된 서브셋에 대한 모델의 점수를 타겟 에이전트 벤치마크의 점수로 매핑하는 회귀(regression)를 수행합니다. 이 서브셋 자체는 상호 보완적인 두 가지 인스턴스 선택 전략인 타겟 관련 로컬 선택(target-relevance local selection)과 전역 정보 제공 글로벌 선택(globally informative global selection)을 결합하여 큐레이션됩니다. 우리는 본 논문에서 4개의 타겟 에이전트 벤치마크에 PACE를 적용하였으며, 이를 통해 본 논문에서 평가하는 구체적인 프록시 벤치마크인 PACE-Bench를 도출했습니다. 14개의 모델, 4개의 에이전트 벤치마크, 19개의 비에이전트 벤치마크에 걸친 실험 결과, PACE-Bench는 전체 에이전트 평가 비용의 1% 미만으로 leave-one-out 교차 검증 (LOOCV) 평균 절대 오차 (MAE) 4% 미만, Spearman 상관계수 0.80 이상, 그리고 모델 쌍 순위 정확도(pairwise model-ranking accuracy) 약 85%를 기록하며 에이전트 점수를 예측함을 보여주었습니다. 우리는 또한 선택된 프록시 인스턴스들을 추가로 분석하여, 각 에이전트 벤치마크가 고유하게 요구하는 기술이 무엇인지 밝혀냈습니다. PACE를 통해 실무자들은 전체 에이전트 평가의 오버헤드 없이도 모델 개발, 선택 및 라우팅 과정에서 에이전트 성능에 대한 신뢰할 수 있는 추정치를 얻을 수 있습니다.

Insights

PACE: 에이전트 역량 평가를 위한 프록시 (Proxy)

요약

핵심 포인트

댓글

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴