AgentAtlas: LLM 에이전트를 위한 결과 중심 리더보드를 넘어서
요약
AgentAtlas는 기존 LLM 에이전트 벤치마크의 파편화 문제를 해결하기 위해 제안된 새로운 측정 프로토콜입니다. 단순한 정확도 측정을 넘어 제어-결정 분류, 궤적 실패 분석, 프롬프트 감독 의존도 측정 등을 통해 에이전트의 실제 성능을 다각도로 평가합니다.
핵심 포인트
- 기존의 단일 정확도(accuracy) 중심 평가 방식이 실제 배포 가능한 에이전트를 평가하기에 불충분함을 지적함
- 6가지 상태의 제어-결정 분류 체계와 9개 카테고리의 궤적 실패 분류 체계를 도입함
- 프롬프트 내 감독(supervision) 유무에 따른 모델 성능 차이를 측정하는 방법론을 제시함
- 실험 결과, 명시적 레이블 제거 시 모델의 궤적 정확도가 14-40%p 급격히 하락함을 확인하여 프롬프트 의존성을 입증함
대규모 언어 모델 (LLM) 에이전트는 이제 코드베이스, 브라우저, 운영 체제 (OS), 캘린더, 파일 및 도구 생태계에서 작동하지만, 이들을 평가하는 데 사용되는 벤치마크는 파편화되어 있습니다. 각 벤치마크는 서로 다른 측정 단위(최종 작업 성공, 도구 호출 (tool-call) 유효성, 반복 패스 일관성, 궤적 안전성 또는 공격 견고성)를 강조합니다. 2024-2025년의 일련의 연구들은 단일 정확도(accuracy) 열이 더 이상 실제 배포 가능한 에이전트를 위한 적절한 비교 단위가 아니라는 진단으로 수렴하고 있습니다. AgentAtlas는 다음 네 가지 구성 요소를 통해 이러한 연구 흐름을 확장합니다: (i) 6가지 상태의 제어-결정 분류 체계 (Act / Ask / Refuse / Stop / Confirm / Recover); (ii) 두 개의 직교하는 계층적 레이블 (primary_error_source, impact)을 가진 9개 카테고리의 궤적 실패 (trajectory-failure) 분류 체계; (iii) 모델의 외견상 능력이 프롬프트 내의 감독 (supervision)으로부터 얼마나 오는지 측정하는 분류 체계 인식 (taxonomy-aware) 대 분류 체계 미인식 (taxonomy-blind) 방법론; (iv) 15개의 에이전트 벤치마크를 6개의 행동 축에 매핑하는 벤치마크 커버리지 감사 (benchmark-coverage audit). 이 방법론을 입증하기 위해, 우리는 두 가지 프롬프트 모드 하에서 소규모의 고정된 8개 모델 세트(생성된 항목 1,342개, 4개의 프론티어 폐쇄형 모델 및 4개의 오픈 웨이트 (open-weight) 모델)를 실행합니다. 명시적인 레이블 메뉴를 제거하면, 모델 계열과 관계없이 모든 모델의 궤적 정확도 (trajectory accuracy)가 14-40%p 하락하여 0.54-0.62의 좁은 하한선으로 떨어지며, 제어 정확도 (control accuracy), 궤적 진단 (trajectory diagnosis), 도구-컨텍스트 유용성 유지 (tool-context utility retention)의 세 가지 측면 모두에서 승리하는 단일 모델은 존재하지 않았습니다. 우리는 이 합성 실행을 벤치마크 출시가 아닌 측정 프로토콜의 시연으로 취급합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기