AI 에이전트의 종합적 평가 및 실패 진단
요약
본 논문은 복잡한 다단계 프로세스를 수행하는 AI 에이전트의 현재 미흡한 평가 방식을 개선하기 위한 종합적인 프레임워크를 제시합니다. 이 프레임워크는 하향식(top-down) 에이전트 수준 진단과 상향식(bottom-up) 구간 수준(span-level) 평가를 결합하여, 분석을 독립적인 구간별 평가로 분해하고 각 판정에 대한 근거를 생성할 수 있습니다. TRAIL 벤치마크에서 이 프레임워크는 GAIA와 SWE-Bench 모두에서 기존 최고 성능의 베이스라인 대비 여러 지표에서 높은 개선율을 입증했습니다.
핵심 포인트
- AI 에이전트 평가의 한계: 기존 방식은 결과(outcome)만 보고하거나, 프로세스 추적 내 실패 위치를 정확히 연결하는 데 어려움이 있다.
- 제안된 프레임워크는 하향식 진단과 상향식 구간 수준 평가를 결합하여 종합적인 에이전트 평가를 가능하게 한다.
- 분해 방식 덕분에 임의 길이의 추적(traces)에 확장 가능하며, 각 판정에 대한 근거(rationales)를 생성할 수 있다.
- TRAIL 벤치마크에서 GAIA 및 SWE-Bench 모두에서 기존 최고 성능 대비 높은 개선율을 달성하여 방법론의 우수성을 입증했다.
AI 에이전트(AI agents)는 복잡한 다단계 프로세스를 실행하지만, 현재의 평가 방식은 미흡합니다. 결과 중심의 지표(outcome metrics)는 성공 또는 실패만을 보고할 뿐 그 이유를 설명하지 못하며, 프로세스 수준의 접근 방식(process-level approaches)은 실패 유형을 길고 구조화된 추적(traces) 내의 정확한 위치와 연결하는 데 어려움을 겪습니다. 본 논문에서는 하향식(top-down) 에이전트 수준 진단과 상향식(bottom-up) 구간 수준(span-level) 평가를 결합하여, 분석을 독립적인 구간별 평가로 분해하는 종합적인 에이전트 평가 프레임워크를 제시합니다. 이러한 분해 방식은 임의의 길이를 가진 추적(traces)으로 확장 가능하며, 각 판정에 대한 구간 수준의 근거(span-level rationales)를 생성합니다. TRAIL 벤치마크에서 우리의 프레임워크는 GAIA와 SWE-Bench 모두에서 모든 지표에 걸쳐 최첨단(state-of-the-art) 결과를 달성하였으며, 가장 강력한 기존 베이스라인(baselines) 대비 카테고리 F1에서 최대 38%, 위치 식별 정확도(localization accuracy)에서 최대 3.5배, 그리고 위치 식별-범주화 결합 정확도(joint localization-categorization accuracy)에서 최대 12.5배의 상대적 이득을 얻었습니다. 카테고리별 분석에 따르면, 우리의 프레임워크는 다른 어떤 평가기보다 더 많은 오류 카테고리에서 우위를 점하고 있음을 보여줍니다. 특히, 동일한 프런티어 모델(frontier model)이라 할지라도 전체 추적(full trace)에 대해 단일한 판사(monolithic judge)로 사용될 때보다 우리의 프레임워크 내부에서 사용될 때 위치 식별 정확도가 몇 배 더 높게 나타났으며, 이는 병목 현상이 모델의 역량이 아니라 평가 방법론에 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기