Agentic CLEAR: LLM 에이전트의 다단계 평가 자동화
요약
Agentic CLEAR는 LLM 에이전트의 행동을 시스템, 트레이스, 노드 단위로 자동 평가하는 동적 프레임워크입니다. 기존의 정적이고 수동적인 평가 방식의 한계를 극복하여 고품질의 데이터 기반 피드백을 제공합니다.
핵심 포인트
- 시스템, 트레이스, 노드 3단계 세분화 평가 지원
- 관찰 가능성 계층 상단에서 원활한 통합 가능
- 인간의 오류 주석과 높은 정렬 및 성공률 예측력 입증
- 직관적인 UI를 통한 에이전트 평가 자동화
에이전트 시스템(Agentic systems)은 더욱 유능해지고 있습니다. 에이전트는 전략을 정의하고, 행동을 취하며, 다양한 환경과 상호작용합니다. 이러한 자율성은 에이전트의 행동을 감독하고 평가하는 데 심각한 과제를 제기합니다. 현재 대부분의 도구는 관찰 가능성(Observability)에 집중하여 기본적인 평가 기능만을 갖추고 있거나, 새로운 도메인에 적응할 수 없는 정적이고 수동으로 제작된 오류 분류 체계(Error taxonomies)를 강요하는 등 한계가 있습니다. 이러한 격차를 해소하기 위해, 우리는 자동화되고 동적이며 사용하기 쉬운 평가 프레임워크인 Agentic CLEAR를 제시합니다. 이 프레임워크는 시스템(System), 트레이스(Trace), 노드(Node)라는 세 가지 세분화 수준에서 에이전트 행동에 대한 텍스트 통찰력을 생성합니다. Agentic CLEAR는 관찰 가능성 계층(Observability layer) 상단에서 작동하여 원활한 통합을 가능하게 하며, 에이전트 평가를 매우 쉽게 만들어 주는 직관적인 UI를 특징으로 합니다. 4개의 벤치마크, 7개의 에이전트 설정, 그리고 수만 번의 LLM 호출을 통한 실험에서, 우리는 Agentic CLEAR가 고품질의 데이터 기반 통찰력 있는 피드백을 생성함을 보여줍니다. 우리의 분석은 인간이 주석을 단 오류(Human-annotated errors)와 강력한 정렬(Alignment)을 보이며, 작업 성공률(Task success rate)을 예측하는 능력을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기