arXiv논문2026. 06. 23. 13:22

GroundEval: 상태 기반 에이전트 평가에서 LLM-as-Judge를 대체하는 결정론적 방법론

요약

GroundEval은 LLM-as-Judge 방식의 한계를 극복하기 위해 에이전트의 행동 궤적을 결정론적으로 검증하는 새로운 평가 프레임워크를 제안합니다. 에이전트가 올바른 근거를 사용했는지 침묵, 관점, 반사실의 세 가지 트랙을 통해 정밀하게 진단합니다.

핵심 포인트

LLM 심사위원의 그럴듯한 점수와 실제 에이전트 동작 간의 격차 발견
결정론적 테스트를 통한 근거 기반(grounded) 에이전트 평가 방식 도입
침묵, 관점, 반사실 트랙을 통한 세 가지 주요 실패 사례 탐지
도구 활동과 서사를 결합하여 검사 가능한 진단 데이터 제공

에이전트가 실제 컨텍스트(context) 상에서 작동하도록 허용하기 전에, 에이전트가 올바른 근거를 사용했음을 증명할 수 있습니까? GroundEval은 그 질문을 에이전트가 무엇을 검색하고, 가져오고, 인용했으며, 무엇에 접근할 수 있었는지에 대한 결정론적(deterministic) 테스트로 전환합니다. 한 사례 연구에서, 두 개의 최첨단 LLM 심사위원(judges)은 그럴듯한 에이전트 응답에 0.85 이상의 점수를 부여했습니다. 하지만 추적 데이터(trace)는 다른 이야기를 보여주었습니다. 에이전트는 정답의 근거가 되는 결과물(artifact)을 전혀 검색하지 않았으며, 이에 따라 GroundEval 점수는 0.000을 기록했습니다. 우리는 근거에 기반하고(grounded), 시간 제한이 있으며(time-bounded), 접근 제어(access-controlled)가 적용된 증거를 바탕으로 에이전트를 평가하는 심사위원 없는(judge-free) 프레임워크인 GroundEval을 소개합니다. GroundEval은 도메인 설정을 사용하여 질문을 생성하고, 에이전트가 답변 방식을 선택하게 한 다음, 최종 답변과 이를 생성한 기록된 궤적(trajectory)을 모두 점수화합니다. 이 벤치마크는 LLM-as-judge 평가 방식이 탐지하기 어려워하는 세 가지 실패 사례를 목표로 합니다: 에이전트가 부재를 주장하기 전에 확인 절차를 거쳤는지, 관련 시점에 행위자(actor)에게 가용한 증거로부터만 추론했는지, 그리고 그럴듯한 메커니즘이 아닌 올바른 인과 메커니즘(causal mechanism)을 사용했는지 여부입니다. 이는 침묵(Silence), 관점(Perspective), 반사실(Counterfactual)이라는 세 가지 트랙에 대응합니다. GroundEval은 그럴듯한 답변이 유효하지 않은 증거 경로에 기반할 때 이를 드러내며, 도구 활동(tool activity)과 에이전트의 턴 단위 서사(turn-level narration)를 결합한 구조화된 질문별 진단(diagnostics)을 생성하여, 각 점수가 단순히 보고되는 것이 아니라 검사 가능한(inspectable) 형태로 제공합니다. 우리의 사례 연구를 통해 밝혀진 것은 이러한 격차가 드문 예외 사례가 아니라는 점입니다. 이는 최종 답변 및 심사위원 기반 점수 산정 방식이 결코 포착할 수 없도록 설계되었던 바로 그 사각지대입니다.

AI 자동 생성 콘텐츠

원문 바로가기

GroundEval: 상태 기반 에이전트 평가에서 LLM-as-Judge를 대체하는 결정론적 방법론

요약

핵심 포인트

댓글