arXiv논문2026. 05. 20. 01:23

DiagEval: GUI 에이전트를 활용한 신뢰할 수 있는 소프트웨어 평가를 위한 궤적 조건부 진단

요약

DiagEval은 GUI 에이전트가 소프트웨어를 조작할 때 발생하는 실패가 소프트웨어의 결함인지 아니면 평가기의 실행 오류인지를 구분하기 위한 궤적 조건부 진단 프로토콜입니다. 실패한 실행 궤적을 재사용하여 타겟팅된 진단 프로브를 선택함으로써, 단순 재시도 방식보다 높은 정확도로 실패 원인을 분석하고 평가 성능을 개선합니다.

핵심 포인트

GUI 에이전트 평가 시 단일 실행 궤적만으로는 소프트웨어 결함과 평가기 오류를 구분하기 어렵다는 문제를 해결함
실패한 궤적을 활용해 진단 프로브를 선택하고 내부 귀인 신호를 집계하는 DiagEval 프로토콜 제안
WebDevJudge-Unit 및 RealDevBench 평가 결과, 위음성 사례의 상당 부분을 복구하여 평가 정확도를 크게 향상시킴
신뢰할 수 있는 GUI 에이전트 평가를 위해 능동적인 실패 진단(Active Failure Diagnosis)의 중요성을 강조함

LLM(Large Language Model)이 생성한 대화형 소프트웨어를 평가하려면 정적 분석 (Static Analysis) 외에도 실행이 필요합니다. 핵심적인 어려움은 정답 여부가 잠재적인 UI 상태 전이 그래프 (UI State-transition Graphs) 상의 그래프 수준 도달 가능 속성 (Graph-level Reachable Property)인 반면, GUI 평가기 (GUI Evaluator)는 단일 실행 궤적 (Execution Trajectory)만을 관찰한다는 점입니다. 따라서 실패한 롤아웃 (Rollout)은 실현된 단 하나의 경로만을 배제할 뿐이며, 실패의 원인이 평가기 측의 실행 오류인지 아니면 실제 소프트웨어 결함인지에 대한 귀인 (Attribution)을 모호하게 만듭니다.

본 논문에서는 실패 후 대화형 소프트웨어의 GUI 에이전트 평가를 위한 궤적 조건부 진단 평가 프로토콜인 DiagEval을 제시합니다. DiagEval은 처음부터 무작정 재시도하는 대신, 실패한 궤적을 재사용하여 타겟팅된 진단 프로브 (Diagnostic Probes)를 선택하고 그 결과를 내부 귀인 신호 (Internal Attribution Signal)로 집계합니다. 잠재적 그래프 관점은 진단 문제의 동기가 되지만, DiagEval은 그래프를 재구성하거나 보정된 사후 확률 (Calibrated Posterior Probabilities)을 추정하지는 않습니다.

우리는 다양한 GUI 에이전트 평가기와 LLM 백본 (Backbones)을 사용하여 WebDevJudge-Unit 및 RealDevBench에서 DiagEval을 평가했습니다. 위음성 (False-negative) 사례에서 DiagEval은 처음에 소프트웨어 결함으로 잘못 귀인되었던 실패 사례의 45.6~~62.1%를 복구해냈으며, 이는 재시도 기반 베이스라인 (Baselines) 대비 34.4~~160.6%의 상대적 이득을 보였습니다. 전체 평가 세트에서 이러한 복구는 WebDevJudge-Unit의 정확도를 69.9%에서 78.3%로, RealDevBench의 정확도를 65.0%에서 81.6%로 향상시켰습니다. 이러한 결과는 신뢰할 수 있는 GUI 에이전트 평가를 위해서는 더 강력한 실행뿐만 아니라, 평가기 측의 오류와 실제 소프트웨어 결함을 구분하기 위한 능동적인 실패 진단 (Active Failure Diagnosis)이 필요함을 시사합니다. 우리의 코드는 https://github.com/scutGit/DiagEval 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DiagEval: GUI 에이전트를 활용한 신뢰할 수 있는 소프트웨어 평가를 위한 궤적 조건부 진단

요약

핵심 포인트

댓글