arXiv논문2026. 05. 21. 11:14

ProcBench: LLM 코딩 에이전트의 프로세스 수준 결함 및 제어 보존 평가

요약

ProcBench는 LLM 코딩 에이전트의 최종 결과물뿐만 아니라 실행 과정에서 발생하는 프로세스 수준의 결함을 평가하기 위해 제안된 새로운 벤치마크 프레임워크입니다. 이 프레임워크는 실행 실패를 온톨로지로 구성하고 이질적인 로그를 표준화된 궤적 표현으로 변환하여, 위험 기반 스코어카드를 통해 에이전트의 동작을 진단합니다. 연구 결과, ProcBench는 기존 결과 중심 평가가 놓치기 쉬운 다단계 작업 중의 반복적 실패를 식별하고 진단적 차별성을 제공하는 데 효과적임을 입증했습니다.

핵심 포인트

기존 벤치마크의 한계인 최종 결과(컴파일 성공, 테스트 통과 등) 중심 평가를 넘어 실행 과정의 가시성을 확보함
실행 실패를 재사용 가능한 온톨로지로 구성하고 이질적인 로그를 통일된 궤적 표현으로 표준화함
보정된 위험 기반 스코어카드를 통해 결함 발견의 경험적 해석 가능성을 향상시킴
AndroidBench, TerminalBench, SWE-bench-Verified 등 기존 벤치마크에 적용하여 유효성을 검증함

기존의 LLM 코딩 에이전트(LLM coding agents)를 위한 벤치마크들은 주로 작업 완료(task completion), 컴파일 성공(compilation success), 테스트 통과율(test pass rates)과 같은 최종 결과물을 평가합니다. 이러한 지표들은 최종 작업 능력을 측정하는 데 유용하지만, 실행이 어떻게 전개되는지에 대한 가시성은 제한적이며, 다단계 작업(multi-step operation) 중에 발생하는 반복적인 프로세스 수준의 실패(process-level failures)를 놓치는 경우가 많습니다. 우리는 프로세스 결함(process defects)과 제어 보존(control preservation)을 통해 코딩 에이전트의 궤적(trajectories)을 평가하기 위한 벤치마크 지향적 프레임워크인 ProcBench를 제안합니다. ProcBench는 실행 실패를 재사용 가능한 온톨로지(ontology)로 구성하고, 이질적인 로그(heterogeneous logs)를 통일된 궤적 표현(trajectory representation)으로 표준화하며, 최종 결과에만 의존하는 대신 보정된 위험 기반 스코어카드(calibrated risk-based scorecards)를 보고합니다. 우리는 주석이 달린 200개의 궤적 세트에서 ProcBench를 구현하였으며, 이를 AndroidBench, TerminalBench, SWE-bench-Verified라는 세 가지 코딩 에이전트 벤치마크에 적용했습니다. 우리의 연구 결과는 ProcBench가 유용한 신뢰성을 가지고 구현될 수 있다는 점, 보정(calibration)이 직접적인 임계값 설정(direct thresholding)에 비해 결함 발견의 경험적 해석 가능성(empirical interpretability)을 향상시킨다는 점, 그리고 프로세스 인식 스코어카드(process-aware scorecards)가 기존의 결과 기반 평가를 넘어 진단적 차별성을 제공한다는 점을 시사합니다. 또한 우리는 주석 의존성(annotation dependence), 일부 결함 클래스에 대한 부분적 관측 가능성(partial observability), 그리고 더 광범위한 외부 검증의 필요성을 포함한 한계점들에 대해서도 논의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ProcBench: LLM 코딩 에이전트의 프로세스 수준 결함 및 제어 보존 평가

요약

핵심 포인트

댓글