arXiv논문2026. 06. 23. 13:31

RigorBench: 자율형 AI 코딩 에이전트의 엔지니어링 프로세스 규율 벤치마킹

요약

AI 코딩 에이전트의 결과물뿐만 아니라 엔지니어링 프로세스의 규율을 측정하는 새로운 벤치마크 RigorBench를 소개합니다. 계획, 검증, 복구 등 5가지 핵심 요소를 통해 에이전트의 신뢰성을 정량적으로 평가합니다.

핵심 포인트

결과 중심 평가를 넘어 프로세스 규율(Engineering Discipline) 측정
계획 충실도, 검증 커버리지 등 5가지 핵심 지표 도입
구조화된 프로세스가 결과 정확성을 17% 향상시킴을 입증
RigorScore를 통한 에이전트 성능의 단일 통합 지표 제공
벤치마크 및 분석 도구 오픈 소스로 공개

Agent-Skills, Superpowers, Agent-Rigor와 같은 에이전트 기반 코딩 하네스(Agentic coding harnesses)는 실제 소프트웨어 엔지니어링 작업을 위해 기반이 되는 LLM을 증강하기 위해 점점 더 많이 배포되고 있습니다. 기존의 벤치마크들은 이러한 에이전트들을 거의 전적으로 결과의 정확성(outcome correctness), 즉 생성된 코드가 테스트를 통과하는지 또는 문제를 해결하는지에 대해서만 평가합니다. 우리는 이러한 결과 중심의 관점만으로는 불충분하다고 주장합니다. 계획(planning), 검증(verification), 또는 유연한 복구(graceful recovery) 없이 무모한 시행착오를 통해 올바른 솔루션에 도달하는 에이전트는 건전한 엔지니어링 규율(engineering discipline)을 따르는 에이전트보다 근본적으로 신뢰도가 낮기 때문입니다. 우리는 AI 코딩 에이전트의 프로세스 규율을 측정하기 위해 설계된 최초의 벤치마크인 RigorBench를 소개합니다. RigorBench는 다섯 가지 핵심 요소인 계획 충실도(Planning Fidelity), 검증 커버리지(Verification Coverage), 복구 효율성(Recovery Efficiency), 기권 품질(Abstention Quality), 그리고 원자적 전이 무결성(Atomic Transition Integrity)을 통해 이러한 하네스들을 평가합니다. 복합 지표인 RigorScore는 가중 합산(weighted sum)을 통해 이러한 차원들을 하나의 단일 지표로 통합합니다. 우리는 Plan-Then-Build, Verify-Or-Die, Doom Loop Gauntlet, Know When to Fold, Don't Break the Build의 다섯 가지 카테고리에 걸친 30개의 태스크 세트를 큐레이션하였으며, 실험 설계 유무에 따른 통제된 환경에서 주요 하네스들을 베이스라인 코딩 어시스턴트와 비교 평가합니다. 우리의 연구 결과는 구조화된 프로세스 규율이 프로세스 품질 점수를 평균 41% 향상시킬 뿐만 아니라, 다운스트림 결과 정확성(downstream outcome correctness)을 17% 높인다는 것을 보여줍니다. 이는 에이전트가 '무엇을' 만들어내는지만큼 '어떻게' 코딩하는지가 중요하다는 것을 보여주는 최초의 정량적 증거를 제공합니다. 우리는 전체 벤치마크, 채점 루브릭(scoring rubrics), 그리고 궤적 분석(trajectory analysis) 도구를 오픈 소스 아티팩트로 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RigorBench: 자율형 AI 코딩 에이전트의 엔지니어링 프로세스 규율 벤치마킹

요약

핵심 포인트

댓글