ClassEval-Pro: 클래스 레벨 코드 생성을 위한 크로스 도메인 벤치마크
요약
ClassEval-Pro는 명세로부터 완전하고 구조화된 클래스를 생성하는 '구성적 코드 생성' 능력을 평가하기 위해 개발된 새로운 크로스 도메인 벤치마크입니다. 이 벤치마크는 2025년 1월 이후의 실제 GitHub 코드를 활용하여 11개 도메인에 걸쳐 300개의 클래스 레벨 작업을 포함합니다. 연구 결과, 최첨단 LLM조차도 클래스 레벨 Pass@1에서 45.6%에 그쳤으며, 오류 분석을 통해 교차 메서드 조정(cross-method coordination)이 주요 성능 병목 현상임을 밝혀냈습니다.
핵심 포인트
- 구성적 코드 생성(Compositional Code Creation)은 함수/리포지토리 레벨 작업보다 평가가 소외되어 왔음.
- ClassEval-Pro는 11개 도메인, 300개의 클래스 레벨 작업을 포함하는 자동화된 크로스 도메인 벤치마크임.
- 최고 성능의 LLM도 클래스 레벨 Pass@1에서 45.6%에 머물러 있어 이 영역의 난이도가 높음을 입증함.
- 오류 분석 결과, 코드 생성 실패의 주요 원인은 논리 오류(56.2%)와 의존성 오류(38.0%)이며, 이는 교차 메서드 조정 능력 부족을 시사함.
LLM 은 함수 레벨 코드 합성(function-level code synthesis) 과 리포지토리 레벨 코드 수정(repository-level code modification) 에서 강력한 성과를 거두었으나, 이 두 극단 사이에 놓인 능력인 구성적 코드 생성(compositional code creation), 즉 명세로부터 완전하고 내부적으로 구조화된 클래스를 구축하는 작업은 여전히 소외되어 있습니다. 현재의 평가는 고립된 함수에 국한되거나, 확장 비용이 높고 데이터 오염(data contamination) 에 점점 더 취약해지는 수동으로 큐레이션된 클래스 레벨 작업에 의존합니다.
우리는 2025 년 1 월 이후 기여된 실제 GitHub 코드를 통합하는 자동화된 3 단계 파이프라인을 통해 구축된 11 개 도메인을 아우르는 300 개의 클래스 레벨 작업을 포함하는 벤치마크인 ClassEval-Pro 를 소개합니다. 모든 작업은 LLM Judge Ensemble 에 의해 검증되며, 90% 이상의 라인 커버리지(line coverage) 를 갖는 테스트スイート를 통과해야 합니다.
우리는 5 가지 생성 전략(strategy) 하에서 5 개의 최첨단 LLM 을 평가했습니다. 가장 좋은 모델조차 클래스 레벨 Pass@1 에서 45.6% 만 달성했을 뿐만 아니라, 가장 강한 모델과 가장 약한 모델 사이의 격차는 17.7 포인트에 달하여 벤치마크의 판별력(discriminative power) 을 확인시켜 주었습니다.
전략 선택은 모델 능력과 강하게 상호작용합니다: bottom-up 과 같은 구조화된 접근 방식(structured approaches) 은 약한 모델을 최대 9.4 퍼센트 포인트까지 개선하는 반면, 구성적 생성(compositional generation) 은 1.3% 로 무너질 정도로 낮아집니다.
500 개 수동으로 주석 처리된 실패 사례에 대한 오류 분석(error analysis) 은 논리 오류(logic errors, 56.2%) 와 의존성 오류(dependency errors, 38.0%) 가 우세함을 보여주며, 이를 통해 교차 메서드 조정(cross-method coordination) 을 핵심 병목 현상으로 규명했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기