LLVM-Bench: LLVM 컴파일러 이슈 해결을 위한 대규모 언어 모델(LLM) 벤치마킹 및 발전
요약
LLVM 컴파일러 이슈 해결 능력을 평가하기 위한 최초의 벤치마크인 LLVM-Bench와 자동화 평가 플랫폼 LLVM-Gym을 제안합니다. 연구를 통해 현재 LLM의 한계를 분석하고, 앙상블 기법인 LLVM-Ens를 통해 해결률을 최대 21.99%까지 향상시켰습니다.
핵심 포인트
- LLVM 이슈 해결을 위한 대규모 벤치마크 LLVM-Bench 공개
- 이슈 재현 및 패치 적용을 자동화하는 LLVM-Gym 플랫폼 개발
- 현재 LLM의 주요 실패 원인으로 패치 무효화 및 빌드 실패 확인
- 경량 앙상블 방식인 LLVM-Ens를 통한 해결률 개선
LLVM은 널리 사용되는 컴파일러 인프라로, 그 규모와 복잡성으로 인해 이슈 해결(issue resolution)에 많은 노동력이 소요되고 어려움이 따릅니다. 최근 대규모 언어 모델(LLMs)이 이슈 해결 분야에서 놀라운 성공을 거두었음에도 불구하고, 복잡한 시스템 수준의 LLVM 컴파일러에 대한 이들의 효과는 여전히 미개척 영역으로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 LLVM 프로젝트에서 수집된 423개의 실제 검증된 태스크를 포함하는 LLVM 이슈 해결을 위한 최초의 대규모 벤치마크인 LLVM-Bench를 소개합니다. 나아가 우리는 이슈 재현(issue reproduction), 패치 적용(patch application), 컴파일러 빌드(compiler building) 및 테스트 실행을 자동화하는 확장 가능한 평가 플랫폼인 LLVM-Gym을 개발했습니다. LLVM-Bench와 LLVM-Gym을 사용하여, 우리는 4개의 대표적인 LLMs, 6개의 검색(retrieval) 구성, 그리고 3개의 에이전트(agents)에 대한 종합적인 연구를 수행했습니다. 연구 결과, 현재의 LLM 기반 이슈 해결 기술은 LLVM-Bench에서 여전히 한계가 있으며, 패치 무효화(patch invalidity)와 빌드 실패(build failures)가 주요 실패 모드로 나타났습니다. 우리는 또한 서로 다른 LLMs와 에이전트 간의 강력한 상호 보완성을 발견하였으며, 이를 바탕으로 다양한 기술에 의해 생성된 패치들을 통합하여 패치 공간을 확장하고, 잘못되거나 중복된 후보를 필터링하며, 가장 유망한 솔루션을 식별하는 경량 앙상블 접근 방식인 LLVM-Ens를 제안합니다. 연구 결과, LLVM-Ens는 최대 21.99%의 해결률을 달성하여 LLVM 이슈 해결 능력을 더욱 향상시켰습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기