LLVM-Bench: LLVM 컴파일러 이슈 해결을 위한 대규모 언어 모델(LLM) 벤치마킹 및 발전

LLVM은 널리 사용되는 컴파일러 인프라로, 그 규모와 복잡성으로 인해 이슈 해결(issue resolution)에 많은 노동력이 소요되고 어려움이 따릅니다. 최근 대규모 언어 모델(LLMs)이 이슈 해결 분야에서 놀라운 성공을 거두었음에도 불구하고, 복잡한 시스템 수준의 LLVM 컴파일러에 대한 이들의 효과는 여전히 미개척 영역으로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 LLVM 프로젝트에서 수집된 423개의 실제 검증된 태스크를 포함하는 LLVM 이슈 해결을 위한 최초의 대규모 벤치마크인 LLVM-Bench를 소개합니다. 나아가 우리는 이슈 재현(issue reproduction), 패치 적용(patch application), 컴파일러 빌드(compiler building) 및 테스트 실행을 자동화하는 확장 가능한 평가 플랫폼인 LLVM-Gym을 개발했습니다. LLVM-Bench와 LLVM-Gym을 사용하여, 우리는 4개의 대표적인 LLMs, 6개의 검색(retrieval) 구성, 그리고 3개의 에이전트(agents)에 대한 종합적인 연구를 수행했습니다. 연구 결과, 현재의 LLM 기반 이슈 해결 기술은 LLVM-Bench에서 여전히 한계가 있으며, 패치 무효화(patch invalidity)와 빌드 실패(build failures)가 주요 실패 모드로 나타났습니다. 우리는 또한 서로 다른 LLMs와 에이전트 간의 강력한 상호 보완성을 발견하였으며, 이를 바탕으로 다양한 기술에 의해 생성된 패치들을 통합하여 패치 공간을 확장하고, 잘못되거나 중복된 후보를 필터링하며, 가장 유망한 솔루션을 식별하는 경량 앙상블 접근 방식인 LLVM-Ens를 제안합니다. 연구 결과, LLVM-Ens는 최대 21.99%의 해결률을 달성하여 LLVM 이슈 해결 능력을 더욱 향상시켰습니다.

Insights

LLVM-Bench: LLVM 컴파일러 이슈 해결을 위한 대규모 언어 모델(LLM) 벤치마킹 및 발전

요약

핵심 포인트

댓글

SAIR 팟캐스트: 타오쩌쉬안, AI 시대의 '증명 소화불량'과 경쟁 새 패러다임

Active Energy, UAE 자산 수익 창출 시작과 함께 전략적 재편 완료

Intrusion, 사이버 보안 기업 VigilAigent 인수 추진

토큰화 (Tokenisation) 규제가 구축됨에 따라 Valereum은 상업 운영 단계로 진입

Active Energy, UAE 자산 수익 창출 시작과 함께 전략적 재편 완료

Intrusion, 사이버 보안 기업 VigilAigent 인수 추진

토큰화 (Tokenisation) 규제가 구축됨에 따라 Valereum은 상업 운영 단계로 진입