arXiv논문2026. 06. 30. 10:23

대규모 버그 수정 벤치마킹을 위한 LLM 기반의 Diff 방식 코드 손상 기법

요약

LLM의 버그 수정 능력을 정밀하게 평가하기 위해 개발된 대규모 벤치마크 MegaBugFix를 소개합니다. LLM을 활용해 Diff 방식으로 12,629개의 Python 버그 프로그램을 합성하여 기존 벤치마크의 한계를 극복했습니다.

핵심 포인트

실제 버그 수정 관행을 반영한 대규모 Python 벤치마크 MegaBugFix 제안
LLM 기반 Diff 방식을 통해 정교한 버그 주입 및 데이터 합성 수행
13개 open-weight 모델 평가 결과, 기존 벤치마크보다 높은 난이도 확인
기존 벤치마크에서 발견되지 않던 모델의 성능 한계를 드러냄

Large Language Models (LLM)의 버그 수정 (bugfixing) 능력을 평가하기 위한 다양한 벤치마크가 존재합니다. 그러나 가장 널리 쓰이는 벤치마크들은 실제 세계의 버그 수정 관행을 충분히 반영하지 못하고 있습니다. 이들은 규모가 작아 통계적 신뢰성을 약화시키며, 버그가 있는 프로그램들이 서로 유사한 경우가 많아 평가 결과가 왜곡될 가능성이 있습니다. 또한 버그 유형의 범위가 좁아 대표적인 버그 범위를 포착하지 못할 수도 있습니다. 이러한 문제를 해결하기 위해, 우리는 Large Language Model을 사용하여 올바른 프로그램으로부터 합성된 12,629개의 버그가 있는 Python 프로그램들을 포함하는 대규모 버그 수정 벤치마크인 MegaBugFix를 소개합니다. 버그 주입 (Bug injections)은 코드 변경을 나타내는 diff 형태로 생성되었습니다. 이러한 접근 방식을 통해, 우리는 지나치게 단순한 버그를 주입하거나 입력 프로그램을 수정하지 못하는 것과 같은 LLM 기반 변이 (mutation) 기술의 일반적인 함정들을 피할 수 있었습니다. 우리는 13개의 open-weight 모델을 MegaBugFix 및 베이스라인 벤치마크에서 평가하였으며, MegaBugFix에서 일관되게 더 낮은 성능을 보임을 확인했습니다. 이는 우리의 벤치마크가 더 도전적인 버그를 제시하며, 기존 벤치마크로 평가할 때는 숨겨져 있을 수 있는 모델의 실패를 드러낸다는 것을 보여줍니다. 벤치마크와 버그 주입에 사용된 미세 조정 (fine-tuned) 모델은 hf.co/collections/szalontaib/megabugfix 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 버그 수정 벤치마킹을 위한 LLM 기반의 Diff 방식 코드 손상 기법

요약

핵심 포인트

댓글