arXiv논문2026. 05. 26. 13:38

Merge-Bench: 대규모 언어 모델(LLM)을 이용한 병합 충돌 해결

요약

버전 관리 병합 충돌 해결을 위한 새로운 데이터셋 Merge-Bench와 모델 LLMergeJ를 제안합니다. GRPO 강화학습을 통해 학습된 LLMergeJ는 Java 환경에서 상용 LLM보다 뛰어난 성능을 보였습니다.

핵심 포인트

GitHub 데이터를 활용한 확장 가능한 Merge-Bench 데이터셋 구축
GRPO 강화학습을 적용한 Java 특화 모델 LLMergeJ 개발
LLMergeJ가 특정 Java 작업에서 상용 LLM을 능가하는 성능 기록
상용 모델들도 병합 충돌 해결 정확도는 60% 미만 수준

본 논문은 버전 관리 병합(version control merging)이라는 어렵고 중요한 작업에 머신러닝(machine learning)을 적용합니다. (1) 우리는 1,439개의 GitHub 저장소에서 추출한 7,938개의 실제 병합 충돌 덩어리(merge conflict hunks)로 구성된 데이터셋인 Merge-Bench를 구축했습니다. 정답(ground truth)은 개발자들이 저장소에 커밋한 병합 해결 방식입니다. 우리의 데이터셋 구축 방법론은 수동 라벨링(manual labeling)이 필요하지 않기 때문에 임의의 데이터 양에 대해 확장 가능합니다. (2) 우리는 Java 프로그램의 병합 충돌을 해결하기 위해 LLMergeJ라는 모델을 학습시켰습니다. 우리의 접근 방식은 온라인 강화학습(reinforcement learning) 방법인 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용하여 대규모 언어 모델(Large Language Model, LLM)을 학습시킵니다. (3) 우리는 병합 충돌 해결에 대한 LLM의 성능을 두 가지 방식으로 평가했습니다. Java 프로그램에서 14B 파라미터를 가진 LLMergeJ는 3개의 상용 LLM보다 뛰어난 성능을 보였으며, Gemini 2.5 Pro에 이어서 두 번째로 높은 성능을 기록했습니다. 11개의 프로그래밍 언어 전반에 걸쳐 상용 LLM의 성능은 언어별로 대체로 안정적입니다. 가장 성능이 좋은 모델들도 병합 충돌의 60% 미만을 정확하게 해결합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Merge-Bench: 대규모 언어 모델(LLM)을 이용한 병합 충돌 해결

요약

핵심 포인트

댓글