arXiv논문2026. 06. 09. 12:00

통과율을 넘어: 오픈 소스 코드 LLM에 대한 다국어 및 실행 기반 평가

요약

본 연구는 12개 언어와 2,707개의 LeetCode 문제를 활용해 9개 오픈 소스 코드 LLM을 실행 기반으로 평가했습니다. 기존의 단순 통과율 지표가 놓치는 언어별, 문제 유형별 성능 차이와 실패 원인을 심층 분석했습니다.

핵심 포인트

오픈 소스 모델의 평균 정확도는 23.64%로 인간 기준(57.2%)에 미달함
Yi-Coder-9B-Chat이 평균 정확도에서 가장 우수한 성능을 기록함
Qwen2.5-Coder-14B-Instruct는 어려운 문제 해결 능력이 뛰어남
Gemma-2-27B-IT는 모든 언어에서 가장 높은 린트 통과율을 보임
실패 사례의 63.25%가 의미론적 오류 전 단계인 컴파일 오류임

코드 생성 모델(Code generation models)은 일반적으로 압축된 실행 벤치마크(execution benchmarks)와 총합 통과율(aggregate pass rates)을 사용하여 비교되지만, 이러한 요약 방식은 프로그래밍 언어, 문제 유형 및 실패 모드(failure modes)에 따라 성능이 어떻게 달라지는지를 가립니다. 본 연구에서는 12개의 프로그래밍 언어에 걸친 2,707개의 자유 LeetCode 문제를 대상으로, 코딩에 특화된 9개의 공개 접근 가능한 LLM(Large Language Models)에 대한 대규모 실행 기반 평가를 제시합니다. 우리의 코퍼스(corpus)는 325,343개의 문제-모델-언어 작업(jobs)을 포함하며, 각 작업은 프롬프트 메타데이터, 추출된 코드, LeetCode 실행 결과 및 정적 분석(static-analysis) 신호와 연결되어 있습니다. 결과에 따르면 현재의 오픈 모델들은 인간 수용 기준(human acceptance reference)에 여전히 미치지 못하는 것으로 나타났습니다. 가장 우수한 모델인 Yi-Coder-9B-Chat은 평균 정확도(mean correctness) 23.64%를 기록했으며, 이는 57.2%인 인간 수용 기준선(human acceptance baseline)과 대조됩니다. 순위 또한 슬라이스(slice, 세부 분류)에 따라 달라집니다. Qwen2.5-Coder-14B-Instruct는 어려운 문제와 차별화된 문제 커버리지(distinct-problem coverage)에서 가장 강력한 성능을 보인 반면, Gemma-2-27B-IT는 모든 언어에서 가장 높은 린트 통과율(lint pass rate)을 달성했습니다. 실패 분석 결과, 수용되지 않은 최선의 제출물 중 컴파일 오류(compile errors)가 63.25%를 차지했으며, 이는 많은 실패가 의미론적 정확성(semantic correctness)을 테스트하기 전에 발생함을 나타냅니다. 정적 품질(Static quality)은 기능적 정확성(functional correctness)과 더욱 차이를 보입니다. 종합적으로, 이러한 발견은 다국어 및 결과물 보존형 평가(artifact-preserving evaluation)가 단일 언어 또는 단일 지표 리더보드(leaderboards)에 의해 숨겨진 트레이드오프(tradeoffs)를 드러낸다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

통과율을 넘어: 오픈 소스 코드 LLM에 대한 다국어 및 실행 기반 평가

요약

핵심 포인트

댓글