Multi-LCB: LiveCodeBench를 다중 프로그래밍 언어로 확장하기
요약
Python에 국한되었던 LiveCodeBench를 12개 프로그래밍 언어로 확장한 Multi-LCB를 소개합니다. 기존 LCB의 오염 제어 프로토콜을 유지하며, LLM의 다국어 코드 생성 능력과 언어별 성능 격차를 체계적으로 평가합니다.
핵심 포인트
- Python 외 12개 언어로 확장된 Multi-LCB 벤치마크 제안
- 기존 LCB와 호환되어 자동 업데이트 및 교차 언어 평가 가능
- 24개 LLM 평가를 통해 Python 과적합 및 언어별 오염 확인
- 다국어 코드 생성 능력에서의 모델 간 성능 격차 입증
LiveCodeBench (LCB)는 최근 코드 생성 (code-generation) 작업에서 대규모 언어 모델 (LLMs)을 평가하기 위해 널리 채택되는 벤치마크가 되었습니다. 경쟁 프로그래밍 문제를 큐레이션하고, 세트에 새로운 문제를 지속적으로 추가하며, 출시 날짜별로 필터링함으로써, LCB는 오염 인지적 평가 (contamination-aware evaluation)를 제공하고 코딩 능력에 대한 총체적인 관점을 제시합니다. 그러나 LCB는 여전히 Python에 국한되어 있어, LLM이 실제 소프트웨어 엔지니어링에서 요구되는 다양한 프로그래밍 언어 전반에 걸쳐 일반화될 수 있는지에 대한 의문을 남겨두고 있습니다. 우리는 Python을 포함한 12개의 프로그래밍 언어에 걸쳐 LLM을 평가하기 위한 벤치마크인 Multi-LCB를 소개합니다. Multi-LCB는 LCB의 오염 제어 및 평가 프로토콜을 유지하면서 LCB 데이터셋의 Python 작업을 다른 언어의 동등한 작업으로 변환합니다. 기존 LCB 형식과 완전히 호환되기 때문에, Multi-LCB는 향후 LCB 업데이트를 자동으로 추적하여 교차 언어 코드 생성 역량에 대한 체계적인 평가를 가능하게 하며, 모델이 Python을 훨씬 넘어선 성능을 유지하도록 요구합니다. 우리는 Multi-LCB를 통해 지시 이행 (instruction) 및 추론 (reasoning)에 대해 24개의 LLM을 평가하였으며, 이를 통해 Python 과적합 (overfitting), 언어별 오염 (language-specific contamination), 그리고 다국어 성능에서의 상당한 격차에 대한 증거를 발견했습니다. 우리의 결과는 Multi-LCB를 다중 프로그래밍 언어 코드 평가를 위한 엄격한 새로운 벤치마크로 확립하며, LCB의 주요 한계를 직접적으로 해결하고 현재 LLM 능력의 결정적인 격차를 드러냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기