arXiv논문2026. 06. 01. 11:55

CodeGolf Bench: 대규모 언어 모델(LLM)의 간결한 코드 생성 능력을 평가하기 위한 다국어 벤치마크

요약

60개 프로그래밍 언어를 대상으로 LLM의 간결한 코드 생성 능력을 평가하는 CodeGolf Bench를 소개합니다. 기존 벤치마크와 달리 실시간 인간 성능 기준선을 제공하며, 추론 모델이 비추론 모델보다 코드 효율성 최적화에서 우수한 성능을 보임을 입증했습니다.

핵심 포인트

60개 언어를 지원하는 다국어 코드 골프 벤치마크 도입
추론 모델이 비추론 모델보다 간결한 코드 생성에 탁월함
C++와 같이 구문이 엄격한 언어에서 추론의 중요성 확인
code.golf 플랫폼을 활용한 역동적인 평가 프레임워크 제공

본 논문은 60개의 프로그래밍 언어에서 대규모 언어 모델(LLMs)의 간결한 코드 생성 능력을 평가할 수 있는 벤치마크인 CodeGolf Bench를 소개합니다. 최소한의 문자 수나 바이트 수 솔루션에 집중하는 레크리에이션 프로그래밍 대회인 코드 골프(code golf)를 기반으로 하는 이 벤치마크는, 효율적이고 간결한 코드를 생성하는 LLM의 능력을 측정하는 독특한 척도를 제공합니다. 고정된 문제 세트와 언어 범위에 제한되었던 기존 벤치마크와 달리, CodeGolf Bench는 code.golf 플랫폼을 활용하여 새로운 문제와 실시간 인간 성능 기준선(baselines)을 제공합니다. Python 및 C++ 작업에 대해 9개의 LLM을 평가한 결과, 추론 모델(reasoning models)이 비추론 모델(non-reasoning models)보다 성능이 현저히 뛰어나며, 최고 평균 백분위수(average percentile) 70.97%를 달성함을 입증했습니다. 이러한 성능 격차는 특히 C++에서 두드러지게 나타나며, 이는 엄격한 구문(syntax) 요구 사항을 가진 언어에서 추론의 중요성을 강조합니다. 비추론 모델은 두 언어 모두에서 효율성 최적화에 더 큰 어려움을 겪었으며, 최고 백분위수가 추론 모델에 비해 현저히 낮았습니다. CodeGolf Bench는 코드 골프에서의 진화하는 인간 성능에 맞추어 LLM의 코드 생성 능력을 평가할 수 있는 역동적인 프레임워크를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CodeGolf Bench: 대규모 언어 모델(LLM)의 간결한 코드 생성 능력을 평가하기 위한 다국어 벤치마크

요약

핵심 포인트

댓글