문제 해결을 넘어: 경쟁 프로그래밍에서의 코드 생성, 해킹 및 수정을 평가하기 위한 UOJ-Bench
요약
LLM의 경쟁 프로그래밍 능력을 다각도로 평가하기 위한 새로운 벤치마크인 UOJ-Bench를 소개합니다. 코드 생성, 해킹, 수정을 포함하며, 테스트 시간 스케일링을 통해 모델의 오류 식별 능력을 검증합니다.
핵심 포인트
- UOJ-Bench는 코드 생성, 해킹, 수정을 평가하는 벤치마크임
- 기존 모델들은 인간의 오답을 식별하는 데 한계를 보임
- 테스트 시간 스케일링 적용 시 성공률을 90% 이상으로 향상 가능
- 높은 계산 비용은 대규모 배포의 실용적 제약 요소임
경쟁 프로그래밍 (Competitive Programming) 분야에서 강력한 성능을 보여줌에도 불구하고, 동일한 환경에서 인간의 학습을 지원하는 대규모 언어 모델 (LLMs)의 역할은 여전히 미개척 분야로 남아 있습니다. 본 연구에서는 LLM의 문제 해결 능력뿐만 아니라, 인간이 작성한 코드의 오류를 식별하는 능력까지 평가하도록 설계된 벤치마크인 UOJ-Bench를 소개합니다. 이는 전통적으로 온라인 저지 (Online Judge) 시스템에서 테스트 케이스를 실행함으로써 지원되는 중요한 교육적 활동입니다. UOJ-Bench는 코드 생성 (Code Generation), 코드 해킹 (Code Hacking), 코드 수정 (Code Repair)이라는 세 가지 별개의 작업으로 구성되며, 이 모든 작업은 Universal Online Judge (UOJ)의 실제 코드 제출물로부터 구축되었고 UOJ의 자체 판정 인프라를 통해 평가됩니다. 연구 결과에 따르면, 원샷 평가 (One-shot evaluation) 환경에서 가장 강력한 모델들조차 UOJ 사용자에 의해 오답으로 판명된 제출물 세트의 50% 이상에서 오류를 식별하는 데 실패했습니다. 테스트 시간 스케일링 (Test-time scaling)을 통해 성공률을 90% 이상으로 높일 수 있었으나, 모델 추론 (Model inference)에서 발생하는 상당한 계산 비용은 대규모 배포를 위한 실용성을 제한합니다. 이러한 한계에도 불구하고, 테스트 시간 스케일링 환경에서 가장 성능이 좋은 모델들은 약 30개의 문제에 걸쳐 만점 제출물의 5% 이상에서 오류를 찾아낼 수 있음을 확인하였으며, 이는 최첨단 LLM이 이미 표준 판정 시스템을 넘어 보완적인 신호를 제공할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기