arXiv논문2026. 06. 15. 04:05

문제 해결을 넘어: 경쟁 프로그래밍에서의 코드 생성, 해킹 및 수정을 평가하기 위한 UOJ-Bench

요약

LLM의 경쟁 프로그래밍 능력을 다각도로 평가하기 위한 새로운 벤치마크인 UOJ-Bench를 소개합니다. 코드 생성, 해킹, 수정을 포함하며, 테스트 시간 스케일링을 통해 모델의 오류 식별 능력을 검증합니다.

핵심 포인트

UOJ-Bench는 코드 생성, 해킹, 수정을 평가하는 벤치마크임
기존 모델들은 인간의 오답을 식별하는 데 한계를 보임
테스트 시간 스케일링 적용 시 성공률을 90% 이상으로 향상 가능
높은 계산 비용은 대규모 배포의 실용적 제약 요소임

경쟁 프로그래밍 (Competitive Programming) 분야에서 강력한 성능을 보여줌에도 불구하고, 동일한 환경에서 인간의 학습을 지원하는 대규모 언어 모델 (LLMs)의 역할은 여전히 미개척 분야로 남아 있습니다. 본 연구에서는 LLM의 문제 해결 능력뿐만 아니라, 인간이 작성한 코드의 오류를 식별하는 능력까지 평가하도록 설계된 벤치마크인 UOJ-Bench를 소개합니다. 이는 전통적으로 온라인 저지 (Online Judge) 시스템에서 테스트 케이스를 실행함으로써 지원되는 중요한 교육적 활동입니다. UOJ-Bench는 코드 생성 (Code Generation), 코드 해킹 (Code Hacking), 코드 수정 (Code Repair)이라는 세 가지 별개의 작업으로 구성되며, 이 모든 작업은 Universal Online Judge (UOJ)의 실제 코드 제출물로부터 구축되었고 UOJ의 자체 판정 인프라를 통해 평가됩니다. 연구 결과에 따르면, 원샷 평가 (One-shot evaluation) 환경에서 가장 강력한 모델들조차 UOJ 사용자에 의해 오답으로 판명된 제출물 세트의 50% 이상에서 오류를 식별하는 데 실패했습니다. 테스트 시간 스케일링 (Test-time scaling)을 통해 성공률을 90% 이상으로 높일 수 있었으나, 모델 추론 (Model inference)에서 발생하는 상당한 계산 비용은 대규모 배포를 위한 실용성을 제한합니다. 이러한 한계에도 불구하고, 테스트 시간 스케일링 환경에서 가장 성능이 좋은 모델들은 약 30개의 문제에 걸쳐 만점 제출물의 5% 이상에서 오류를 찾아낼 수 있음을 확인하였으며, 이는 최첨단 LLM이 이미 표준 판정 시스템을 넘어 보완적인 신호를 제공할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

문제 해결을 넘어: 경쟁 프로그래밍에서의 코드 생성, 해킹 및 수정을 평가하기 위한 UOJ-Bench

요약

핵심 포인트

댓글