대규모 언어 모델(LLM)은 알고리즘 유형 및 난이도별로 프로그래밍 경진 대회에서 어디에서 실패하는가? 실패 유형에 대한 분류 체계
요약
LLM의 프로그래밍 경진 대회 성능을 알고리즘 유형과 난이도별로 분석한 연구입니다. GPT-4o와 Claude Sonnet 4.6을 대상으로 CoT 적용 시 발생하는 성능 저하와 실패 패턴을 실증적으로 규명했습니다.
핵심 포인트
- 알고리즘 유형 및 난이도별 LLM 실패 패턴 체계화
- GPT-4o는 CoT 적용 시 탐욕 알고리즘 성능 저하 발생
- Claude는 CoT 사용 시 마크다운 준수 능력 저하로 컴파일 에러 증가
- 표준 프롬프트 엔지니어링의 알고리즘 추론 한계 확인
대규모 언어 모델 (LLMs)은 프로그래밍 경진 대회 (Competitive Programming) 벤치마크에서 점점 더 높은 숙련도를 보여주고 있지만, 기술 보고서들은 주로 총괄 합격률 (Aggregate Pass Rates)만을 발표하여 도메인별 취약점을 가리고 있습니다. 본 연구에서는 7개의 알고리즘 카테고리와 3개의 난이도 단계에 걸쳐 균형 잡힌 315개의 Codeforces 문제 분류 체계를 사용하여 LLM의 실패 패턴에 대한 체계적인 실증 연구를 제시합니다. 우리는 온도 (Temperature, T = 0.2)를 제어한 엄격한 실행 기반 조건 하에서 GPT-4o와 Claude Sonnet 4.6을 평가합니다. 알고리즘 정확도에 미치는 추론 프레임워크 (Reasoning Frameworks)의 영향을 격리하기 위해, 직접적인 제로샷 생성 (Zero-shot Generation)과 제로샷 생각의 사슬 (Zero-shot Chain-of-Thought, CoT)을 비교하는 절제 연구 (Ablation Study)를 수행합니다. 우리의 연구 결과는 표준 NLP 벤치마크와 심각한 차이가 있음을 보여줍니다. CoT를 강제하는 것은 GPT-4o에 공격적인 불이익을 주어 합격률을 46.0%에서 36.8%로 떨어뜨리고, 탐욕 알고리즘 (Greedy logic)에서의 치명적인 약점을 악화시킵니다. 반대로, Claude는 더 높은 논리적 기준선 (CoT 하에서 63.5%)을 유지하지만, 확장된 텍스트 생성은 마크다운 지시 사항 준수 (Markdown Instruction Adherence) 능력을 심각하게 저하시켜 컴파일 에러 (Compile Errors)를 3배 이상 증가시켰습니다 (9개에서 31개로, 244% 증가). 또한, 실패 모드 분석 (Failure-mode Analysis)에 따르면 오답 (Wrong Answer, WA)이 두 모델 모두에서 지배적인 판정 결과로 나타났으며, 이는 GPT-4o 미통과 솔루션의 90% 이상, Claude 미통과 솔루션의 약 70%를 차지합니다. 이러한 발견은 표준 프롬프트 엔지니어링 (Prompt Engineering) 기술이 프로그래밍 경진 대회 환경에서의 알고리즘 추론 격차를 메우는 데 실패한다는 것을 실증적으로 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기