결정론적 프로그래밍 작업에서 대규모 언어 모델(LLM)의 정확도, 안정성 및 반복 실행 신뢰성
요약
본 연구는 프로그래밍 작업에서 LLM의 정확도와 반복 실행 시의 안정성 사이의 관계를 분석합니다. 단일 실행 정확도가 실제 배포 환경에서 요구되는 재시도 없는 커버리지를 과장할 수 있음을 지적하며, 새로운 평가 프로토콜을 제안합니다.
핵심 포인트
- 실행 수준 통과율이 재시도 없는 커버리지를 최대 17.8%p 과장함
- 반복 실행 시 일관된 결과를 보장하는 안정성 평가의 중요성 강조
- 16개 모델을 대상으로 LeetCode 스타일 벤치마크 수행
- 정확도와 안정성 사이의 상관관계 및 모델 순위 변동 확인
실행 수준의 통과율(Run-level pass rate)은 재시도 없는 커버리지(retry-free coverage)를 최대 17.8%포인트까지 과장하며, 이 격차는 성능이 중간 정도인 시스템에서 가장 크게 나타납니다. 본 연구에서는 프로그래밍 작업을 구체적인 테스트베드로 사용하여, 결정론적 텍스트 조건부 생성(deterministic text-conditioned generation)을 위한 대규모 언어 모델(LLM) 평가에서 이러한 정확도-안정성 관계를 조사합니다. 표준 코드 생성 벤치마크는 단일 실행 정확도(single-run accuracy) 또는 반복 샘플링 하에서의 최종적인 성공을 강조하지만, 많은 배포 환경에서는 안정성, 즉 동일한 작업 설명 하에서 반복적인 호출 시 일관된 결과가 나오는 것을 요구합니다. 우리는 실행 수준의 정확도(run-level accuracy), 재시도 없는 커버리지(retry-free coverage), 그리고 문제별 변동성(per-problem variability)에 대한 지표를 포함하는 반복 실행 평가 프로토콜을 제시합니다. 최신성을 기반으로 한 100개의 LeetCode 스타일 문제 벤치마크에서, 우리는 5개의 제공업체 제품군에 속한 16개 모델을 두 가지 프롬프트 템플릿 하에 문제당 5회의 반복 실행을 통해 평가하였으며, 총 16,000개의 평가 인스턴스를 생성했습니다. 실행 수준의 통과율과 완벽한 안정성 비율(perfect stability rate)은 강한 상관관계(r=0.985)를 보이지만, 통과율은 재시도 없는 커버리지를 지속적으로 상회합니다. 이 격차는 최대 17.8%포인트에 달하며, 성능이 유사한 시스템들 사이에서도 모델 순위를 뒤바꿔 놓습니다. 프롬프트 효과는 일률적으로 유익하기보다는 모델에 따라 다르게 나타납니다. 이러한 결과는 결정론적 텍스트 조건부 생성 작업에 대해 반복 실행 안정성 분석이 기존의 정확도 보고를 보완하는 필수적인 요소임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기