AlgoBench: 코드 생성에서의 알고리즘 적응성 벤치마킹
요약
기존 프로그래밍 벤치마크의 데이터 오염 문제를 지적하며, 알고리즘 적응성을 평가하기 위한 새로운 프레임워크인 AlgoBench를 제안합니다. 제약 조건 변환을 통해 새로운 문제를 생성하고, 복잡도 인식 지표를 도입하여 모델의 진정한 알고리즘 추론 능력을 측정합니다.
핵심 포인트
- 기존 벤치마크의 데이터 노출로 인한 성능 왜곡 문제 해결
- 알고리즘 변형을 통한 새로운 문제 자동 생성 프레임워크 구축
- 기능적 정확성을 넘어 점근적 복잡도를 평가하는 새로운 지표 도입
- LLM의 실패 원인이 구현이 아닌 알고리즘 수준의 적응력 부족임을 입증
HumanEval 및 LiveCodeBench와 같은 기존 프로그래밍 벤치마크에서의 높은 통과율이 모델이 알고리즘에 대해 추론할 수 있는지 항상 보여주는 것은 아닙니다. 많은 고정된 벤치마크들은 공개된 문제 설명, 해설, 생성된 솔루션을 통해 결국 공개 학습 생태계의 일부가 되며, 이로 인해 나중에 나온 모델들이 더 강력한 알고리즘 능력보다는 노출을 통해 부분적으로 성능을 향상시키게 됩니다. 우리는 구조화된 제약 조건 이동 변환(constraint-shifting transformations)을 통해 알려진 경쟁 프로그래밍 문제로부터 새로운 알고리즘 문제를 자동으로 구축하는 프레임워크인 ALGOBENCH를 소개합니다. 승인된 각 ALGOBENCH 변형은 소스 문제로 추적 가능하지만, 기존의 참조 알고리즘이 실패하도록 만들어야 합니다. pass@$k$를 넘어, 우리는 솔루션이 기능적으로 정확할 뿐만 아니라 생성된 문제에 대해 점근적으로 적합한지(asymptotically suitable) 테스트하기 위해 OPTT, OPTS, TRAPRATE, GAPT, CONSENS를 포함한 복잡도 인식 지표(complexity-aware metrics)를 도입합니다. 여러 LLM 및 프롬프팅 전략에 걸친 실험 결과, ALGOBENCH 변형에서는 성능이 급격히 떨어지며, 검색(retrieval)은 기존 알고리즘의 재사용을 증가시킬 수 있고, 올바르게 보이는 많은 솔루션들이 요구되는 복잡도를 충족하지 못한다는 것을 보여줍니다. 오류 분석에 따르면 실패는 구현 수준보다는 주로 알고리즘 수준에서 발생하며, 이는 ALGOBENCH가 기능적 정확성을 넘어 적응성(adaptation)을 평가함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기