AlgoBench: 코드 생성에서의 알고리즘 적응성 벤치마킹

HumanEval 및 LiveCodeBench와 같은 기존 프로그래밍 벤치마크에서의 높은 통과율이 모델이 알고리즘에 대해 추론할 수 있는지 항상 보여주는 것은 아닙니다. 많은 고정된 벤치마크들은 공개된 문제 설명, 해설, 생성된 솔루션을 통해 결국 공개 학습 생태계의 일부가 되며, 이로 인해 나중에 나온 모델들이 더 강력한 알고리즘 능력보다는 노출을 통해 부분적으로 성능을 향상시키게 됩니다. 우리는 구조화된 제약 조건 이동 변환(constraint-shifting transformations)을 통해 알려진 경쟁 프로그래밍 문제로부터 새로운 알고리즘 문제를 자동으로 구축하는 프레임워크인 ALGOBENCH를 소개합니다. 승인된 각 ALGOBENCH 변형은 소스 문제로 추적 가능하지만, 기존의 참조 알고리즘이 실패하도록 만들어야 합니다. pass@$k$를 넘어, 우리는 솔루션이 기능적으로 정확할 뿐만 아니라 생성된 문제에 대해 점근적으로 적합한지(asymptotically suitable) 테스트하기 위해 OPTT, OPTS, TRAPRATE, GAPT, CONSENS를 포함한 복잡도 인식 지표(complexity-aware metrics)를 도입합니다. 여러 LLM 및 프롬프팅 전략에 걸친 실험 결과, ALGOBENCH 변형에서는 성능이 급격히 떨어지며, 검색(retrieval)은 기존 알고리즘의 재사용을 증가시킬 수 있고, 올바르게 보이는 많은 솔루션들이 요구되는 복잡도를 충족하지 못한다는 것을 보여줍니다. 오류 분석에 따르면 실패는 구현 수준보다는 주로 알고리즘 수준에서 발생하며, 이는 ALGOBENCH가 기능적 정확성을 넘어 적응성(adaptation)을 평가함을 시사합니다.

Insights

AlgoBench: 코드 생성에서의 알고리즘 적응성 벤치마킹

요약

핵심 포인트

댓글

SAIR 팟캐스트: 타오쩌쉬안, AI 시대의 '증명 소화불량'과 경쟁 새 패러다임

Active Energy, UAE 자산 수익 창출 시작과 함께 전략적 재편 완료

Intrusion, 사이버 보안 기업 VigilAigent 인수 추진

토큰화 (Tokenisation) 규제가 구축됨에 따라 Valereum은 상업 운영 단계로 진입

Active Energy, UAE 자산 수익 창출 시작과 함께 전략적 재편 완료

Intrusion, 사이버 보안 기업 VigilAigent 인수 추진

토큰화 (Tokenisation) 규제가 구축됨에 따라 Valereum은 상업 운영 단계로 진입