BenchEvolver: 솔루션 중심 진화를 통한 최첨단 태스크 합성
요약
기존 벤치마크의 포화 문제를 해결하기 위해 솔루션 중심의 진화 프레임워크인 BenchEvolver를 제안합니다. 기존 코딩 문제를 실행 가능한 의미론을 기반으로 더 어려운 변형 문제로 자동 변환하여 고품질의 데이터셋을 구축합니다.
핵심 포인트
- BenchEvolver를 통한 고난도 코딩 태스크 자동 생성
- LiveCodeBench-Plus 구축으로 모델 간 변별력 확보
- 진화된 태스크를 활용한 강화학습(RL) 성능 향상 입증
- 실행 가능한 솔루션 기반의 검증 가능한 정확성 유지
최첨단 대규모 언어 모델 (LLM)의 급격한 발전은 광범위한 벤치마크 포화 상태를 초래하였으며, 이는 기존 데이터셋이 모델의 능력을 차별화하거나 유용한 학습 신호 (training signal)를 제공하는 능력을 제한하고 있습니다. 예를 들어, LiveCodeBench에서 최첨단 모델들은 쉬운 분할 (easy splits)에서 99% 이상의 Pass@1을 달성하며, 난이도 수준 전반에 걸쳐 평균 90% 이상의 Pass@1을 상회합니다. 새롭고 도전적인 데이터셋을 구축하는 것은 일반적으로 상당한 인간의 노력을 필요로 하며, 이는 발전의 병목 현상을 야기합니다. 우리는 기존의 코딩 문제들을 더 어려운 변형 문제로 자동 변환하는 솔루션 중심의 진화 프레임워크인 BenchEvolver를 소개합니다. BenchEvolver는 문제를 처음부터 생성하는 대신, 구조화된 변환을 통해 참조 솔루션 (reference solutions)을 진화시키고, 진화된 솔루션으로부터 그에 상응하는 문제 설명과 테스트 케이스를 도출합니다. 이러한 설계는 생성을 실행 가능한 의미론 (executable semantics)에 기반하게 하여, 검증 가능한 정확성을 갖춘 고품질의 다양하고 어려운 태스크를 확장 가능한 방식으로 구축할 수 있게 합니다. BenchEvolver를 LiveCodeBench와 SciCode에 적용한 결과, 유효성, 참조 정확성 및 다양성을 유지하면서도 실질적으로 더 어려워진 진화된 태스크들을 얻었습니다. 우리는 더 나아가 진화된 태스크와 어려운 원본 LCB-v6 태스크를 결합한 91개 문제 규모의 벤치마크인 LiveCodeBench-Plus를 큐레이션하였으며, 여기서 최첨단 모델의 Pass@1은 27.5%에서 62.6% 사이로 나타나 강력한 코딩 모델들 사이의 명확한 변별력을 회복했습니다. 중요한 점은, 진화된 태스크가 이를 생성한 모델에게조차 여전히 도전적이라는 것이며, 이는 자기 개선 (self-improvement)을 가능하게 합니다. 우리는 또한 진화된 LCB 태스크에 대한 강화학습 (RL)이 홀드아웃 (held-out) 코딩 성능을 향상시킨다는 것을 보여주었습니다. gpt-oss-20b의 경우, seed+evolved 학습은 LCB v6 Hard 및 LCB-Pro Easy에서 각각 +8.7 및 +8.3의 Pass@1 이득을 달성하였으며, 이는 seed-only 이득을 각각 70.7% 및 34.8% 초과하는 수치입니다. 우리의 결과는 BenchEvolver가 포화된 벤치마크를 최첨단 수준의 평가 세트 및 재사용 가능한 학습 신호로 전환할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기