외삽적 가중치 평균(Extrapolative Weight Averaging)을 통한 코드 RL에서의 정확도-효율성
요약
코드 강화학습(RL)에서 외삽적 가중치 평균(EWA)을 통해 정확도와 효율성 사이의 파레토 프런티어를 확장하는 방법을 연구합니다. 중첩된 유닛 테스트 커버리지를 활용하여 훈련된 체크포인트 너머의 성능을 확보할 수 있음을 입증했습니다.
핵심 포인트
- 외삽적 가중치 평균(EWA)으로 정확도-효율성 프런티어 확장 가능
- 중첩된 유닛 테스트 커버리지가 성능 프런티어 유도
- EWA 앙상블을 통해 LCB/hard 데이터셋의 pass@250 3.3% 향상
- 추론 시 스케일링을 위한 상호 보완적 정책으로서의 가치 확인
미세 조정된 체크포인트(checkpoint) 간의 선형 보간(Linear interpolation)은 상충하는 목표 사이의 파레토 프런트(Pareto front)를 추적하는 것으로 나타났으나, 추가적인 강화학습 (RL) 훈련 없이 외삽적 가중치 평균 (Extrapolative weight averaging)이 추론 시 유용한 새로운 체크포인트로 이러한 프런티어를 확장할 수 있는지 여부는 여전히 불분명합니다. 본 연구에서는 시간 및 메모리 제한 하의 숨겨진 유닛 테스트(unit tests)가 기능적 정확도(functional correctness)와 계산 효율성(computational efficiency)을 모두 강제하는 경쟁 프로그래밍을 위한 RL 분야에서 이 문제를 연구합니다. 공유된 초기화 상태에서 시작하여, 우리는 중첩된 유닛 테스트 커버리지(nested unit-test coverage) 하에서 체크포인트를 훈련합니다. 낮은 커버리지 보상은 더 작은 입력 테스트를 통과할 것을 요구하며, 높은 커버리지 보상은 전체 테스트 세트에 이르기까지 점진적으로 더 큰 테스트를 통과할 것을 요구합니다. 이러한 탐색을 통해 정확도-효율성 프런티어(correctness-efficiency frontier)의 출현이 드러납니다. 어려운 문제의 경우, 더 높은 커버리지 보상은 최적화 실패(optimization failures)를 줄이지만 정확도 실패(correctness failures)를 증가시켜, 해결률(solve rate)은 거의 변하지 않게 만듭니다. 낮은 커버리지와 높은 커버리지 체크포인트 간의 보간(Interpolation)은 이 프런티어를 복구하며, 외삽(extrapolation)은 훈련된 끝점 너머로 이를 확장합니다. 프런티어와 그 외삽적 연속은 순수 추론(pure reasoning), 도구 사용(tool use), 에이전트 코딩(agentic coding)의 세 가지 추론 설정과 32B 및 7B의 두 가지 모델 규모 전반에서 나타납니다. 문제 수준에서 프런티어를 따라 이동하면 해결되는 문제의 종류가 바뀌며, 이는 외삽된 체크포인트가 추론 시 스케일링(inference-time scaling)에서 상호 보완적인 정책(complementary policies)이 되게 합니다. 외삽적 가중치 평균을 사용한 앙상블(Ensembles)은 커버리지를 넓히고, 동일한 샘플 예산에서 최상의 단일 체크포인트 대비 LCB/hard 데이터셋의 pass@250을 3.3% 향상시킵니다. 이러한 결과는 코드 RL에서의 중첩된 유닛 테스트 커버리지가 외삽적 가중치 평균이 탐색, 확장 및 활용할 수 있는 프런티어를 유도함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기