조합적 합성: 원자적 분해 및 재결합을 통한 코드 RLVR 스케일링
요약
RLVR(검증 가능한 보상을 활용한 강화학습)의 확장성 문제를 해결하기 위해 ADR(원자적 분해 및 재결합) 프레임워크를 제안합니다. 코드를 원자적 요소로 분해하고 재결합하여 참신하고 도전적인 데이터셋을 생성함으로써 모델의 코딩 능력을 효과적으로 향상시킵니다.
핵심 포인트
- RLVR의 확장성을 제한하는 데이터 부족 문제 해결
- ADR 프레임워크를 통한 원자적 요소 분해 및 재결합
- 기존 방식 대비 높은 독창성, 난이도, 다양성 확보
- 알고리즘, 도구 사용, 데이터 과학 등 다양한 도메인 성능 향상
검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습(RLVR)은 최근 대규모 언어 모델(LLMs)의 놀라운 코딩 능력을 형성하는 초석으로 부상했습니다. 그러나 RLVR의 확장성(Scalability)은 모델의 역량 한계점에 근접한, 충분히 도전적인 검증 가능한 코드 작업(Verifiable code tasks)의 부족으로 인해 심각하게 제한됩니다. 기존 연구들은 데이터 합성을 위해 휴리스틱한 시드 확장(Heuristic seed expansions)에 의존하는 경우가 많으며, 이는 참신함(Novelty)과 난이도(Difficulty)를 모두 심각하게 제한합니다. 결과적으로, 이러한 데이터의 학습 가치는 합성 규모에 비례하여 확장되지 못합니다. 이를 해결하기 위해, 우리는 원자적 요소(Atomic elements)로의 분해와 통제된 재결합(Recombination)을 통해 검증 가능한 코드 작업을 생성하는 새로운 프레임워크인 원자적 분해 및 재결합(Atomic Decomposition and Recombination, ADR)을 제안합니다. 이를 통해 진정으로 새롭고 도전적인 검증 가능한 코드 작업을 생성할 수 있습니다. 실험 및 분석 결과, ADR은 기존 베이스라인(Baselines) 대비 우수한 독창성(Originality), 난이도, 다양성(Diversity) 및 테스트 품질을 달성하였으며, 알고리즘 프로그래밍, 도구 사용(Tool usage), 데이터 과학을 포함한 다양한 다운스트림 도메인의 RLVR 전반에서 코드 능력의 지속적이고 더 큰 향상을 제공함을 입증했습니다. 우리의 연구는 새로운 코드 작업 합성 및 확장 가능한 RLVR 학습을 위한 새로운 패러다임을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기