pass@k를 넘어: 다중 샘플 코드 생성(Multi-Sample Code Generation)을 위한 중복성 인식 RLVR
요약
코드 생성 모델의 평가 지표인 Pass@k와 강화학습(RLVR) 과정에서 발생하는 코드 중복성 문제를 연구합니다. 정확도만 추구하는 RLVR은 생성물의 중복성을 높이는 경향이 있으나, JPlag 유사도를 활용한 반중복성 보상을 통해 성능과 다양성을 동시에 개선할 수 있음을 입증했습니다.
핵심 포인트
- RLVR 학습 시 정확도 중심의 목적 함수는 코드 중복을 유발함
- JPlag를 활용해 코드 구현 수준의 중복성을 정량적으로 분석
- 반중복성 보상(Anti-redundancy Rewards)을 통해 생성물 다양성 확보
- 중복 억제 시 제한된 샘플링 예산 내 실행 가능 성능 향상
코드 생성(Code Generation)을 위한 대규모 언어 모델(LLMs)은 일반적으로 Pass@k를 사용하는 반복 샘플링 설정에서 평가되며, 여기서 제한된 샘플링 예산 내에서 여러 후보 프로그램이 단위 테스트(Unit Tests)를 대상으로 실행됩니다. 최근의 검증기 기반 강화학습 (Verifier-based Reinforcement Learning, RLVR) 방법들이 실행 가능한 정확도(Executable Correctness)를 향상시키고 있지만, 이러한 목적 함수들이 샘플링된 프로그램들 사이의 중복성(Redundancy)에 어떤 영향을 미치는지에 대해서는 여전히 잘 알려져 있지 않습니다. 본 연구에서는 코드 표절 탐지 시스템인 JPlag를 사용하여 코드 생성에서의 구현 수준 중복성을 연구합니다. 다양한 모델과 벤치마크(Benchmarks)에 걸쳐, 우리는 정확도만을 목표로 하는 RLVR이 생성물을 반복되는 구현체 주변으로 집중시키는 경향이 있는 반면, Pass@k를 인식하는 목적 함수는 더 낮은 중복성을 유지하고 더 큰 예산에서의 성능을 향상시킨다는 것을 보여줍니다. 이러한 관찰 결과에 착안하여, 우리는 JPlag 유사도에 기반한 직접적인 반중복성 보상(Anti-redundancy Rewards)을 통해 RLVR을 증강합니다. 3개의 모델과 3개의 벤치마크에 대해, 유사한 중복 생성(Near-duplicate Generations)을 억제하는 것이 제한된 예산 내의 실행 가능 성능을 안정적으로 향상시키며, 종종 특화된 Pass@k 인식 목적 함수와 대등하거나 이를 능가하는 성능을 보임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기