arXiv논문2026. 06. 01. 11:56

검증 피드백 기반 강화학습을 통한 코드 생성용 소규모 언어 모델 개선

요약

검증 가능한 보상을 활용한 강화학습(RLVR)을 통해 소규모 언어 모델의 코드 생성 성능을 개선하는 연구입니다. Qwen3-0.6B와 Llama3.2-1B 모델을 대상으로 MBPP 벤치마크에서 실험을 진행하여 보상 설계의 중요성을 입증했습니다.

핵심 포인트

RLVR 적용 시 MBPP pass@1 성능이 최대 13%p 향상됨
유닛 테스트와 정적 분석을 결합한 보상 설계가 가장 효과적임
보상 셰이핑 방식에 따라 모델의 생성 행동이 편향될 수 있음
단순 pass@1 외에 생성 길이, 에러 유형 등 다각적 진단 필요

검증 가능한 보상을 활용한 강화학습 (RLVR, Reinforcement learning with verifiable rewards)은 유닛 테스트 (unit-test) 결과와 같이 프로그램적으로 확인 가능한 신호를 사용하여 언어 모델을 학습시키며, 이를 통해 코드 생성 시 기능적 정확성 (functional correctness)을 직접적으로 최적화할 수 있습니다. 본 연구에서는 LoRA 미세 조정 (fine-tuning)을 적용하여 두 가지 소규모 모델 (Qwen3-0.6B 및 Llama3.2-1B)을 사용해 MBPP 벤치마크 상의 Python 코드 생성에 대한 RLVR의 경험적 연구를 수행합니다. 유닛 테스트 전용 보상 (unit-test-only rewards), Ruff 린터 (linter)를 통한 정적 분석 전용 셰이핑 (static-analysis-only shaping), 그리고 결합된 보상 (combined reward)과 같은 다양한 보상 구성에 걸쳐, 그룹 기반 정책 최적화 (group-based policy optimization) 변형 모델들 (GRPO 및 GSPO)을 비교하고 기능적 정확성과 행동 진단 (behavioral diagnostics)을 모두 평가합니다. 실험 설정에서, 제안된 결합 보상 구성 하에 RLVR은 MBPP 테스트의 pass@1 성능을 최대 13 퍼센트 포인트까지 향상시킵니다. 그러나 보상 셰이핑 (reward shaping)이 체계적인 행동 변화를 유도할 수 있음을 발견했습니다. 즉, 정적 분석 페널티만을 사용할 경우, 기능적 정확성을 안정적으로 개선하지 못하면서 린트 (lint) 에러를 줄이기 위해 더 짧은 완성형을 생성하도록 정책이 편향될 수 있습니다. 반면, 결합된 보상은 이러한 퇴보를 완화하고 정확성과 스타일 제약 조건 사이에서 더 안정적인 절충안을 제공합니다. 종합적으로, 본 연구 결과는 코드 생성에 대한 RLVR의 효과가 보상 설계 및 최적화 입도 (granularity)에 매우 민감하며, 생성 길이, Ruff 심각도 프로필, 실행 에러 유형을 포함하여 pass@1을 넘어서는 진단 도구들이 실패 모드 (failure modes)를 식별하는 데 유용함을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

검증 피드백 기반 강화학습을 통한 코드 생성용 소규모 언어 모델 개선

요약

핵심 포인트

댓글