본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 16:32

강화학습 (Reinforcement Learning)을 통한 LLM 코드 생성용 프롬프트 최적화

요약

본 연구는 LLM의 코드 생성 성능을 높이기 위해 프롬프트 개선 과정을 강화학습(RL) 문제로 모델링하는 새로운 프레임워크를 제안합니다. PPO 에이전트가 유닛 테스트 피드백을 기반으로 프롬프트를 반복적으로 최적화하며, CodeT5+, CodeLLaMA, DeepSeek-Coder와 같은 모델에서 기존 방식보다 뛰어난 Pass@1 성능을 입증했습니다.

핵심 포인트

  • 프롬프트 개선을 순차적 의사결정 문제로 정의하고 PPO 알고리즘을 적용함
  • 직접 생성, 유전적 어휘 변이, 의미론적 재작성을 결합한 하이브리드 액션 공간 활용
  • 유닛 테스트 피드백을 통한 보상 형성(Shaped Rewards) 방식 채택
  • MBPP+, HumanEval+, APPS 벤치마크에서 기존 EPiC, Reflexion 등의 방식보다 높은 성능 달성

대규모 언어 모델 (Large Language Models, LLMs)은 자연어로부터 코드를 생성할 수 있지만, 그 성능은 프롬프트 구성 (prompt formulation)에 매우 민감합니다. 본 연구에서는 프롬프트 개선 (prompt refinement)을 순차적 의사결정 문제 (sequential decision-making problem)로 모델링하는 강화학습 (reinforcement-learning) 기반 프레임워크를 제안합니다. Proximal Policy Optimization (PPO) 에이전트는 유닛 테스트 (unit-test) 피드백에서 도출된 보상 형성 (shaped rewards)에 따라, 직접 생성 (direct generation), 유전적 어휘 변이 (genetic lexical mutation), 그리고 의미론적 재작성 (semantic rewriting)을 결합한 하이브리드 액션 공간 (hybrid action space)을 사용하여 프롬프트를 반복적으로 개선합니다. 우리는 CodeT5+, CodeLLaMA, 그리고 DeepSeek-Coder를 고정된 코드 생성기 (frozen code generators)로 사용하여 MBPP+, HumanEval+, APPS에서 이 프레임워크를 평가합니다. 500개 태스크로 구성된 MBPP+ 테스트 세트에서 PPO 에이전트는 각각 57.58%, 64.80%, 85.50%의 엄격한 Pass@1 점수를 달성하며 EPiC, Reflexion, 그리고 Random-Hybrid를 능가했습니다. Soft-Pass@1은 각각 67.90%, 73.10%, 88.20%에 도달했습니다. 모든 백본 모델 (backbone models)에 대해 HumanEval+ 및 APPS에서도 유사한 개선이 관찰되었습니다. 이러한 결과는 보상 형성 (shaped rewards) 및 테스트 주도 (test-driven) 방식의 강화학습이 LLM 기반 코드 생성의 기능적 정확성 (functional correctness)을 향상시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0