강화학습 (Reinforcement Learning)을 통한 LLM 코드 생성용 프롬프트 최적화

대규모 언어 모델 (Large Language Models, LLMs)은 자연어로부터 코드를 생성할 수 있지만, 그 성능은 프롬프트 구성 (prompt formulation)에 매우 민감합니다. 본 연구에서는 프롬프트 개선 (prompt refinement)을 순차적 의사결정 문제 (sequential decision-making problem)로 모델링하는 강화학습 (reinforcement-learning) 기반 프레임워크를 제안합니다. Proximal Policy Optimization (PPO) 에이전트는 유닛 테스트 (unit-test) 피드백에서 도출된 보상 형성 (shaped rewards)에 따라, 직접 생성 (direct generation), 유전적 어휘 변이 (genetic lexical mutation), 그리고 의미론적 재작성 (semantic rewriting)을 결합한 하이브리드 액션 공간 (hybrid action space)을 사용하여 프롬프트를 반복적으로 개선합니다. 우리는 CodeT5+, CodeLLaMA, 그리고 DeepSeek-Coder를 고정된 코드 생성기 (frozen code generators)로 사용하여 MBPP+, HumanEval+, APPS에서 이 프레임워크를 평가합니다. 500개 태스크로 구성된 MBPP+ 테스트 세트에서 PPO 에이전트는 각각 57.58%, 64.80%, 85.50%의 엄격한 Pass@1 점수를 달성하며 EPiC, Reflexion, 그리고 Random-Hybrid를 능가했습니다. Soft-Pass@1은 각각 67.90%, 73.10%, 88.20%에 도달했습니다. 모든 백본 모델 (backbone models)에 대해 HumanEval+ 및 APPS에서도 유사한 개선이 관찰되었습니다. 이러한 결과는 보상 형성 (shaped rewards) 및 테스트 주도 (test-driven) 방식의 강화학습이 LLM 기반 코드 생성의 기능적 정확성 (functional correctness)을 향상시킨다는 것을 입증합니다.

Insights

강화학습 (Reinforcement Learning)을 통한 LLM 코드 생성용 프롬프트 최적화

요약

핵심 포인트

댓글

ELSA3D: 통합 3D 이해 및 생성을 위한 탄성 의미 앵커링

$META, 이미지 생성용 AI 모델 출시 및 자체 모델로 제3자 AI 이미지 모델 대체 계획

Figma Code Layers, MCP Server, Motion 및 생성형 셰이더와 플러그인 출시 이후 프롬프팅의 역할에 대해 생각하며

요약: Base MCP의 작동 방식

ELSA3D: 통합 3D 이해 및 생성을 위한 탄성 의미 앵커링

$META, 이미지 생성용 AI 모델 출시 및 자체 모델로 제3자 AI 이미지 모델 대체 계획

Figma Code Layers, MCP Server, Motion 및 생성형 셰이더와 플러그인 출시 이후 프롬프팅의 역할에 대해 생각하며

요약: Base MCP의 작동 방식