본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 13:06

밀집 보상 (Dense Rewards)을 이용한 코드 생성용 도메인 적응형 강화학습 (Domain-Adaptable Reinforcement

요약

본 논문은 코드 생성 LLM이 도메인 특화 제약 조건과 물리적 환경을 더 잘 이해하도록 돕는 강화학습(RL) 프레임워크를 제안합니다. PPO를 활용하여 구문, 기능적 정확성, 보안 및 시뮬레이터 실행 가능성을 포함하는 밀집 보상(Dense Rewards) 체계를 구축하였으며, 이를 통해 범용 코드 생성 및 로보틱스 분야에서 성능을 크게 향상시켰습니다.

핵심 포인트

  • PPO를 활용하여 사전 학습된 LLM을 도메인 특화 요구 사항에 맞게 미세 조정하는 프레임워크 제시
  • 구문, 기능성, 코드 스타일, 보안, 시뮬레이터 실행 가능성을 포괄하는 맞춤형 실행 인식 보상 공식 설계
  • 토큰 수준의 보상 매핑을 통해 실행 결과로부터 생성된 토큰으로의 효과적인 신용 할당(Credit Assignment) 구현
  • MBPP에서 pass@1 수치 19% 증가 및 RoboEval에서 실행 실패 51% 감소라는 유의미한 성능 개선 입증

대규모 언어 모델 (Large language models)은 자동화된 코드 생성 분야에서 강력한 잠재력을 보여주지만, 정확성, 품질, 안전성 및 도메인 특화 제약 조건에 대한 보장이 부족합니다. 예를 들어, 코드 생성이 행동 계획 및 실행에 점점 더 많이 사용되고 있는 로보틱스 (robotics) 분야에서는 환경과 물리적 제약 조건에 대한 인식이 매우 중요합니다. 도메인 특화 요구 사항을 포함한 다양한 요구 사항에 코드 생성 LLM을 적응시키기 위해, 우리는 근사 정책 최적화 (Proximal Policy Optimization, PPO)를 사용하여 사전 학습된 LLM을 미세 조정하는 강화학습 (Reinforcement Learning, RL) 프레임워크를 제시합니다. 우리의 맞춤형 실행 인식 보상 공식은 구문 (syntax), 기능적 정확성 (functional correctness), 코드 스타일, 보안 및 시뮬레이터 실행 가능성 (simulator executability)을 포착하고 최적화합니다. 토큰 수준의 보상 매핑 메커니즘은 실행 결과로부터 생성된 토큰으로의 효과적인 신용 할당 (credit assignment)을 가능하게 합니다. 이 프레임워크는 범용 코드 생성 (MBPP/MBPP+) 및 로봇 프로그램 합성 (RoboEval)에서 평가되었습니다. 결과에 따르면 MBPP에서 pass@1의 절대적 수치가 19% 증가하고, RoboEval에서 실행 실패가 51% 감소하는 등 기능적 정확성과 시뮬레이터 실행 가능성 측면에서 상당한 개선을 보였습니다. 이러한 발견은 구조화된 강화학습이 언어 모델을 정확한 프로그램 생성 및 도메인 특화 요구 사항에 효과적으로 정렬 (align)할 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0