밀집 보상 (Dense Rewards)을 이용한 코드 생성용 도메인 적응형 강화학습 (Domain-Adaptable Reinforcement

대규모 언어 모델 (Large language models)은 자동화된 코드 생성 분야에서 강력한 잠재력을 보여주지만, 정확성, 품질, 안전성 및 도메인 특화 제약 조건에 대한 보장이 부족합니다. 예를 들어, 코드 생성이 행동 계획 및 실행에 점점 더 많이 사용되고 있는 로보틱스 (robotics) 분야에서는 환경과 물리적 제약 조건에 대한 인식이 매우 중요합니다. 도메인 특화 요구 사항을 포함한 다양한 요구 사항에 코드 생성 LLM을 적응시키기 위해, 우리는 근사 정책 최적화 (Proximal Policy Optimization, PPO)를 사용하여 사전 학습된 LLM을 미세 조정하는 강화학습 (Reinforcement Learning, RL) 프레임워크를 제시합니다. 우리의 맞춤형 실행 인식 보상 공식은 구문 (syntax), 기능적 정확성 (functional correctness), 코드 스타일, 보안 및 시뮬레이터 실행 가능성 (simulator executability)을 포착하고 최적화합니다. 토큰 수준의 보상 매핑 메커니즘은 실행 결과로부터 생성된 토큰으로의 효과적인 신용 할당 (credit assignment)을 가능하게 합니다. 이 프레임워크는 범용 코드 생성 (MBPP/MBPP+) 및 로봇 프로그램 합성 (RoboEval)에서 평가되었습니다. 결과에 따르면 MBPP에서 pass@1의 절대적 수치가 19% 증가하고, RoboEval에서 실행 실패가 51% 감소하는 등 기능적 정확성과 시뮬레이터 실행 가능성 측면에서 상당한 개선을 보였습니다. 이러한 발견은 구조화된 강화학습이 언어 모델을 정확한 프로그램 생성 및 도메인 특화 요구 사항에 효과적으로 정렬 (align)할 수 있음을 입증합니다.

Insights

밀집 보상 (Dense Rewards)을 이용한 코드 생성용 도메인 적응형 강화학습 (Domain-Adaptable Reinforcement

요약

핵심 포인트

댓글

NPU가 LLMs를 처리할 준비가 되었는가? 모바일 LLM 추론의 숨겨진 효율성 병목 현상 분석

WristMimic: 손목 가이드를 이용한 전신 휴머노이드 제어 및 조작

NEMESIS: 역변환 인지 SPICE 앵커링을 통한 NEtlist 기반 모델링 및 방정식 합성

ArtisanCAD: 전문가 지식 증류를 활용한 산업 수준 CAD 에이전트

NPU가 LLMs를 처리할 준비가 되었는가? 모바일 LLM 추론의 숨겨진 효율성 병목 현상 분석

WristMimic: 손목 가이드를 이용한 전신 휴머노이드 제어 및 조작

NEMESIS: 역변환 인지 SPICE 앵커링을 통한 NEtlist 기반 모델링 및 방정식 합성

ArtisanCAD: 전문가 지식 증류를 활용한 산업 수준 CAD 에이전트