arXiv논문2026. 05. 04. 19:05

요구사항 인식이 있는 커리큘럼 강화학습을 통한 LLM 코드 생성 성능 개선

요약

본 논문은 복잡해지는 프로그래밍 요구사항을 처리하는 LLM의 코드 생성 성능 한계를 극복하기 위해 RECRL이라는 새로운 프레임워크를 제안합니다. RECRL은 소프트웨어 요구사항 공학(Software Requirements Engineering)의 통찰력을 활용하여, 모델이 요구사항의 난이도를 자동으로 인식하고, 훈련 데이터의 효율성을 높이기 위해 도전적인 요구사항을 최적화하며, 적응형 샘플링 전략으로 점진적인 난이도의 학습 배치를 구축합니다. 광범위한 실험 결과, RECRL은 기존 최고 성능 대비 평균 Pass@1에서 상당한 성능 향상을 입증했습니다.

핵심 포인트

LLM 기반 코드 생성은 효율적이지만, 복잡한 프로그래밍 요구사항 처리에는 여전히 한계가 존재한다.
기존 커리큘럼 강화 학습(CRL) 접근법은 난이도 인식 불일치 및 최적화 부재 등의 한계를 가졌다.
제안된 RECRL 프레임워크는 요구사항 인식을 통해 모델 특유의 난이도를 자동 파악한다.
RECRL은 도전적인 요구사항을 최적화하고 적응형 샘플링 전략을 사용하여 훈련 데이터 활용성을 극대화한다.

주어진 프로그래밍 요구사항에서 소스 코드를 자동으로 생성하는 코드 생성은 소프트웨어 개발 효율성을 현저히 향상시킬 잠재력을 가지고 있습니다. 대형 언어 모델 (LLMs) 의 급진적 발전으로 인해, LLM 기반 코드 생성은 학계와 산업계 모두에서 광범위한 관심을 받고 있습니다. 그러나 프로그래밍 요구사항이 점점 더 복잡해짐에 따라, 기존 LLM 들은 여전히 두드러진 성능 한계를 보입니다. 이 과제를 해결하기 위해 최근 연구들은 LLM 코드 생성 성능을 개선하기 위해 훈련 기반 커리큘럼 강화 학습 (CRL) 전략을 제안했습니다. 효과적인에도 불구하고, 기존 CRL 접근법은 요구사항 난이도 인식 불일치, 요구사항 난이도 최적화 부재, 그리고 비최적의 커리큘럼 샘플링 전략과 같은 여러 한계를 가지고 있습니다. CRL 기반 코드 생성에서 프로그래밍 요구사항은 모델에 대한 유일한 입력으로 작용하여, 그 품질과 난이도는 훈련 효과성에 결정적입니다. 소프트웨어 요구사항 공학의 통찰력을 바탕으로, RECRL 을 제안합니다. RECRL 은 LLM 기반 코드 생성 향상을 위한 새로운 요구사항 인식이 있는 커리큘럼 강화 학습 프레임워크입니다. RECRL 은 모델 특유의 요구사항 난이도를 자동으로 인식하고, 훈련 데이터 활용성을 개선하기 위해 도전적인 요구사항을 최적화하며, 부드럽게 변화하는 난이도를 갖는 훈련 배치 구축을 위해 적응형 커리큘럼 샘플링 전략을 사용합니다. 5 개의 최신 LLM 과 5 개의 널리 사용된 코드 생성 벤치마크에서 5 개의 최신 기준과 비교하여 수행한 광범위한 실험은 RECRL 의 상당한 효과성을 입증합니다. 예를 들어, RECRL 은 모든 최신 기준에 비해 평균 Pass@1 향상 1.23%-5.62%를 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

요구사항 인식이 있는 커리큘럼 강화학습을 통한 LLM 코드 생성 성능 개선

요약

핵심 포인트

댓글