arXiv논문2026. 05. 15. 15:55

무작위로 선택된 Few-Shot 가이드를 통한 검증 가능한 보상 기반 강화학습 (Reinforcement Learning with

요약

본 논문은 대규모 언어 모델(LLMs) 개발에 활용되는 검증 가능한 보상 기반 강화학습(RLVR)의 샘플 효율성 문제를 다룹니다. 기존 연구들이 제안한 지도 미세 조정(SFT) 방식이 많은 데이터를 필요로 하는 한계를 극복하기 위해, 저자들은 Few-Shot 데모 가이드 기반 RLVR 알고리즘인 FEST를 제안했습니다. FEST는 무작위로 선택된 소수의 데모만으로도 강력한 성능을 달성하며, 이는 적은 데이터로 높은 효율성을 보여줍니다.

핵심 포인트

RLVR은 LLMs 개발에 성공적이지만, 샘플 효율성이 주요 과제이다.
기존의 지도 미세 조정(SFT) 방식은 많은 데이터를 필요로 하여 비용 문제가 있다.
FEST는 Few-Shot 데모 가이드 기반 RLVR 알고리즘으로, 소수의 무작위 데모만 사용한다.
성공적인 FEST 구현을 위해서는 지도 신호, 온-폴리시 신호, 그리고 감쇠 가중치 적용이 필수적이다.
FEST는 적은 양의 SFT 데이터로 베이스라인을 능가하며 전체 데이터셋과 유사한 성능을 보인다.

검증 가능한 보상 기반 강화학습 (Reinforcement Learning with Verifiable Rewards, RLVR)은 수학 및 코딩과 같은 많은 작업에서 사고의 사슬 (chain-of-thought) 롤아웃 (rollouts)을 활용하여 대규모 언어 모델 (Large Language Models, LLMs)을 개발하는 데 큰 성공을 거두었습니다. 그럼에도 불구하고, RLVR은 올바른 롤아웃 (rollouts)을 생성하기 어려운 어려운 문제에서 샘플 효율성 (sample efficiency) 문제로 어려움을 겪습니다. 기존 연구들은 데모 가이드 기반 RLVR (demonstration-guided RLVR), 즉 RL이 실패할 때 지도 미세 조정 (Supervised FineTuning, SFT)을 수행함으로써 이 문제를 해결할 것을 제안했습니다. 하지만 SFT는 종종 많은 데이터를 필요로 하며, 이는 획득하는 데 비용이 많이 들 수 있습니다. 본 논문에서 우리는 FEw-ShoT 데모 가이드 기반 RLVR 알고리즘인 FEST를 제안합니다. FEST는 SFT 데이터셋에서 무작위로 선택된 단 128개의 데모 (demonstrations)만으로도 강력한 결과를 달성합니다. 우리는 세 가지 구성 요소가 성공에 필수적임을 발견했습니다: 지도 신호 (supervised signal), 온-폴리시 신호 (on-policy signal), 그리고 다중 에포크 (multiple-epoch) 학습으로부터의 과적합 (overfitting)을 방지하기 위한 Few-Shot SFT 데이터셋에 대한 감쇠 가중치 (decaying weights)입니다. 여러 벤치마크에서 FEST는 훨씬 적은 양의 SFT 데이터로 베이스라인 (baselines)을 능가하며, 심지어 전체 데이터셋을 사용한 성능과도 일치하는 모습을 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

무작위로 선택된 Few-Shot 가이드를 통한 검증 가능한 보상 기반 강화학습 (Reinforcement Learning with

요약

핵심 포인트

댓글