적절한 속도로 학습하기: 적응형 데이터 스케줄링(Adaptive Data Scheduling)을 통한 LLM 강화학습(RL) 개선
요약
LLM 강화학습(RL)의 효율성을 높이기 위해 데이터 샘플링 방식을 개선한 적응형 데이터 스케줄링(ADS) 프레임워크를 제안합니다. 기존의 균등 샘플링 대신 의미론적 클러스터와 정책 경계 샘플을 활용하여 학습 성능을 최적화합니다.
핵심 포인트
- 기존 균등 샘플링의 한계를 극복하는 이중 수준 데이터 스케줄링 제안
- 의미론적 클러스터 분포와 정책 경계 샘플링을 통한 학습 효율화
- GRPO 대비 평균 정확도 5.2% 향상 입증
- 다양한 RL 목적 함수에 적용 가능한 범용적 전략
대규모 언어 모델(LLMs)은 강화학습 (RL) 사후 학습 (post-training)을 통해 놀라운 추론 능력을 달성합니다. 그러나 기존의 RL 사후 학습은 일반적으로 균등한 데이터 샘플링 (uniform data sampling)에 의존하며, 이는 학습 데이터의 의미론적 구조 (semantic structure)와 학습 정책 (training policy)의 변화하는 능력을 무시합니다. 이러한 한계를 해결하기 위해, 우리는 RL 사후 학습의 속도를 조절하기 위한 이중 수준 데이터 스케줄링 프레임워크인 적응형 데이터 스케줄링 (Adaptive Data Scheduling, ADS)을 제안합니다. ADS는 균등 샘플링을 의미론적 클러스터 (semantic clusters)에 대한 적응형 분포 및 정책 경계 (policy-boundary) 샘플 선택으로 대체합니다. 클러스터 수준에서 ADS는 의미론적 패턴에 따라 샘플을 구성하고, 현재의 학습 진행 상황을 공고히 하기 위해 적응형 클러스터 간 분포 (inter-cluster distribution)를 유지합니다. 샘플 수준에서 ADS는 클러스터 내 스케줄링 (intra-cluster scheduling)을 수행하여 정책 경계 샘플을 지속적으로 샘플링하며, 이는 정보가 풍부한 상대적 이점 (relative advantages)을 제공합니다. 세 가지 LLM과 7개의 추론 벤치마크에 걸친 실험 결과는 ADS가 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 대비 평균 정확도를 5.2% 향상시킨다는 것을 보여줍니다. 특히, ADS는 서로 다른 목적 함수 (objective) 설계를 가진 RL 방법들을 일관되게 개선하며, LLM RL 사후 학습을 위한 일반적인 데이터 스케줄링 전략으로서의 잠재력을 강조합니다. 소스 코드는 다음에서 확인할 수 있습니다: https://github.com/Richard-zrx/ADS.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기