Hista 및 Numca: LLM 강화학습 (RL)을 위한 효과적인 상태 가치 (State Value) 추정
요약
LLM 강화학습 시 발생하는 상태 가치 추정의 한계를 분석하고, 이를 해결하기 위한 새로운 벤치마크(SVEB)와 두 가지 기술(Numca, Hista)을 제안합니다. 실험을 통해 제안된 방법론이 계산 오버헤드 없이 학습 성능을 향상시킴을 입증했습니다.
핵심 포인트
- LLM RL 학습 시 비평가(critic)의 가치 추정 붕괴 문제 지적
- 상태 가치 추정 평가를 위한 SVEB 벤치마크 도입
- 수치적 범위를 활용한 Numca 기술 제안
- 은닉 상태 표현을 활용한 Hista 프레임워크 제안
- 추가 비용 없이 RL 알고리즘의 학습 성능 개선 확인
강화학습 (Reinforcement Learning, RL)은 보상 신호 (reward signals)를 통해 모델의 행동을 직접 최적화함으로써 대규모 언어 모델 (Large Language Models, LLMs)을 정교화합니다. 고전적인 RL에서 정확한 상태 가치 (state value) 추정은 안정적인 학습을 위해 매우 중요하지만, LLM 사후 학습 (post-training) 단계에서는 여전히 충분히 탐구되지 않은 과제로 남아 있습니다. 본 연구에서는 기존 RL 프레임워크 내에서의 상태 추정을 평가하기 위한 상태 가치 추정 벤치마크 (State Value Estimation Benchmark, SVEB)를 도입하며, PPO와 같은 표준적인 접근 방식의 비평가 (critics)가 거친 그룹 평균 베이스라인 (group-average baseline)으로 붕괴(collapse)된다는 점을 보여줍니다. 이를 해결하기 위해 우리는 두 가지 기술을 제안합니다: 상태 가치 추정을 위한 등급 매기기 가능한 이정표 (gradable milestones)로서 수치적 범위 (numerical spans)를 활용하는 Numca, 그리고 LLM의 은닉 상태 (hidden states)를 표현 (representation)으로 사용하여 서로 분리된 롤아웃 (rollouts)과 그 리턴 (return)의 가중 평균을 구하는 프레임워크인 Hista입니다. 광범위한 실험을 통해 두 방법 모두 상당한 계산 오버헤드 (computational overhead)를 발생시키지 않으면서, 다양한 RL 알고리즘과 모델 크기에 걸쳐 더 정확한 상태 가치 추정치를 생성하고 학습 성능을 향상시킨다는 것을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기