arXiv논문2026. 05. 29. 10:49

Hista 및 Numca: LLM 강화학습 (RL)을 위한 효과적인 상태 가치 (State Value) 추정

요약

LLM 강화학습 시 발생하는 상태 가치 추정의 한계를 분석하고, 이를 해결하기 위한 새로운 벤치마크(SVEB)와 두 가지 기술(Numca, Hista)을 제안합니다. 실험을 통해 제안된 방법론이 계산 오버헤드 없이 학습 성능을 향상시킴을 입증했습니다.

핵심 포인트

LLM RL 학습 시 비평가(critic)의 가치 추정 붕괴 문제 지적
상태 가치 추정 평가를 위한 SVEB 벤치마크 도입
수치적 범위를 활용한 Numca 기술 제안
은닉 상태 표현을 활용한 Hista 프레임워크 제안
추가 비용 없이 RL 알고리즘의 학습 성능 개선 확인

강화학습 (Reinforcement Learning, RL)은 보상 신호 (reward signals)를 통해 모델의 행동을 직접 최적화함으로써 대규모 언어 모델 (Large Language Models, LLMs)을 정교화합니다. 고전적인 RL에서 정확한 상태 가치 (state value) 추정은 안정적인 학습을 위해 매우 중요하지만, LLM 사후 학습 (post-training) 단계에서는 여전히 충분히 탐구되지 않은 과제로 남아 있습니다. 본 연구에서는 기존 RL 프레임워크 내에서의 상태 추정을 평가하기 위한 상태 가치 추정 벤치마크 (State Value Estimation Benchmark, SVEB)를 도입하며, PPO와 같은 표준적인 접근 방식의 비평가 (critics)가 거친 그룹 평균 베이스라인 (group-average baseline)으로 붕괴(collapse)된다는 점을 보여줍니다. 이를 해결하기 위해 우리는 두 가지 기술을 제안합니다: 상태 가치 추정을 위한 등급 매기기 가능한 이정표 (gradable milestones)로서 수치적 범위 (numerical spans)를 활용하는 Numca, 그리고 LLM의 은닉 상태 (hidden states)를 표현 (representation)으로 사용하여 서로 분리된 롤아웃 (rollouts)과 그 리턴 (return)의 가중 평균을 구하는 프레임워크인 Hista입니다. 광범위한 실험을 통해 두 방법 모두 상당한 계산 오버헤드 (computational overhead)를 발생시키지 않으면서, 다양한 RL 알고리즘과 모델 크기에 걸쳐 더 정확한 상태 가치 추정치를 생성하고 학습 성능을 향상시킨다는 것을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Hista 및 Numca: LLM 강화학습 (RL)을 위한 효과적인 상태 가치 (State Value) 추정

요약

핵심 포인트

댓글