arXiv논문2026. 05. 13. 19:11

배치에 신뢰를 두다, 온-폴리시 또는 오프-폴리시: RL 후 훈련을 위한 적응형 정책 최적화

요약

강화학습(RL)은 데이터 분포 자체를 변경하기 때문에 지도학습보다 구조적으로 취약하며, 특히 훈련 시스템과 구동 시스템 간의 차이로 인해 대규모 모델 훈련 시 문제가 발생한다. 기존 방법들은 하이퍼파라미터를 통해 이 취약성을 관리하지만, 이는 알고리즘을 설정값에 민감하게 만든다. 본 논문은 정책 비율 분포를 기반으로 하는 간단하고 효과적인 배치 적응형 목적 함수를 제안하여, 신뢰 영역 및 오프-폴리시 정규화의 문제를 해결한다.

핵심 포인트

RL의 구조적 취약성은 훈련 시스템과 구동 시스템 간의 차이에서 비롯된다.
기존 방법들은 하이퍼파라미터에 의존하여 알고리즘을 설정값에 민감하게 만든다.
제안된 목적 함수는 정책 비율 분포를 사용하여 신뢰 영역 및 오프-폴리시 정규화 문제를 해결한다.
새로운 하이퍼파라미터를 도입하지 않고도 기존의 여러 하이퍼파라미터들을 제거할 수 있다.

강화학습(Reinforcement learning)은 정책이 학습하는 데이터 분포 자체를 변경하기 때문에 지도학습(supervised learning)보다 구조적으로 더 어렵습니다. 그 결과 발생하는 취약성은 특히 대규모 모델 훈련에서 두드러지게 나타나는데, 여기서는 훈련 시스템과 구동(rollout) 시스템이 수치 정밀도, 샘플링, 기타 구현 세부 사항에서 차이를 보이기 때문입니다. 기존 방법들은 학습 목적 함수에 하이퍼파라미터를 추가하여 이러한 취약성을 관리합니다. 이는 알고리즘을 설정값에 더 민감하게 만들고, 작업(task), 모델 규모(model scale) 또는 분포 불일치(distribution mismatch)가 변경될 때마다 재조정이 필요하게 만듭니다. 이러한 취약성은 현재 목적 함수들이 훈련 시작 전에 설정되는 하이퍼파라미터들을 통해 얽혀 있는 두 가지 문제에서 비롯됩니다: 업데이트가 정책을 현재 값에서 너무 멀리 이동시키지 않아야 한다는 신뢰 영역(trust-region)에 대한 우려와, 오래되거나 다른 행동 정책(behavior policy)의 데이터가 신뢰할 수 있는 범위 내에서만 업데이트에 영향을 미쳐야 한다는 오프-폴리시(off-policy)에 대한 우려입니다. 이 두 가지 우려는 사전에 고정된 상수가 아니며, 그 심각성은 현재 배치(batch)의 정책 비율 분포(policy-ratio distribution)에 반영됩니다. 우리는 고정된 클리핑을 정책 비율의 정규화된 유효 샘플 크기(normalized effective sample size)로 대체하는 간단하지만 효과적인 배치 적응형 목적 함수를 제시합니다. 동일한 통계량이 스코어 함수 가중치(score-function weight)를 제한하고 오프-폴리시 정규화기(off-policy regularizer)의 강도를 설정하므로, 비율이 거의 균일할 때는 업데이트가 일반적인 온-폴리시 스코어 함수 업데이트에 가깝게 유지되며, 오래되었거나 불일치한 데이터로 인해 비율이 집중될 때는 자동으로 강화되고, 높은 비율을 가진 토큰에서도 0이 아닌 학습 신호를 유지합니다. 광범위한 설정에서 수행된 실험들은 우리의 방법이 조정된 베이스라인과 일치하거나 능가함을 보여주며, 새로운 목적 함수 하이퍼파라미터를 도입하지 않고 여러 기존의 하이퍼파라미터들을 제거했습니다. 코드는 https://github.com/FeynRL-project/FeynRL에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

배치에 신뢰를 두다, 온-폴리시 또는 오프-폴리시: RL 후 훈련을 위한 적응형 정책 최적화

요약

핵심 포인트

댓글