RHyVE: 강화학습용 LLM 생성 보상 가설에 대한 능력 기반 검증 및 학습 단계별 배포
요약
본 논문은 LLM이 생성한 보상이 단순히 신뢰할 수 있는 학습 목표가 아님을 지적하며, 생성된 보상을 현재 정책의 능력과 학습 단계에 따라 유용성이 달라지는 '보상 가설'로 간주합니다. 이를 해결하기 위해, 소규모 보상 가설 집합을 짧은 시간 동안 검증하고 비교하는 능력 기반 및 학습 단계별 배포 프로토콜인 RHyVE를 제안했습니다. 실험 결과, 낮은 능력 수준에서는 보상 순위가 불안정하지만 특정 임계값 이후에는 유용성이 있으며, RHyVE는 희소 조작 작업에서 정점 성능과 유지 성능을 개선하는 것으로 나타났습니다.
핵심 포인트
- LLM 생성 보상은 그 자체로 신뢰할 수 있는 학습 목표가 아니므로, 검증 및 배포 시점이 중요합니다.
- RHyVE(Robust Hypothesis Verification and Deployment)는 정책의 현재 능력과 학습 단계에 따라 여러 보상 가설을 비교하고 최적의 보상을 선택하는 프로토콜입니다.
- 보상 순위의 신뢰성은 정책의 능력 수준에 의존하며, 특정 임계값 이후에 유의미한 정보량을 갖습니다.
- 단순히 LLM이 생성한 보상 풀 전체를 사용하는 것보다, 검증 기반의 단계별 배포(예: 홀드아웃 스케줄 선택)가 성능 향상에 더 효과적입니다.
대형 언어 모델 (LLMs) 은 강화학습에서의 보상 설계 (reward design) 를 현저히 확장 가능하게 만들지만, 생성된 보상이 자동으로 신뢰할 수 있는 학습 목표가 되는 것은 아닙니다. 기존 연구는 주로 보상 후보를 생성하거나 진화시키거나 선택하는 데 초점을 맞추었으며, 정책 최적화 (policy optimization) 도중 이러한 후보를 검증하고 배포할 때기를 덜 고려했습니다. 우리는 생성된 보상을 현재 정책의 능력 (competence) 과 학습 단계 (phase) 에 따라 그 유용성이 달라지는 보상 가설 (reward hypotheses) 로 간주함으로써 이 배포 시점의 문제를 연구합니다. 우리는 공유된 정책 체크포인트에서 소규모의 보상 가설 집합을 짧은 수평 분기 검증 (short-horizon fork verification) 을 사용하여 비교하는 능력 기반 검증 및 학습 단계별 배포 프로토콜인 \textsc{RHyVE} 를 제안합니다. 우리의 실험 결과에 따르면, 낮은 능력 수준에서는 보상 순위 (reward rankings) 가 신뢰할 수 없으나 작업 의존적 임계값 이후에는 정보량이 있습니다. 희소 조작 작업 (sparse manipulation task) 에서 단계별 배포는 잠금된 프로토콜 하에서 정점 성능과 유지 성능을 개선합니다. 업데이트된 LLM 생성 보상 후보 실험은 후보 집합에 따른 행동 (candidate-family-dependent behavior) 을 보여줍니다: 생성된 풀은 학습 단계에 따른 승자 변경을 나타낼 수 있으나, 고정된 워밍업 스케줄이 보편적으로 최적은 아닙니다. 홀드아웃 스케줄 선택, 보수적 선택기 베이스라인, 컴퓨트 매칭 컨트롤, 그리고 스케일 컨트롤은 추가로 \textsc{RHyVE} 를 보편적인 스케줄러가 아니라 검증에 기반한 배포 프로토콜로 가장 잘 이해해야 함을 보여줍니다. 밀집 및 전 실패 경계 실험은 이 방법의 범위를 한정합니다. 이러한 결과들은 보상 생성과 보상 배포를 결합된 문제로 연구해야 함을 시사합니다: 생성된 보상은 변화하는 정책 능력 하에서 검증되고 배포되어야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기