UBP2: 효율적인 선호 기반 강화학습 (Preference-based Reinforcement Learning)을 위한 불확실성 균형 선호
요약
UBP2는 보상, 역학, 가치 함수의 불확실성을 공동으로 추론하여 탐색을 능동적으로 유도하는 모델 기반 선호 기반 강화학습 방법론입니다. 앙상블 모델을 통해 활용과 정보 획득 사이의 트레이드오프를 최적화하며, 기존 방식보다 높은 샘플 효율성을 증명했습니다.
핵심 포인트
- 보상, 역학, 가치 함수의 불확실성을 통합하여 능동적 탐색 유도
- 별도의 탐색 휴리스틱 없이 활용과 정보 획득 간의 트레이드오프 달성
- 유한 및 무한 지평 설정 모두에서 하선형 후회(sublinear regret) 보장
- Meta-World 벤치마크에서 기존 모델 프리 및 모델 기반 방식 대비 높은 효율성 입증
선호 기반 강화학습 (Preference-based RL)은 명시적인 보상 설계 (reward design)의 필요성을 우회하여, 행동의 쌍별 비교 (pairwise comparisons)를 통해 보상 모델 (reward models)을 학습하는 접근 방식을 제공합니다. 그러나 기존 방법들은 일반적으로 수동적인 데이터 수집에 의존하며, 특히 학습 초기 단계에서 샘플 효율성 (sample efficiency)이 떨어진다는 단점이 있습니다. 본 논문에서는 보상 (reward), 역학 (dynamics), 그리고 가치 함수 (value functions)의 불확실성 (uncertainties)을 공동으로 추론함으로써 탐색 (exploration)을 능동적으로 유도하는 모델 기반 (model-based) 접근 방식을 소개합니다. 우리의 방법인 불확실성 균형 선호 계획 (Uncertainty-Balanced Preference Planning, UBP2)은 보상, 역학, 가치 함수 모델의 앙상블 (ensembles)을 사용하여 기대 보상 (expected reward), 종단 가치 (terminal value), 그리고 인식론적 불확실성 (epistemic uncertainty)을 결합한 통합 점수에 따라 후보 궤적 (candidate trajectories)을 평가합니다. 이 목적 함수 하에서의 계획 (Planning)은 별도의 임시적인 탐색 휴리스틱 (ad hoc exploration heuristics) 없이도 활용 (exploitation)과 정보 획득 (information acquisition) 사이의 명시적인 트레이드오프 (tradeoff)를 생성합니다. 표준적인 정칙성 가정 (regularity assumptions) 하에서, 우리는 유한 지평 (finite-horizon) 및 무한 지평 (infinite-horizon) 설정 모두에 대해 하선형 후회 (sublinear regret) 보장을 확립합니다. 실증적으로, Meta-World 벤치마크에 대한 실험 결과 UBP2는 모델 프리 (model-free) 선호 기반 방법 및 비낙관적 (non-optimistic) 모델 기반 베이스라인보다 실질적으로 더 높은 샘플 효율성을 달성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기