에피소드 기반 선호 피드백으로부터의 커널 기반 MDP 학습
요약
에피소드형 커널 MDP 환경에서 선호도 피드백만을 이용한 강화학습의 이론적 연구를 다룹니다. Bradley-Terry-Luce 모델을 기반으로 선호 기반 가치 추정 및 신뢰 집합을 개발하고, 최적 정책으로의 수렴을 증명하는 후회 경계(regret bounds)를 제시합니다.
핵심 포인트
- 에피소드형 커널 MDP에서의 선호도 전용 학습 이론 제시
- Bradley-Terry-Luce 모델을 통한 궤적 선호도 모델링
- 선호 기반 가치 추정 및 신뢰 집합 개발
- 에피소드 수에 따른 서브리니어(sublinearly) 후회 경계 증명
인간의 피드백은 종종 보정된 수치적 보상 (numeric rewards)보다는 선호도 (preferences)의 형태로 제공되며, 이는 선호 피드백으로부터의 강화학습 (reinforcement learning from preferential feedback), 즉 인간 피드백으로부터의 강화학습 (RLHF)을 촉진합니다. 본 논문에서는 에피소드형 커널 MDP (episodic kernel MDPs)에서의 선호도 전용 학습 (preference-only learning)에 대한 엄밀한 이론적 연구를 제시합니다. 각 에피소드에서 학습자는 공통된 시작 상태로부터 두 개의 정책 (policies)을 실행하며, 누적된 (관찰되지 않은) 보상의 차이에 대한 Bradley--Terry--Luce 링크로 모델링된, 어떤 궤적 (trajectory)이 선호되는지를 나타내는 단일 이진 레이블 (binary label)을 받습니다. 보상 함수 (reward function)와 전이 함수 (transition function)에 대한 커널 기반 가정 (이론적 분석이 가능한 가장 일반적인 모델 중 하나) 하에, 우리는 에피소드 종료 시점의 비교에 맞춤화된 선호 기반 가치 추정 (preference-based value estimation) 및 신뢰 집합 (confidence sets)을 개발합니다. 우리는 에피소드 수에 따라 서브리니어 (sublinearly)하게 확장되는 높은 확률의 후회 경계 (high-probability regret bounds)를 증명하며, 이는 학습된 정책의 가치가 최적 정책 (optimal policy)의 가치로 수렴함을 의미합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기