보상 머신(Reward Machines)을 이용한 파레토 Q-러닝 (Pareto Q-Learning with Reward Machines)
요약
보상 머신(Reward Machines)을 활용하여 다중 목적 강화학습의 효율성을 높인 PQLRM 알고리즘을 제안합니다. 이 알고리즘은 파레토 프런트를 근사하는 PQL과 보상 구조를 활용하는 QRM을 결합하여 비마르코프적 환경에서도 높은 샘플 효율성을 보여줍니다.
핵심 포인트
- PQL과 QRM을 결합한 새로운 다중 목적 강화학습 알고리즘 PQLRM 제안
- 비마르코프적 보상 구조에서도 높은 샘플 효율성 유지
- 기존 PQL 베이스라인 대비 빠른 수렴 속도 입증
- QRM이 생성하지 못하는 파레토 최적 정책 합성 가능
우리는 보상 머신 (Reward Machines, RMs) 세트에 의해 보상 구조가 지정되는 작업들을 위한 다중 목적 강화학습 (multi-objective reinforcement learning) 알고리즘인 Pareto Q-Learning with Reward Machines (PQLRM)을 제시합니다. PQLRM은 파레토 프런트 (Pareto front)를 근사하기 위해 벡터 값 Q-추정치 (vector-valued Q-estimates) 세트를 유지하는 Pareto Q-Learning (PQL)과, 보상 신호의 인수분해된 오토마타 (factored automaton) 구조를 활용하는 Reward Machines를 이용한 Q-Learning (QRM)의 개선 사항을 결합합니다. 이를 통해 비마르코프 (non-Markovian)적인 RM 인코딩 보상 하에서도 샘플 효율성 (sample-efficient)을 유지하는 다중 정책 (multi-policy) 알고리즘을 구현합니다. 실험 결과, PQLRM은 크로스 프로덕트 MDP (cross-product MDP)에 적용된 단순한 PQL 베이스라인보다 더 빠르게 수렴하며, QRM이 생성할 수 없는 파레토 최적 (Pareto-optimal) 정책을 합성할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기