arXiv논문2026. 06. 18. 11:42

보상 머신(Reward Machines)을 이용한 파레토 Q-러닝 (Pareto Q-Learning with Reward Machines)

요약

보상 머신(Reward Machines)을 활용하여 다중 목적 강화학습의 효율성을 높인 PQLRM 알고리즘을 제안합니다. 이 알고리즘은 파레토 프런트를 근사하는 PQL과 보상 구조를 활용하는 QRM을 결합하여 비마르코프적 환경에서도 높은 샘플 효율성을 보여줍니다.

핵심 포인트

PQL과 QRM을 결합한 새로운 다중 목적 강화학습 알고리즘 PQLRM 제안
비마르코프적 보상 구조에서도 높은 샘플 효율성 유지
기존 PQL 베이스라인 대비 빠른 수렴 속도 입증
QRM이 생성하지 못하는 파레토 최적 정책 합성 가능

우리는 보상 머신 (Reward Machines, RMs) 세트에 의해 보상 구조가 지정되는 작업들을 위한 다중 목적 강화학습 (multi-objective reinforcement learning) 알고리즘인 Pareto Q-Learning with Reward Machines (PQLRM)을 제시합니다. PQLRM은 파레토 프런트 (Pareto front)를 근사하기 위해 벡터 값 Q-추정치 (vector-valued Q-estimates) 세트를 유지하는 Pareto Q-Learning (PQL)과, 보상 신호의 인수분해된 오토마타 (factored automaton) 구조를 활용하는 Reward Machines를 이용한 Q-Learning (QRM)의 개선 사항을 결합합니다. 이를 통해 비마르코프 (non-Markovian)적인 RM 인코딩 보상 하에서도 샘플 효율성 (sample-efficient)을 유지하는 다중 정책 (multi-policy) 알고리즘을 구현합니다. 실험 결과, PQLRM은 크로스 프로덕트 MDP (cross-product MDP)에 적용된 단순한 PQL 베이스라인보다 더 빠르게 수렴하며, QRM이 생성할 수 없는 파레토 최적 (Pareto-optimal) 정책을 합성할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

보상 머신(Reward Machines)을 이용한 파레토 Q-러닝 (Pareto Q-Learning with Reward Machines)

요약

핵심 포인트

댓글