본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 18. 11:42

보상 머신(Reward Machines)을 이용한 파레토 Q-러닝 (Pareto Q-Learning with Reward Machines)

요약

보상 머신(Reward Machines)을 활용하여 다중 목적 강화학습의 효율성을 높인 PQLRM 알고리즘을 제안합니다. 이 알고리즘은 파레토 프런트를 근사하는 PQL과 보상 구조를 활용하는 QRM을 결합하여 비마르코프적 환경에서도 높은 샘플 효율성을 보여줍니다.

핵심 포인트

  • PQL과 QRM을 결합한 새로운 다중 목적 강화학습 알고리즘 PQLRM 제안
  • 비마르코프적 보상 구조에서도 높은 샘플 효율성 유지
  • 기존 PQL 베이스라인 대비 빠른 수렴 속도 입증
  • QRM이 생성하지 못하는 파레토 최적 정책 합성 가능

우리는 보상 머신 (Reward Machines, RMs) 세트에 의해 보상 구조가 지정되는 작업들을 위한 다중 목적 강화학습 (multi-objective reinforcement learning) 알고리즘인 Pareto Q-Learning with Reward Machines (PQLRM)을 제시합니다. PQLRM은 파레토 프런트 (Pareto front)를 근사하기 위해 벡터 값 Q-추정치 (vector-valued Q-estimates) 세트를 유지하는 Pareto Q-Learning (PQL)과, 보상 신호의 인수분해된 오토마타 (factored automaton) 구조를 활용하는 Reward Machines를 이용한 Q-Learning (QRM)의 개선 사항을 결합합니다. 이를 통해 비마르코프 (non-Markovian)적인 RM 인코딩 보상 하에서도 샘플 효율성 (sample-efficient)을 유지하는 다중 정책 (multi-policy) 알고리즘을 구현합니다. 실험 결과, PQLRM은 크로스 프로덕트 MDP (cross-product MDP)에 적용된 단순한 PQL 베이스라인보다 더 빠르게 수렴하며, QRM이 생성할 수 없는 파레토 최적 (Pareto-optimal) 정책을 합성할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0