arXiv논문2026. 06. 17. 12:36

다중 목적 강화학습 (MORL)에서의 공정한 파레토 최적 정책 학습

요약

다중 목적 강화학습(MORL)에서 다양한 사용자 선호도에 대응하면서도 공정성을 보장하는 파레토 최적 정책 세트 학습 방법을 제안합니다. GGF와 같은 복지 함수를 활용하여 동적인 환경에서도 형평성을 유지하는 새로운 알고리즘들을 소개합니다.

핵심 포인트

모든 사용자 선호도에 대해 공정성을 보장하는 파레토 최적 정책 세트 학습 공식화
볼록 커버리지 세트(CCS)를 통한 공정한 정책의 근사 파레토 프런트 증명
비정상성 및 확률적 정책을 통한 과거 불평등에 대한 동적 적응력 입증
GGF를 통합한 새로운 다중 정책 MOQL 알고리즘 3종 제안

공정성 (Fairness)은 다중 목적 강화학습 (Multi-Objective Reinforcement Learning, MORL)의 의사결정에서 중요한 측면이며, 여기서 정책은 잠재적으로 상충할 수 있는 여러 목적에 대해 최적성 (Optimality)과 형평성 (Equity)을 모두 보장해야 합니다. 단일 정책 MORL 방법론은 일반화된 지니 복지 함수 (Generalized Gini Welfare Function, GGF)와 같은 복지 함수를 사용하여 고정된 사용자 선호도에 대해 공정한 정책을 학습할 수 있지만, 동적이거나 알 수 없는 사용자 선호도에 필요한 다양한 정책 세트를 제공하는 데는 실패합니다. 이러한 한계를 해결하기 위해, 우리는 모든 가능한 사용자 선호도에 대해 공정성을 보장하는 파레토 최적 (Pareto-optimal) 정책 세트를 학습하는 것을 목표로 하는 다중 정책 MORL에서의 공정 최적화 문제를 공식화합니다. 우리의 주요 기술적 기여는 세 가지입니다: (1) 오목한 (Concave) 조각별 선형 (Piecewise-linear) 복지 함수(예: GGF)의 경우, 공정한 정책이 선형 스칼라화 (Linear scalarization)를 위한 근사 파레토 프런트 (Pareto front)인 볼록 커버리지 세트 (Convex Coverage Set, CCS) 내에 유지됨을 보여줍니다. (2) 누적된 보상 이력 (Accrued reward histories)으로 증강된 비정상성 (Non-stationary) 정책과 확률적 (Stochastic) 정책이 과거의 불평등에 동적으로 적응함으로써 공정성을 개선함을 입증합니다. (3) GGF를 다중 정책 다중 목적 Q-Learning (Multi-policy Multi-objective Q-Learning, MOQL)과 통합하는 방법, 비정상성 정책 학습을 위한 상태 증강 (State-augmented) 다중 정책 MOQL, 그리고 확률적 정책 학습을 위한 새로운 확장형을 포함하는 세 가지의 새로운 알고리즘을 제안합니다. 우리는 다양한 도메인에서 우리의 알고리즘을 평가하고 최신 MORL 베이스라인들과 비교합니다. 실험 결과는 우리의 방법론이 서로 다른 사용자 선호도를 수용하는 공정한 정책 세트를 학습함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

다중 목적 강화학습 (MORL)에서의 공정한 파레토 최적 정책 학습

요약

핵심 포인트

댓글