Max-Min 기준을 이용한 제약 조건이 있는 다중 목적 강화학습 (Constrained Multi-Objective Reinforcement
요약
본 논문은 제약 조건이 포함된 다중 목적 강화학습(MORL)을 위한 새로운 Max-min 프레임워크를 제안합니다. 공정성을 증진하면서도 명시적인 제약 조건을 만족시키는 이론적 토대를 구축하고 다양한 시뮬레이션 환경에서 성능을 검증했습니다.
핵심 포인트
- Max-min 기준과 제약 조건 만족을 통합한 MORL 프레임워크 제안
- 알고리즘의 수렴 분석 및 테이블 설정에서의 실험적 검증 완료
- 건물 열 제어, 보행 제어, 교통 관리 등 다양한 도메인 적용 가능성 입증
- 다중 목적 의사결정 시 공정성과 제약 조건 간의 효과적인 균형 달성
다중 목적 강화학습 (Multi-Objective Reinforcement Learning, MORL)은 종종 상충하는 여러 목적에 대해 정책을 최적화함으로써 표준 강화학습 (RL)을 확장합니다. Max-min MORL은 공정성 (fairness)을 증진하기 위한 효과적인 접근 방식으로 등장했지만, 특히 제약 조건 (constraints)이 통합되어야 하는 경우 그 적용 가능성이 여전히 제한적입니다. 본 논문에서는 max-min 기준을 명시적인 제약 조건 만족과 통합하는 MORL 프레임워크를 제안합니다. 우리는 제안된 프레임워크에 대한 이론적 토대를 구축하고, 수렴 분석 (convergence analysis) 및 테이블 설정 (tabular settings)에서의 실험을 통해 결과 알고리즘을 검증합니다. 나아가 우리는 시뮬레이션된 건물 열 제어 (building thermal control), 다중 목적 보행 제어 (multi-objective locomotion control), 그리고 온실가스 배출을 고려한 교통 관리 (greenhouse-gas-emission-aware traffic management)에서의 실질적인 관련성을 입증합니다. 이러한 도메인 전반에서 우리의 방법은 다중 목적 의사결정에서 공정성과 제약 조건 만족 사이의 균형을 효과적으로 맞춥니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기