다목적 강화학습에 대한 보상무관 관점
요약
본 논문은 다목적 강화학습(MORL) 문제를 해결하기 위해 보상무관 강화학습(RFRL)을 활용하는 새로운 알고리즘적 관점을 제시합니다. 기존 MORL 접근법이 가중치 기반의 단일 정책 학습에 의존했던 것과 달리, RFRL은 모든 가능한 보상 함수에 대해 최적의 정책을 학습할 수 있어 미지의 사용자 선호도 처리에 자연스럽게 적합합니다. 연구진은 RFRL의 학습 목표를 MORL에 통합하여 지식 공유를 극대화하고, 환경 관련 부분에 집중하는 탐색 전략을 도입함으로써 기존 방법들보다 우수한 성능과 데이터 효율성을 달성했음을 입증했습니다.
핵심 포인트
- MORL 문제를 해결하기 위해 보상무관 강화학습(RFRL)을 활용하는 새로운 프레임워크를 제안함.
- RFRL은 모든 가능한 보상 함수에 대해 최적 정책을 학습하므로, 미지의 사용자 선호도 처리에 매우 효과적임.
- 제안된 방법은 RFRL의 학습 목표를 MORL에 통합하여 지식 공유를 개선하고 성능을 향상시킴.
- 선호도 유도 탐색 전략(preference-guided exploration strategy)을 도입하여 환경 관련 부분에 학습을 집중시킴.
- 다양한 MO-Gymnasium 작업에서 기존 최첨단 MORL 방법들보다 우수한 성능과 데이터 효율성을 입증함.
많은 순차적 의사결정 작업은 여러 가지 상충되는 목표를 최적화하는 것을 포함하며, 이를 위해 다양한 사용자 선호도에 적응할 수 있는 정책을 요구합니다. 다목적 강화학습 (Multi-Objective Reinforcement Learning, MORL) 에서 널리 연구된 접근법 중 하나는 선호도 가중치 보상에 조건부인 단일 정책 네트워크를 학습시키는 것입니다. 본 논문에서는 새로운 알고리즘적 관점을 탐구합니다: 다목적 강화학습 (MORL) 을 위해 보상무관 강화학습 (Reward-Free Reinforcement Learning, RFRL) 을 활용하는 것입니다. 역사적으로 RFRL 은 MORL 과 독립적으로 연구되어 왔지만, RFRL 은 가능한 모든 보상 함수에 대해 최적의 정책을 학습하므로, MORL 의 미지의 사용자 선호도를 처리하는 도전과제에 자연스럽게 적합합니다. 우리는 RFRL 의 학습 목표를 보조 작업으로 사용하여 MORL 을 향상시키고, 훈련 시점에 주어진 다목적 보상 함수를 넘어 더 효과적인 지식 공유를 가능하게 하도록 제안합니다. 이를 위해 최첨단 RFRL 알고리즘을 MORL 설정에 맞게 수정하고, 환경의 관련 부분에 학습을 집중하는 선호도 유도 탐색 전략 (preference-guided exploration strategy) 을 도입했습니다. 광범위한 실험과 아블레이션 연구를 통해 우리의 접근법이 다양한 MO-Gymnasium 작업에서 최첨단 MORL 방법들을 크게 능가하며, 우수한 성능과 데이터 효율성을 달성함을 입증합니다. 이 연구는 RFRL 을 MORL 에 적용한 최초의 체계적인 시도로서, 다목적 정책 학습에 대한 확장 가능하고 경험적으로 효과적인 해결책으로서 그 잠재력을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기