오프라인 목표 조건부 강화학습 (Goal-Conditioned Reinforcement Learning)을 위한 추상화 (Abstraction)
요약
오프라인 목표 조건부 강화학습(GCRL)에서 상태-목표 쌍의 중복성을 해결하기 위해 절대적 추상화를 활용하는 연구입니다. 상대화된 옵션과 계층별 별도 표현법을 도입하여 에이전트의 경험 재사용 능력을 높이는 프레임워크를 제안합니다.
핵심 포인트
- 상태-목표 쌍의 중복성을 해결하기 위한 절대적 추상화 입증
- 상대화된 옵션 및 계층별 별도 표현법 도입
- 오프라인 GCRL 성능 향상을 위한 두 가지 알고리즘 제안
- 귀납적 편향을 통한 에이전트의 경험 재사용 최적화
마르코프 결정 과정 (Markov Decision Processes, MDPs)은 실제 환경의 목표 조건부 강화학습 (Goal-Conditioned Reinforcement Learning, GCRL)에서 상태-목표 쌍 (state-goal pairs) 간의 대칭성 및 공유된 구조로 인해 종종 상당한 중복성을 나타냅니다. 오프라인 GCRL에서 시간적 추상화 (temporal abstraction)를 통한 호라이즌 (horizon) 감소를 위해 계층적 정책 (hierarchical policies)이 동기 부여되어 왔으나, 본 연구에서는 계층 구조가 절대적 추상화 (absolute abstraction) 또한 가능하게 함을 입증합니다. 상대화된 옵션 (relativised options)과 계층의 서로 다른 수준을 위한 별도의 표현법 (representations)을 도입함으로써, 에이전트가 상태 공간 (state-space)의 유사한 문맥 (contexts) 전반에서 경험을 어떻게 재사용할 수 있는지 보여줍니다. 이 프레임워크를 기반으로, 우리는 상대화된 옵션을 학습하고 절대적 기준 틀 (absolute frame of reference)로부터 추상화하기 위한 두 가지 간단한 알고리즘을 소개합니다. 실험 결과, 이러한 귀납적 편향 (inductive biases)이 오프라인 GCRL의 성능을 유의미하게 향상시킨다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기