NASDAQ: 정규화된 관측 공간 역학 증강 Q-러닝
요약
NASDAQ은 관측 차원 간의 불균형한 재구성 손실 문제를 해결하기 위해 새로운 정규화 방법을 제안하는 강화학습 프레임워크입니다. 정규화된 관측 공간을 통해 저차원 및 고차원 입력을 통합 처리하며, 샘플 효율성과 성능을 동시에 향상시킵니다.
핵심 포인트
- 관측 차원 간 불균형한 재구성 손실 문제 식별
- 온라인 RL에 최적화된 새로운 관측 정규화 방법 제안
- 단기 가치 및 다음 정규화 관측 예측을 보조 작업으로 활용
- 기존 모델 기반 RL 대비 적은 훈련 시간으로 우수한 성능 달성
관측 역학 예측(observation-predictive RL)을 통해 학습된 표현(representation)으로 모델 프리 강화학습 (model-free RL)을 증강하는 것은 약간의 수정과 제한된 추가 연산만으로도 샘플 효율성(sample efficiency)과 성능을 향상시킬 수 있습니다. 그러나 이 접근 방식은 여전히 저차원 관측값(low-dimensional observations)을 가진 도전적인 과제에서는 어려움을 겪습니다. 본 논문에서는 이 문제의 핵심 요인을 식별합니다: 바로 관측 차원 간의 불균형한 재구성 손실(reconstruction losses)로, 값의 범위가 큰 차원이 손실을 지배하는 현상입니다. 이는 에이전트가 상대적으로 범위가 작은 차원을 무시하도록 유도하여 성능 저하를 초래합니다. 이 문제를 해결하기 위해, 우리는 온라인 RL에 맞춤화된 새로운 정규화(normalization) 방법을 제안하며, 이는 저차원 관측값을 정규화하고 결과적으로 발생하는 손실과 그래디언트(gradients)의 균형을 맞춥니다. 재구성 손실의 균형을 맞추는 것을 넘어, 관측 정규화는 역학 예측(dynamics prediction)이 정규화된 관측 공간에서 수행될 수 있도록 하여, 저차원 및 고차원 입력(예: 물리적 상태 및 이미지)에 대한 통합된 처리를 가능하게 합니다. 이 아이디어를 바탕으로, 우리는 다양한 도메인에 적용 가능한 관측 예측 RL 프레임워크인 NASDAQ (Normalized Observation Space Dynamics-Augmented Q-learning)을 추가로 소개합니다. NASDAQ은 가치 학습(value learning)을 두 가지 보조 작업(auxiliary tasks), 즉 단기 가치 예측(short-term value prediction) 및 다음 정규화된 관측 예측(next normalized observation prediction)과 결합함으로써 상태-행동 표현(state-action representations)을 학습합니다. 광범위한 실험을 통해 NASDAQ이 최신 모델 기반(model-based) 및 자기 예측(self-predictive) RL 방법들과 비교했을 때 훨씬 적은 훈련 시간(training wall-time)을 요구하면서도 경쟁력 있거나 우수한 성능을 달성함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기