arXiv논문2026. 06. 15. 08:19

공간 샘플링 가치 감쇠 (Space-sampled Value Decay): 비정상적 심층 강화학습 (Non-stationary Deep

요약

환경의 변화(drift)에 적응하기 위해 명시적 망각 메커니즘을 도입한 'Space-sampled Value Decay' 연구를 소개합니다. DQN과 SAC 아키텍처에 적용하여 비정상적 환경에서의 성능 향상과 한계점을 분석했습니다.

핵심 포인트

환경 변화에 대응하는 명시적 망각 메커니즘 개발
Space-sampled Value Decay 기법 제안
DQN 및 SAC 모델에 적용하여 수익성 개선 확인
비정상적 강화학습(NSRL) 환경에서의 한계점 논의

생쥐와 같은 설치류에 대한 연구는 변화에 대한 정보가 제공되지 않더라도 (불확실성), 환경의 변화하는 파라미터("drift")를 다룰 때 행동을 적응시키는 능력을 보여주었습니다. 이는 망각 메커니즘 (forgetting mechanisms)으로 모델링할 수 있는 행동입니다. 비정상적 강화학습 (Non-stationary Reinforcement Learning (NSRL))은 변화하는 환경에 대처하기 위해 최첨단 강화학습 (RL) 방법론을 적응시키는 문제를 다룹니다. 그러나 이러한 방법들은 대개 "태스크 ID (task IDs)"나 "컨텍스트 (context)"와 같이 drift에 대한 (부분적으로) 완벽한 정보를 필요로 합니다. drift의 영향을 완화하기 위해, 본 연구는 단순하면서도 효과적인 접근 방식으로서 가치 기반 심층 강화학습 (value-based deep RL) 아키텍처를 위한 명시적 망각 메커니즘인 extit{Space-sampled Value Decay}를 개발합니다. 특히, 우리는 비정상적 환경에서 평가되었을 때 Deep Q-networks (DQN) 및 Soft Actor-Critic (SAC)의 수정 사항이 달성한 수익 (returns) 측면에서의 긍정적인 효과뿐만 아니라 한계점도 입증하고 논의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

공간 샘플링 가치 감쇠 (Space-sampled Value Decay): 비정상적 심층 강화학습 (Non-stationary Deep

요약

핵심 포인트

댓글