arXiv논문2026. 06. 01. 11:01

부분 관측 강화학습 (Partially Observable Reinforcement Learning)에서 선형 순환 메모리 (Linear

요약

부분 관측 강화학습(PORL) 환경에서 선형 순환 신경망(LRNN)의 성능을 이론적으로 분석한 연구입니다. 두 가지 선형 필터가 은닉 마르코프 모델(HMM)의 신념 벡터를 재현하고 상태 모호성을 줄이는 메커니즘을 규명했습니다.

핵심 포인트

선형 필터가 HMM의 신념 벡터를 정확히 재현함을 이론적으로 입증
상태 디코딩 오차를 소멸시켜 상태 모호성을 최소화하는 필터 제안
행동 제어형 HMM으로의 확장 및 시변 특성 분석
강화학습 게임에서 강력한 특징 추출기로서의 성능 확인

선형 순환 신경망 (Linear Recurrent Neural Networks) 제품군은 부분 관측 강화학습 (Partially Observable Reinforcement Learning)에서 순환 메모리 유닛 (Recurrent Memory Units)으로서 강력한 성능을 보여주었습니다. 본 연구에서는 두 가지 선형 필터 (Linear Filters)를 구축하고 연구함으로써 이들의 경험적 효과에 대한 이론적 근거를 제공합니다: (i) 첫 번째 필터는 결정론적 전이 행렬 (Deterministic Transition Matrix) 하의 은닉 마르코프 모델 (Hidden Markov Model, HMM)에서 신념 벡터 (Belief Vector)의 소프트맥스 전 로짓 (Pre-softmax Logits)을 정확하게 재현하며, 이를 통해 최적 정책 학습 (Optimal Policy Learning)을 위한 충분 통계량 (Sufficient Statistic) 역할을 수행합니다. (ii) 두 번째 필터는 거의 결정론적인 전이 행렬 하에서 상태 디코딩 오차 (State-decoding Error)를 소멸시켜, 상태 모호성 (State Ambiguity)을 거의 제로에 가깝게 줄입니다. 이러한 결과는 행동 제어형 HMM (Action-controlled HMMs)으로 확장되며, 여기서 대응하는 선형 필터는 행동 의존적 역학 (Action-dependent Dynamics)에 따라 시변 (Time-varying) 특성을 갖게 됩니다. 우리는 수치 실험을 통해 주요 결과를 입증하며, 구축된 선형 필터가 작은 강화학습 게임에서 강력한 특징 추출기 (Feature Extractor) 역할을 한다는 것을 추가로 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

부분 관측 강화학습 (Partially Observable Reinforcement Learning)에서 선형 순환 메모리 (Linear

요약

핵심 포인트

댓글