arXiv논문2026. 04. 29. 15:29

편향된 꿈: 잠재 공간 모델에서의 인식적 불확실성 정량화의 한계

요약

본 논문은 모델 기반 강화학습(MBRL)에서 잠재 역학 모델을 사용하여 인식적 불확실성(epistemic uncertainty)을 정량화하는 데 존재하는 근본적인 한계를 지적한다. 연구진은 실제 환경의 동역학이 잠재 공간 내 특정 영역으로 편향되는 '끌개 행동(attractor behavior)'을 보이며, 이로 인해 환경 역학의 불일치가 제대로 포착되지 않아 인식적 불확실성 추정의 신뢰성이 떨어진다는 것을 발견했다. 결과적으로, 모델은 실제보다 높은 예측 보상을 체계적으로 과대평가하는 경향이 있다.

핵심 포인트

모델 기반 강화학습(MBRL)에서 잠재 역학 모델을 사용하는 것은 일반적이지만, 인식적 불확실성 정량화는 물리적 시스템에 비해 미흡하다.
잠재 공간에서의 전이는 잘 표현된 영역으로 편향되는 '끌개 행동'을 보이며, 이는 실제 환경 동역학과의 괴리를 초래한다.
이러한 편향은 환경 역학의 불일치를 잠재 공간에서 감추어 인식적 불확실성 추정의 신뢰성을 훼손시킨다.
결과적으로, 모델 기반 예측(rollouts)은 실제보다 높은 보상을 체계적으로 과대평가하는 경향이 있다.

모델 기반 강화학습 (Model-Based Reinforcement Learning) 은 고유감각 입력 (proprioceptive inputs) 을 기반으로 작동하는 물리적 역학 모델과 고차원 이미지 관측치를 기반으로 작동하는 잠재 역학 모델 (latent dynamics models) 을 구별합니다. 잠재 공간에서 널리 사용되는 대표적인 접근법은 Dreamer 계열에서 사용된 재귀 상태 공간 모델 (Recurrent State Space Model) 입니다. 물리적 역학 모델에 있어 탐색을 안내하고 모델의 남용을 완화하기 위한 인식적 불확실성 정량화 (epistemic uncertainty quantification) 는 잘 확립되어 왔으나, 이를 잠재 역학 모델로 확장하는 것에 대해서는 제한적인 검토만 이루어져 왔습니다. 우리는 잠재 공간에서의 전이가 잠재 공간의 잘 표현된 영역으로 편향되어 있음을 경험적으로 보여주며, 이는 진정한 환경 역학에서 벗어날 수 있는 끌개 행동 (attractor behavior) 을 나타냅니다. 그 결과, 환경 역학의 불일치가 잠재 공간에서 드러나지 않아 인식적 불확실성 추정의 신뢰성이 훼손됩니다. 이러한 끌개는 종종 고보상 영역에 위치하므로, 잠재 공간에서의 롤아웃 (rollouts) 이 예측 보상을 체계적으로 과대평가합니다. 우리의 발견은 잠재 역학 모델에서의 인식적 불확실성 추정법의 주요 한계를 부각시키고, 이 방법론에 대한 더 비판적인 평가를 촉구합니다.

AI 자동 생성 콘텐츠

원문 바로가기

편향된 꿈: 잠재 공간 모델에서의 인식적 불확실성 정량화의 한계

요약

핵심 포인트

댓글