시간적 일관성을 강화하는 동역학 사전(Dynamical Prior) 기반 강화학습
요약
기존 강화학습 (RL)은 보상 최대화에 초점을 맞춰 시간적으로 비일관적인 행동(예: 갑작스러운 신뢰도 변화, 진동 등)을 보이는 정책을 학습시킬 수 있습니다. 본 논문에서는 동역학 사전 (Dynamical Prior Reinforcement Learning, DP-RL)이라는 새로운 훈련 프레임워크를 제안합니다. 이는 보상 함수나 환경 구조를 변경하지 않으면서 외부 상태 역학에서 파생된 추가 손실(auxiliary loss)을 정책 경사 학습에 통합하여 행동 확률의 시간적 진화를 제어합니다. 실험 결과, DP-RL은 에이전트가 과제
핵심 포인트
- DP-RL 프레임워크는 보상 함수나 환경 구조 변경 없이 외부 상태 역학 기반 손실을 추가하여 정책 경사 학습에 통합한다.
- 본 접근법은 행동 확률의 시간적 진화를 제어하며, 증거 축적(evidence accumulation) 및 이력 현상(hysteresis)과 같은 메커니즘을 구현하는 데 중점을 둔다.
- DP-RL은 에이전트가 단순히 부드러워지는 것을 넘어, 과제에 특화된 시간 구조를 가진 결정 경로를 촉진함을 입증했다.
기존 강화학습 (Reinforcement Learning, RL)의 정책 최적화는 보상(reward) 극대화에만 초점을 맞추기 때문에, 행동이 시간에 따라 어떻게 진화해야 하는지에 대한 제약 조건은 상대적으로 부족합니다. 그 결과, 에이전트는 높은 성능을 달성하면서도 갑작스러운 신뢰도 변화(abrupt confidence shifts), 진동(oscillations), 또는 퇴행적인 비활동성(degenerate inactivity)과 같은 시간적으로 일관되지 않은 행동 양식을 보일 수 있습니다.
본 논문에서는 이러한 문제를 해결하기 위해 **동역학 사전 강화학습 (Dynamical Prior Reinforcement Learning, DP-RL)**이라는 새로운 훈련 프레임워크를 제안합니다. DP-RL은 기존의 정책 경사 학습(policy gradient learning)에 외부 상태 역학(external state dynamics)에서 파생된 보조 손실(auxiliary loss)을 추가하여 강화하는 방식입니다. 이 외부 상태 역학은 증거 축적(evidence accumulation) 및 이력 현상(hysteresis)과 같은 인지 메커니즘을 구현합니다.
가장 중요한 점은, DP-RL이 보상 함수, 환경 구조 또는 정책 아키텍처 자체를 수정할 필요가 없다는 것입니다. 단지 사전 손실(prior loss)을 추가함으로써 학습 과정 중 행동 확률의 시간적 진화(temporal evolution of action probabilities)를 효과적으로 형성합니다.
세 가지 최소 환경(minimal environments)에 걸친 실험 결과는, 동역학 사전을 적용하는 것이 결정 궤적(decision trajectories)을 과제 의존적인 방식으로 체계적으로 변화시킨다는 것을 보여줍니다. 이는 단순히 행동의 부드러움을 높이는 일반적인 평활화(generic smoothing)로는 설명할 수 없는, 시간적으로 구조화된 행동 양식을 촉진합니다.
이 연구 결과는 훈련 목표(training objectives)만으로도 RL 에이전트의 의사 결정 과정에 내재된 시간적 기하학(temporal geometry of decision-making)을 통제할 수 있음을 입증하는 중요한 진전을 의미합니다. 이는 단순히 '무엇'을 할지(최대 보상) 뿐만 아니라, '어떻게' 그 행동으로 도달할지(시간적 일관성)까지 제어할 수 있는 새로운 방향성을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기