arXiv논문2026. 05. 25. 16:47

순차적 강화학습 (Sequential Reinforcement Learning)에서의 목표 일반화 이해

요약

순차적 강화학습 에이전트가 새로운 환경에서 어떻게 목표를 일반화하는지 분석한 연구입니다. 100개 이상의 훈련 파이프라인을 통해 특징적 요소가 일반화를 주도함을 밝히고, 잠재 정책 경사(latent policy gradients) 방법론을 통해 분포 외 행동을 예측합니다.

핵심 포인트

순차적 훈련 과정이 에이전트의 목표 일반화에 미치는 영향 분석
훈련 초기 단계의 목표가 이후 학습된 목표에 영향을 미침을 발견
잠재 정책 경사를 통한 분포 외(OOD) 행동 예측 방법론 도입
훈련 파이프라인과 에이전트 행동 사이의 기저 구조 입증

강화학습 (Reinforcement learning) 에이전트는 종종 훈련 분포 (training distribution) 외부에서 의도하지 않은 목표 지향적 행동을 보이지만, 현재로서는 이러한 에이전트가 훈련 이력에 기반하여 새로운 환경에 어떻게 일반화 (generalise) 될지에 대한 원칙적인 이해가 부족합니다. 본 연구에서는 하나 이상의 작업에 대해 순차적으로 훈련된 에이전트들을 대상으로 이러한 공백을 다룹니다. 우리는 100개 이상의 순차적 훈련 파이프라인 (training pipelines)을 연구하며, 250개 이상의 분포 외 (out-of-distribution) 환경에서 행동을 평가합니다. 우리는 두드러진 특징 (salient features)이 일반화를 주도하며, 훈련 초기 단계에서 학습된 목표가 지속되어 나중에 습득된 목표에 영향을 미칠 수 있음을 발견했습니다. 이러한 현상을 설명하기 위해, 우리는 특정 훈련 파이프라인이 어떤 분포 외 행동을 유도할 가능성이 높은지 예측하는 방법론인 잠재 정책 경사 (latent policy gradients)를 도입합니다. 우리의 방법은 잠재 변수 (latent variables)가 행동으로 매핑되는 방식에 대한 단순한 모델을 바탕으로, 훈련 목적 함수 (training objective)에서 높은 보상을 달성할 수 있는 방향에 따라 훈련 중 저차원 잠재 변수의 진화를 시뮬레이션합니다. 이 방법은 강력한 예측 정확도를 달성하며, 보지 못한 유형의 훈련 파이프라인에도 일반화가 가능하고 해석 가능합니다. 우리의 연구 결과는 분포 외 강화학습 (RL) 에이전트의 행동이 전체 훈련 파이프라인에 의존하지만, 이 의존성에는 우리가 포착할 수 있는 기저 구조가 있음을 입증하며, 발달적 관점 (developmental perspective)에서 목표 일반화를 이해하기 위한 토대를 마련합니다.

AI 자동 생성 콘텐츠

원문 바로가기

순차적 강화학습 (Sequential Reinforcement Learning)에서의 목표 일반화 이해

요약

핵심 포인트

댓글