본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 12:48

에이전시 전이형 모델 프리 정책 강화 기법

요약

기존의 베이스라인 정책을 강화학습 과정에 임베딩하여 학습 효율성과 성능을 동시에 개선하는 새로운 기법을 제안합니다. 초기에는 베이스라인에 의존하다가 점진적으로 에이전시를 학습 정책으로 전이하여, 최종적으로는 독립적인 고성능 신경망을 생성합니다.

핵심 포인트

  • 베이스라인 정책 활용을 통한 학습 비용 및 계산량 절감
  • 학습 초기부터 높은 목표 도달률을 유지하는 중재 메커니즘
  • 독립적 학습 정책의 목표 도달 확률에 대한 이론적 하한선 도출
  • 연속 제어 벤치마크에서 기존 방식 대비 우수한 성능 입증

강화학습 (RL) 정책을 처음부터 학습시키는 것은 비용이 많이 듭니다. 이는 세심한 보상 및 환경 설계, 광범위한 튜닝, 그리고 상당한 계산량을 요구합니다. 하지만 많은 제어 문제에는 이미 기능적이지만 최적은 아닌 베이스라인 (baseline) 정책이 존재합니다. 본 논문은 이러한 베이스라인을 RL 학습 과정에 임베딩하여, 처음부터 학습하는 방식에 비해 학습 효율성을 동시에 개선하고 베이스라인보다 성능이 뛰어난 학습 정책을 생성하는 방법을 제안합니다. 각 단계에서 이 방법은 베이스라인 정책과 학습 가능한 학습 정책 사이를 중재하며, 초기에는 베이스라인 정책에 강하게 의존하다가 점진적으로 에이전시 (agency)를 학습 정책으로 전이합니다. 학습이 끝날 때쯤 학습 정책은 베이스라인 정책의 지원 없이 작동하는 독립적인 신경망 (neural network)이 됩니다. 본 논문은 베이스라인 정책이 기능적이라는 것이 무엇을 의미하는지 공식화합니다. 즉, 이 정책 하에서 에이전트가 목표 집합에 도달하고 높은 확률로 그곳에 머무는 것을 의미합니다. 제안된 중재 메커니즘은 학습 과정에서 이러한 특성을 활용하도록 설계되어, 학습 시작 단계부터 높은 목표 도달률을 산출합니다. 이론적 분석은 명시된 가정 하에서 이러한 동작에 대한 공식적인 해석을 제공하며, 이를 베이스라인이 없는 최종 단계로 확장하여 독립적인 학습 정책의 목표 도달 확률에 대한 명시적인 하한선 (lower bounds)을 도출합니다. 연속 제어 (continuous-control) 벤치마크에 대한 실험 결과에 따르면, 제안된 방법은 경쟁적인 접근 방식들과 대등하거나 이를 능가하는 리턴 (returns)을 달성하는 동시에, 학습 정책이 베이스라인의 지원 없이 작동하는 최종 단계까지 포함하여 비교된 방법들 중 학습 전 과정에서 가장 높은 목표 도달률을 유지함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0