arXiv논문2026. 06. 10. 10:33

선형 Q-Learning을 위한 기하 평균 하드 타겟 업데이트

요약

심층 Q-러닝의 안정성을 높이는 하드 타겟 업데이트를 개선하기 위해 $\lambda$-기하 평균 방식을 제안합니다. 이 방식은 주기적 업데이트와 투영된 Q-값 반복 사이를 조절하며, 선형 함수 근사 환경에서의 안정성을 분석합니다.

핵심 포인트

$\lambda$-타겟 업데이트를 통한 Q-러닝 안정성 향상
기하 평균을 이용한 타겟 업데이트 맵의 새로운 접근법
$\lambda$ 값에 따른 투영된 Q-값 반복과의 연속성 증명
스위칭 시스템 모델을 활용한 선형 Q-러닝 분석

주기적인 하드 타겟 업데이트 (hard target updates)는 현대의 심층 Q-러닝 (deep Q-learning)에서 가장 흔히 사용되는 안정화 장치 중 하나입니다. 최근 연구들은 타겟 업데이트가 선형 함수 근사 (linear function approximation)를 포함하여 함수 근사 (function approximation)를 사용하는 Q-러닝의 안정성을 향상시킬 수 있음을 시사합니다. 본 논문에서는 $m$-주기 타겟 업데이트 맵 (target update maps)을 $\lambda$-기하학적 가중치 $(1-\lambda)\lambda^{m-1}, \lambda \in [0,1]$로 평균하여 얻은 이른바 $\lambda$-타겟 업데이트 ($\lambda$-target update)를 소개하고 분석합니다. 끝점 $\lambda=0$은 1-주기 타겟 업데이트를 복원하며, 연속적인 끝점 $\lambda \uparrow 1$은 투영된 Q-값 반복 (projected Q-value iteration)을 복원합니다. 우리는 스위칭 시스템 모델 (switching-system model) 및 관련 도구들을 사용하여 선형 함수 근사를 사용하는 Q-러닝, 즉 선형 Q-러닝 (linear Q-learning)에 대한 이 메커니즘을 연구합니다. 명확성을 위해 본 논문은 결정론적 (deterministic) 버전을 다루지만, 이 공식은 확률적 강화학습 (stochastic reinforcement-learning) 설정으로 확장 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

선형 Q-Learning을 위한 기하 평균 하드 타겟 업데이트

요약

핵심 포인트

댓글