arXiv논문2026. 06. 26. 10:46

잔차 가중치 보정(Residual Weighting Correction)을 이용한 Heavy-Ball Q-Learning

요약

잔차 가중치 보정을 적용한 Heavy-Ball Q-learning 방법론을 제안하고 그 수렴성을 입증한 논문입니다. 스위칭 선형 시스템(SLS) 관점을 통해 모멘텀이 Q-learning의 수렴을 가속화하는 원리에 대한 새로운 이론적 통찰을 제공합니다.

핵심 포인트

잔차 가중치 보정을 통한 Heavy-Ball Q-learning 제안
표준 Q-learning 대비 빠른 수렴 조건 식별
선형 함수 근사(LFA) 환경으로의 확장 가능성 입증
스위칭 선형 시스템(SLS) 및 결합 스펙트럼 반경(JSR) 기반 분석

본 논문은 강화학습 (RL)을 위한 보정된 heavy-ball Q-learning 방법을 제안하고 그 수렴성을 입증합니다. 또한, 이 방법이 표준 Q-learning보다 이론적으로 더 빠르게 수렴함이 보장되는 조건을 식별합니다. 동일한 구조를 선형 함수 근사 (linear function approximation)를 사용하는 Q-learning으로 확장하여, 이와 유사한 수렴 및 가속에 관한 진술을 도출합니다. 분석은 Q-learning 알고리즘의 스위칭 선형 시스템 (switched linear system, SLS) 표현과 관련 스위칭 패밀리의 결합 스펙트럼 반경 (joint spectral radius, JSR)을 기반으로 합니다. 이러한 SLS 관점은 표준적인 Q-learning 분석에서는 흔히 사용되지 않으며, heavy-ball 모멘텀 (momentum)이 어떻게 Q-learning을 가속화할 수 있는지에 대한 보완적인 프레임워크와 새로운 통찰을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

잔차 가중치 보정(Residual Weighting Correction)을 이용한 Heavy-Ball Q-Learning

요약

핵심 포인트

댓글