arXiv논문2026. 06. 16. 12:44

Hölder 공간에서의 Deep Q-Learning

요약

연속 시간 확률 제어 환경에서 Q-learning의 연산자 이론적 핵심을 연구합니다. Bellman 업데이트가 상태 변수를 매끄럽게 만드는 정칙성 특성을 분석하고, 이를 바탕으로 DeepONet 아키텍처를 활용한 근사 복잡도와 자원 경계를 도출합니다.

핵심 포인트

연속 시간 확률 제어 환경에서의 Bellman 타겟 정칙성 분석
Bellman 업데이트를 통한 상태 변수의 스무딩 효과 증명
비등방성 정칙성에 적응된 텐서 곱 DeepONet 아키텍처 제안
시간 단계 변화에 따른 강성-복잡도 트레이드오프 도출

우리는 연속적인 상태(states)와 행동(actions)을 갖는 연속 시간 확률 제어(continuous-time stochastic control) 환경에서 Q-learning의 연산자 이론적(operator-theoretic) 핵심을 연구합니다. 가치 기반 강화학습(value-based reinforcement learning)에서, 각 Q-learning 또는 DQN 업데이트는 Bellman 최적 타겟(Bellman optimality target)으로부터 구축됩니다. 우리의 분석은 확산(diffusion) 설정에서 이 타겟을 분리하여 그 정칙성(regularity)과 근사 복잡도(approximation complexity)를 연구합니다. 균등 타원성(uniform ellipticity)과 Hölder-정칙 계수(Hölder-regular coefficients) 조건 하에서, 우리는 Bellman 업데이트가 유계 입력(bounded inputs)을 비등방성 정칙성 클래스(anisotropic regularity class)로 매핑하며, 행동 변수(action variable)에 대해서는 Lipschitz 의존성만을 남긴 채 상태 변수(state variable)를 매끄럽게(smoothing) 만든다는 것을 보여줍니다. 이는 Bellman 반복(Bellman iterates)의 컴팩트한 가족(compact family)을 생성하며, 문제의 혼합된 정칙성에 적응된 텐서 곱(tensor-product) DeepONet 아키텍처를 모색하게 합니다. 그런 다음 우리는 시간 단계 $δ o 0$일 때의 강성-복잡도 트레이드오프(stiffness--complexity trade-off)와 함께 명시적인 근사 및 자원 경계(approximation and resource bounds)를 도출합니다. 결과적으로 이 이론은 연속 확률 제어에서의 Bellman 타겟 정칙성 및 근사 수준에서 Q-learning 이론에 직접적으로 기여합니다. 동시에, 우리는 탐색(exploration), 리플레이(replay), 그리고 확률적 경사 업데이트(stochastic gradient updates)를 사용하는 실제 샘플링된 Q-learning에 대한 완전한 수렴 정리(convergence theorem)를 주장하지는 않습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Hölder 공간에서의 Deep Q-Learning

요약

핵심 포인트

댓글