본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 12:44

Hölder 공간에서의 Deep Q-Learning

요약

연속 시간 확률 제어 환경에서 Q-learning의 연산자 이론적 핵심을 연구합니다. Bellman 업데이트가 상태 변수를 매끄럽게 만드는 정칙성 특성을 분석하고, 이를 바탕으로 DeepONet 아키텍처를 활용한 근사 복잡도와 자원 경계를 도출합니다.

핵심 포인트

  • 연속 시간 확률 제어 환경에서의 Bellman 타겟 정칙성 분석
  • Bellman 업데이트를 통한 상태 변수의 스무딩 효과 증명
  • 비등방성 정칙성에 적응된 텐서 곱 DeepONet 아키텍처 제안
  • 시간 단계 변화에 따른 강성-복잡도 트레이드오프 도출

우리는 연속적인 상태(states)와 행동(actions)을 갖는 연속 시간 확률 제어(continuous-time stochastic control) 환경에서 Q-learning의 연산자 이론적(operator-theoretic) 핵심을 연구합니다. 가치 기반 강화학습(value-based reinforcement learning)에서, 각 Q-learning 또는 DQN 업데이트는 Bellman 최적 타겟(Bellman optimality target)으로부터 구축됩니다. 우리의 분석은 확산(diffusion) 설정에서 이 타겟을 분리하여 그 정칙성(regularity)과 근사 복잡도(approximation complexity)를 연구합니다. 균등 타원성(uniform ellipticity)과 Hölder-정칙 계수(Hölder-regular coefficients) 조건 하에서, 우리는 Bellman 업데이트가 유계 입력(bounded inputs)을 비등방성 정칙성 클래스(anisotropic regularity class)로 매핑하며, 행동 변수(action variable)에 대해서는 Lipschitz 의존성만을 남긴 채 상태 변수(state variable)를 매끄럽게(smoothing) 만든다는 것을 보여줍니다. 이는 Bellman 반복(Bellman iterates)의 컴팩트한 가족(compact family)을 생성하며, 문제의 혼합된 정칙성에 적응된 텐서 곱(tensor-product) DeepONet 아키텍처를 모색하게 합니다. 그런 다음 우리는 시간 단계 $δ o 0$일 때의 강성-복잡도 트레이드오프(stiffness--complexity trade-off)와 함께 명시적인 근사 및 자원 경계(approximation and resource bounds)를 도출합니다. 결과적으로 이 이론은 연속 확률 제어에서의 Bellman 타겟 정칙성 및 근사 수준에서 Q-learning 이론에 직접적으로 기여합니다. 동시에, 우리는 탐색(exploration), 리플레이(replay), 그리고 확률적 경사 업데이트(stochastic gradient updates)를 사용하는 실제 샘플링된 Q-learning에 대한 완전한 수렴 정리(convergence theorem)를 주장하지는 않습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0