Operator-Guided Invariance Learning for Continuous Reinforcement Learning
요약
본 논문은 연속 시간 및 상태/행동 공간을 갖는 강화학습(RL)의 불안정성 문제를 해결하기 위해 'VPSD-RL'이라는 새로운 프레임워크를 제안합니다. 이 방법은 리 군 작용과 관련된 역행 연산자를 사용하여 가치 보존 매핑을 정의하고, 이를 제어된 확산 모델링에 통합하여 연속 RL을 수행합니다. VPSD-RL은 해밀턴-자코비-벨만 불일치가 작은 경우 근사 가치 보존 구조를 찾고, 관련된 리 군 연산자를 검색함으로써 정확한 및 근사 가치 보존 구조를 모두 발견할 수 있습니다.
핵심 포인트
- VPSD-RL 프레임워크는 연속 RL의 데이터 효율성과 안정성을 향상시키는 것을 목표로 합니다.
- 가치 보존 매핑을 정의하기 위해 리 군 작용과 관련된 역행 연산자(pullback operators)를 사용합니다.
- 이 방법은 해밀턴-자코비-벨만 불일치를 활용하여 근사 가치 보존 구조를 찾고, 이를 통해 일반적인 연속 시스템에 적용 가능합니다.
- VPSD-RL은 미분 가능한 모델 적합 및 결정식 방정식 잔차 최소화(determining-equation residual minimization)를 통해 무한소 생성자를 학습하고 ODE 흐름으로 변환하여 RL에 통합됩니다.
연속 시간 및 상태/행동 공간 (continuous time and state/action spaces) 을 갖는 강화학습 (RL) 은 데이터 집약적이며, 방해 변수 변동성과 시프트 (nuisance variability and shift) 에 취약하여, 가치 보존 구조를 활용하여 학습을 안정화하고 개선하는 방법을 동기를 부여합니다. 대부분의 기존 접근법은 지정된 대칭성 및 정확한 등가성 (prescribed symmetries and exact equivariance) 과 같은 특수한 경우에만 초점을 맞추며, 연속 상태/행동 시스템 간에 이형적 가치 함수를 변환 및 매핑하기 위해 비선형 연산자가 필요한 더 일반적인 구조를 발견하는 방법을 다루지 않습니다. 우리는 extbf{VPSD-RL} (Value-Preserving Structure Discovery for Reinforcement Learning) 을 제안합니다. 이는 리 군 작용 (Lie-group actions) 과 관련된 역행 연산자 (pullback operators) 를 통해 정의된 가치 보존 매핑을 갖는 제어된 확산 (controlled diffusion) 으로 연속 강화학습을 모델링합니다. 우리는 가치 함수를 역행하고 행동을 전진시키는 것이 제어된 생성자 (controlled generator) 와 보상 함수적 (reward functional) 과 교환할 때만 가치 보존 구조가 존재함을 보여줍니다. 또한, 해밀턴 - 자코비 - 벨만 불일치 (Hamilton--Jacobi--Bellman mismatch) 가 작을 때 엄밀한 보장을 갖는 근사 가치 보존 구조를 찾을 수 있음을 보여줍니다. 이 프레임워크는 관련된 리 군 연산자를 검색하여 정확한 및 근사 가치 보존 구조를 발견합니다. VPSD-RL 은 미분 가능한 드리프트, 확산, 보상 모델을 적합시키고, 결정식 방정식 잔차 최소화 (determining-equation residual minimization) 를 통해 무한소 생성자 (infinitesimal generators) 를 학습하며, ODE 흐름으로 지수화하여 유한 변환을 얻고, 전이 증강 및 변환 일관성 정규화를 통해 연속 강화학습에 통합합니다. 우리는 최적 가치 함수가 근사 궤적 (approximate orbits) 을 따라 양적 안정성을 갖는다는 것을 보여줍니다. 이는 민감도가 유효 지평선 (effective horizon) 에 의해 통제되며, 연속 제어 벤치마크에서 향상된 데이터 효율성과 견고함을 관찰합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기