arXiv논문2026. 05. 29. 10:49

PAC-Bayes Risk를 통한 중첩된 인과적 밴딧(Nested Causal Bandits)의 인증된 정책 최적화

요약

전략적 결정이 전술적 맥락을 형성하는 계층적 구조를 다루는 '중첩된 문맥적 인과적 밴딧(NCCBs)' 프레임워크를 제안합니다. PAC-Bayes 이론을 통해 오프-폴리시 환경에서도 정책의 위험 경계를 인증할 수 있는 NCTS 알고리즘을 소개합니다.

핵심 포인트

계층적 SCM 기반의 중첩된 인과적 밴딧(NCCBs) 공식화
PAC-Bayesian 이론을 활용한 오프-폴리시 정책 위험 경계 인증
메커니즘 분해를 통한 외생적 분포 변화에서의 제로샷 전이 성능 향상
안전한 배포를 위한 점진적 인증 핸드오버 방식 제안

중요한 순차적 결정(sequential decisions)은 단일 시간 척도(single-timescale)인 경우가 드뭅니다. 전략적 결정은 이후의 모든 전술적 선택이 이루어지는 맥락(context)을 인과적으로 형성합니다. 표준적인 밴딧(bandit) 및 강화학습 (RL) 이론은 이러한 시간 척도 간의 인과적 결합(causal coupling)을 포착하지 못합니다. 우리는 이 문제 클래스를 중첩된 문맥적 인과적 밴딧 (Nested Contextual Causal Bandits, NCCBs)으로 공식화합니다. 이는 각 수준의 행동이 다음 수준의 맥락 분포를 설정하는 계층적 구조적 인과 모델 (Structural Causal Model, SCM)입니다. 또한, 에피소드당 하나의 메커니즘 분해된 신념 (mechanism-factorised belief)을 추출하고 그 아래에서 재귀적으로 행동하는 중첩된 인과적 톰슨 샘플링 (Nested Causal Thompson Sampling, NCTS)을 제안합니다. 우리의 주요 이론적 결과는 과거 데이터만을 사용하여 오프-폴리시 (off-policy) 및 애니타임 (anytime) 방식으로 임의의 후보 배포 정책을 인증하는 인과적 PAC-Bayesian 초과 위험 (excess-risk) 경계입니다. 이는 '이 에이전트를 여기서 신뢰할 수 있는가, 그리고 그 위험은 어느 정도인가?'라는 배포 문제를 해결합니다. 계층적 SCM에 대한 실험 결과, 동일한 함수 클래스에 대한 매칭된 RFF-GP 결합 회귀 (joint regression)와 비교했을 때, 분해된 SCM-메커니즘 사후 분포 (posterior)가 외생적 분포 변화 (exogenous distribution shifts) 하에서 제로샷 (zero-shot) 전이를 훨씬 더 잘 수행함을 보여주었습니다. 또한, 재귀적인 메타-투-이너 커밋 (meta-to-inner commit) 방식이 분포 상에서 결합 커밋 (joint-commit) 대안을 크게 압도하며, 오프라인 데이터가 축적됨에 따라 인증 범위가 유의미하게 축소됨을 확인했습니다. 이러한 결과들을 결합하여, 우리는 안전한 배포 방법인 점진적 인증 핸드오버 (progressive certified handover)를 구축합니다. 이는 다른 시간 척도와 독립적으로, 이득이 인증될 수 있을 때 각 시간 척도가 기존 컨트롤러에서 NCTS로 전환되는 방식입니다.

AI 자동 생성 콘텐츠

원문 바로가기

PAC-Bayes Risk를 통한 중첩된 인과적 밴딧(Nested Causal Bandits)의 인증된 정책 최적화

요약

핵심 포인트

댓글