본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 11:40

미분 동역학 기반 궤적 및 정책 최적화를 위한 Tempered SMC (TSMC)

요약

본 논문은 미분 가능한(differentiable) 동역학 환경에서 유한 시간 지평(finite-horizon)의 궤적 및 정책 최적화를 위한 새로운 샘플링 기반 프레임워크를 제시합니다. 핵심 방법론인 Tempered Sequential Monte Carlo (TSMC)는 KL 정규화된 기대 궤적 비용을 최소화하는 과정에서 얻어지는 '볼츠만 기울기 분포(Boltzmann-tilted)' 타겟 분포로부터 효율적으로 샘플링하기 위해 설계되었습니다. TSMC는 초기 분포부터 목표 분포까지 온도 변화 경로(tempering path)를 따

핵심 포인트

  • TSMC는 미분 동역학 환경에서 궤적 및 정책 최적화를 위한 새로운 샘플링 기반 프레임워크입니다.
  • 최적화 과정은 KL 정규화된 기대 궤적 비용을 최소화하며, 이는 볼츠만 기울기 분포를 유도합니다.
  • TSMC는 초기 분포부터 목표 분포까지 온도 변화 경로(tempering path)를 따라 입자를 재가중 및 재샘플링하는 어닐링 기법입니다.
  • Hamiltonian Monte Carlo (HMC) 재생성(rejuvenation)을 사용하여 샘플 다양성을 유지하고 정확한 기울기를 활용합니다.
  • 정책 최적화에 TSMC를 확장하기 위해 초기 상태 분포의 결정론적 근사 및 확장 공간 구성을 사용했습니다.

본 논문은 미분 동역학 (differentiable dynamics) 환경에서 유한 시간 지평(finite-horizon) 궤적 및 정책 최적화를 위한 샘플링 기반 프레임워크를 제안합니다. 이 접근 방식은 컨트롤러 설계를 추론(inference) 문제로 간주하여 문제를 정의합니다.

핵심 목표는 KL 정규화된 기대 궤적 비용을 최소화하는 것입니다. 이 과정을 통해 최적의 '볼츠만 기울기 분포(Boltzmann-tilted)'가 도출되며, 이 분포는 온도가 감소함에 따라 낮은 비용의 해답에 집중되는 특성을 가집니다.

이처럼 날카롭고 잠재적으로 다중 모드(multimodal)인 타겟 분포에서 효율적으로 샘플링하기 위해 **Tempered Sequential Monte Carlo (TSMC)**라는 새로운 기법을 도입했습니다. TSMC는 다음과 같은 방식으로 작동합니다:

  1. 어닐링 스킴(Annealing Scheme): 사전 분포(prior)부터 목표 분포까지의 온도 변화 경로(tempering path)를 따라 입자(particles)들을 적응적으로 재가중하고 재샘플링합니다.
  2. HMC 재생성: Hamiltonian Monte Carlo (HMC) 재생성을 활용하여 샘플의 다양성을 유지하는 동시에, 궤적 롤아웃(trajectory rollouts)을 미분함으로써 얻은 정확한 기울기(exact gradients)를 최대한 활용할 수 있습니다.

정책 최적화에 TSMC를 적용하기 위해 두 가지 확장이 이루어졌습니다. 첫째는 초기 상태 분포의 결정론적 경험적 근사(deterministic empirical approximation)를 사용하고, 둘째는 롤아웃 무작위성(rollout randomness)을 보조 변수(auxiliary variables)로 취급하는 확장 공간 구성(extended-space construction)을 채택했습니다.

실험 결과에 따르면, TSMC는 궤적 및 정책 최적화의 다양한 벤치마크에서 광범위하게 적용 가능하며, 기존의 최첨단(state-of-the-art) 기준 모델들과 비교하여 우수한 성능을 보여주었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0