arXiv중요논문2026. 04. 24. 11:40

미분 동역학 기반 궤적 및 정책 최적화를 위한 Tempered SMC (TSMC)

요약

본 논문은 미분 가능한(differentiable) 동역학 환경에서 유한 시간 지평(finite-horizon)의 궤적 및 정책 최적화를 위한 새로운 샘플링 기반 프레임워크를 제시합니다. 핵심 방법론인 Tempered Sequential Monte Carlo (TSMC)는 KL 정규화된 기대 궤적 비용을 최소화하는 과정에서 얻어지는 '볼츠만 기울기 분포(Boltzmann-tilted)' 타겟 분포로부터 효율적으로 샘플링하기 위해 설계되었습니다. TSMC는 초기 분포부터 목표 분포까지 온도 변화 경로(tempering path)를 따

핵심 포인트

TSMC는 미분 동역학 환경에서 궤적 및 정책 최적화를 위한 새로운 샘플링 기반 프레임워크입니다.
최적화 과정은 KL 정규화된 기대 궤적 비용을 최소화하며, 이는 볼츠만 기울기 분포를 유도합니다.
TSMC는 초기 분포부터 목표 분포까지 온도 변화 경로(tempering path)를 따라 입자를 재가중 및 재샘플링하는 어닐링 기법입니다.
Hamiltonian Monte Carlo (HMC) 재생성(rejuvenation)을 사용하여 샘플 다양성을 유지하고 정확한 기울기를 활용합니다.
정책 최적화에 TSMC를 확장하기 위해 초기 상태 분포의 결정론적 근사 및 확장 공간 구성을 사용했습니다.

본 논문은 미분 동역학 (differentiable dynamics) 환경에서 유한 시간 지평(finite-horizon) 궤적 및 정책 최적화를 위한 샘플링 기반 프레임워크를 제안합니다. 이 접근 방식은 컨트롤러 설계를 추론(inference) 문제로 간주하여 문제를 정의합니다.

핵심 목표는 KL 정규화된 기대 궤적 비용을 최소화하는 것입니다. 이 과정을 통해 최적의 '볼츠만 기울기 분포(Boltzmann-tilted)'가 도출되며, 이 분포는 온도가 감소함에 따라 낮은 비용의 해답에 집중되는 특성을 가집니다.

이처럼 날카롭고 잠재적으로 다중 모드(multimodal)인 타겟 분포에서 효율적으로 샘플링하기 위해 **Tempered Sequential Monte Carlo (TSMC)**라는 새로운 기법을 도입했습니다. TSMC는 다음과 같은 방식으로 작동합니다:

어닐링 스킴(Annealing Scheme): 사전 분포(prior)부터 목표 분포까지의 온도 변화 경로(tempering path)를 따라 입자(particles)들을 적응적으로 재가중하고 재샘플링합니다.
HMC 재생성: Hamiltonian Monte Carlo (HMC) 재생성을 활용하여 샘플의 다양성을 유지하는 동시에, 궤적 롤아웃(trajectory rollouts)을 미분함으로써 얻은 정확한 기울기(exact gradients)를 최대한 활용할 수 있습니다.

정책 최적화에 TSMC를 적용하기 위해 두 가지 확장이 이루어졌습니다. 첫째는 초기 상태 분포의 결정론적 경험적 근사(deterministic empirical approximation)를 사용하고, 둘째는 롤아웃 무작위성(rollout randomness)을 보조 변수(auxiliary variables)로 취급하는 확장 공간 구성(extended-space construction)을 채택했습니다.

실험 결과에 따르면, TSMC는 궤적 및 정책 최적화의 다양한 벤치마크에서 광범위하게 적용 가능하며, 기존의 최첨단(state-of-the-art) 기준 모델들과 비교하여 우수한 성능을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

미분 동역학 기반 궤적 및 정책 최적화를 위한 Tempered SMC (TSMC)

요약

핵심 포인트

댓글