arXiv논문2026. 05. 05. 12:51

변화하는 비용 한계에 적응하는 데커플링 확산 플래너: 안전을 위한 비용 조건 생성, 성능을 위한 보상 기울기

요약

본 논문은 변화하는 비용 한계에 적응해야 하는 오프라인 안전 강화학습(Offline Safe Reinforcement Learning) 문제를 다루며, 기존의 접근 방식이 비용과 성능 목표를 경쟁적으로 취급하여 불안정한 안전 준수를 초래할 수 있음을 지적합니다. 이를 해결하기 위해 'Safe Decoupled Guidance Diffusion (SDGD)'라는 새로운 프레임워크를 제안합니다. SDGD는 비용 제한을 궤적 영역으로, 보상 최대화를 선호도 형성으로 재해석하여 샘플링 과정에 통합하며, 특히 'Feasible Trajectory Relabeling (FTR)' 기법을 도입하여 높은 보상을 추구하는 방향이 안전 한계를 위반하지 않도록 제어합니다. 실험 결과, SDGD는 다양한 DSRL 벤치마크에서 기존 방법들보다 월등히 강력한 안전 준수와 높은 성능을 동시에 달성함을 입증했습니다.

핵심 포인트

SDGD(Safe Decoupled Guidance Diffusion) 프레임워크를 통해 오프라인 환경에서 변화하는 비용 한계에 적응하는 안전 강화학습 방법을 제시합니다.
비용 제한을 궤적 영역으로, 보상 최대화를 선호도 분포로 재해석하여 샘플링 과정에 통합함으로써 안정적인 안전성을 확보합니다.
Feasible Trajectory Relabeling (FTR) 기법은 높은 보상을 추구하는 방향이 누적 비용 한계를 초과하지 않도록 제어하여 안전한 궤적 생성을 강화합니다.
제안된 SDGD는 DSRL 벤치마크에서 기존 방법 대비 가장 강력한 안전 준수율(94.7% 작업 만족)과 높은 평균 보상을 달성했습니다.

오프라인 안전한 강화학습 (Offline Safe Reinforcement Learning) 은 종종 배포 시 에피소드 간 또는 단일 에피소스 내에서 변화하는 안전 예산에 정책을 적응해야 합니다. 확산 기반 플래너는 유연한 궤적 생성을 가능하게 하지만, 기존 가이드 스키엄은 보상 개선과 제약 조건 만족을 경쟁적인 기울기 목표로 취급하여 비용 한계 하에서 신뢰할 수 없는 안전 준수로 이어질 수 있습니다. 우리는 적응형 안전한 궤적 생성을 비용 제한이 궤적 영역을 제한하고 보상이 그 영역 내 선호도를 형성하는 제약된 궤적 분포로부터 샘플링으로 재해석합니다. 이 관점은 Safe Decoupled Guidance Diffusion (SDGD) 을 동기를 부여하며, 이는 클래스피어프리 가이드를 비용 한계에 조건화하여 지정된 한계를 만족하는 궤적으로 샘플링을 편향시키고, 보상 기울기 가이드를 사용하여 높은 반환을 위한 궤적을 정교화합니다. 직접적인 보상 가이드는 반환을 증가시키면서 동시에 누적 비용이 더 높은 궤적 방향으로 샘플을 유도할 수 있으므로, 우리는 Feasible Trajectory Relabeling (FTR) 을 도입하여 보상 목표를 재형성하고 이러한 방향을 억제합니다. 우리는 또한 FTR 이 프록시-복원정렬 조건 (prefix-restorative alignment condition) 하에서 보상 유도 비용 드리프트를 억제함을 보여주는 1 차 샘플링 시간 분석을 제공합니다. DSRL 벤치마크에서의 광범위한 평가는 SDGD 가 베이스라인 중 가장 강력한 안전 준수를 달성함을 보여줍니다. 이는 제약 조건을 94.7% 의 작업 (36/38) 에서 만족하고, 안전한 방법들 중 21 개의 작업에서 가장 높은 보상을 얻습니다.

AI 자동 생성 콘텐츠

원문 바로가기

변화하는 비용 한계에 적응하는 데커플링 확산 플래너: 안전을 위한 비용 조건 생성, 성능을 위한 보상 기울기

요약

핵심 포인트

댓글