arXiv논문2026. 05. 13. 04:18

엔트로피 정규화된 Actor-Critic에서 혼합 정책 재검토

요약

본 연구는 연속 행동 강화학습에서 사용되는 혼합 정책(Mixture policies)의 활용도를 높이는 것을 목표로 합니다. 기존에는 복잡성 대비 실제 이점이 불분명했던 혼합 정책에 대해, 저분산 리매개변수화 트릭이 부족하다는 근본적인 문제를 지적합니다. 이를 해결하기 위해 주변화된 리매개변수화(MRP) 추정기를 제안하며, 이것이 표준 우도비 접근 방식보다 낮은 분산을 제공함을 증명했습니다. 실험 결과, MRP 혼합 정책은 기존의 가우시안 정책과 동등하거나 더 나은 성능을 보여주며, 실용적인 강화학습 도구로 자리매김할 수 있음을 입증합니다.

핵심 포인트

혼합 정책은 연속 행동 RL에서 이론적 유연성을 제공하지만, 실제 구현에 어려움이 있었다.
핵심 문제는 혼합 정책에 대한 저분산 리매개변수화 트릭의 부재였으며, 이는 가우시안 정책 대비 단점이었다.
저자들은 주변화된 리매개변수화(MRP) 추정기를 제안하여 이 문제를 해결하고 낮은 분산을 달성했다.
실험적으로 MRP 혼합 정책은 표준 우도비 접근 방식보다 성능이 뛰어나며, 가우시안 정책과 경쟁할 만한 실질적인 이점을 제공한다.

혼합 정책(Mixture policies)은 연속 행동 강화학습 (continuous action reinforcement learning)에서 단일 양상 정책(unimodal policies)보다 이론적으로 더 큰 유연성을 제공하지만, 이러한 복잡성의 실제적인 이점은 여전히 찾기 어렵습니다. 혼합 정책은 대부분의 최신 알고리즘에서 눈에 띄게 빠져 있으며, 근본적인 질문을 제기합니다: 추가된 표현적 오버헤드가 유용한가? 우리는 증가된 유연성이 이론적으로 솔루션 품질과 엔트로피 강건성(entropy robustness)을 향상시킬 수 있음을 보여줍니다. 그러나 SAC와 같은 표준 알고리즘은 이러한 장점을 활용하지 못합니다. 핵심 문제는 혼합 정책에 대한 저분산 리매개변수화 트릭(low-variance reparameterization trick)이 부족하다는 것입니다. 이는 가우시안 정책(Gaussian policies)이 누리는 사치품입니다. 우리는 이를 해결하기 위해 주변화된 리매개변수화 (marginalized reparameterization, MRP) 추정기를 제안하고, 이것이 표준 우도비(likelihood-ratio, LR) 접근 방식보다 낮은 분산을 제공함을 증명합니다. Gym MuJoCo, DeepMind Control Suite, 그리고 MetaWorld 전반에 걸친 우리의 실험은 MRP 혼합 정책이 LR 정책보다 현저히 우수하며, 가우시안 대응물과 동등하거나 때로는 더 나은 성능에 도달함을 보여줍니다. 또한, 우리는 MRP 혼합 정책이 명확한 경험적 이점을 보이는 몇 가지 사례를 발견합니다. 본 논문에서 우리는 관련된 트레이드오프(trade-offs)에 대한 더 명확한 이해를 제공함으로써, MRP 혼합 정책을 이론적인 호기심에서 실용적인 도구로 격상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

엔트로피 정규화된 Actor-Critic에서 혼합 정책 재검토

요약

핵심 포인트

댓글