arXiv논문2026. 05. 14. 14:30

대조적 근사 정책 최적화 (Contrastive Proximal Policy Optimisation)를 통한 자기지도 온폴리시 강화학습

요약

기존의 대조적 강화학습(CRL)은 주로 오프폴리시 방식과 연속적 행동 공간에 국한되어 있었으나, 본 논문은 이를 온폴리시 방식으로 확장한 CPPO를 제안합니다. CPPO는 보상 함수나 리플레이 버퍼 없이 대조적 Q-값에서 정책 이점을 직접 도출하여 표준 PPO 목적 함수로 최적화합니다. 실험 결과, CPPO는 이산적/연속적 환경 및 단일/다중 에이전트 작업 전반에서 기존 CRL을 능가하며 수작업 보상을 사용하는 PPO와 대등하거나 더 높은 성능을 보였습니다.

핵심 포인트

CPPO는 보상 함수 설계 없이 자기지도 학습을 통해 목표 조건부 Q-값을 학습하는 온폴리시 알고리즘입니다.
기존 CRL의 한계였던 오프폴리시 의존성과 연속적 행동 공간 국한 문제를 해결하여 이산적 환경에서도 작동합니다.
리플레이 버퍼를 필요로 하지 않으며 표준 PPO 목적 함수를 활용하여 정책을 최적화합니다.
18개 작업 중 14개에서 기존 CRL 베이스라인을 능가하며, 12개 작업에서는 수작업으로 설계된 조밀한 보상을 사용하는 PPO와 대등하거나 우수한 성능을 입증했습니다.

대조적 강화학습 (Contrastive reinforcement learning, CRL)은 상태-행동 (state-action) 및 목표 (goal) 표현에 대한 대조적 목적 함수 (contrastive objective)를 통해 목표 조건부 Q-값 (goal-conditioned Q-values)을 학습하며, 수작업으로 설계된 보상 함수 (reward functions)의 필요성을 제거합니다. 강화학습 (RL)에서 실행 가능한 자기지도 학습 (self-supervised learning)을 달성하며 인상적인 성공을 거두었음에도 불구하고, 기존의 모든 CRL 알고리즘은 오프폴리시 최적화 (off-policy optimisation)에 의존하며 대부분 연속적 행동 공간 (continuous action spaces)에 국한되어 있어, 이산적 환경 (discrete environments)에 대한 연구는 거의 이루어지지 않았습니다. 이로 인해 CRL은 연속적 및 이산적 환경 모두에서 단일 에이전트 (single-agent) 및 다중 에이전트 (multi-agent) 강화학습 (RL) 전반에 걸쳐 채택되는 널리 사용되고 효과적인 현대적 온폴리시 (on-policy) 훈련 파이프라인과 단절되어 있습니다. 이러한 첫 번째 연결 고리를 구축하기 위해, 우리는 대조적 근사 정책 최적화 (Contrastive Proximal Policy Optimisation, CPPO)를 소개합니다. CPPO는 대조적 Q-값 (contrastive Q-values)으로부터 정책 이점 (policy advantages)을 직접 도출하고, 보상 함수 (reward function)나 리플레이 버퍼 (replay buffer)를 필요로 하지 않고 표준 PPO 목적 함수를 통해 이를 최적화하는 온폴리시 대조적 강화학습 (on-policy contrastive RL) 알고리즘입니다. 우리는 연속적 및 이산적, 단일 에이전트 및 협력적 다중 에이전트 작업 전반에 걸쳐 CPPO를 평가합니다. 온폴리시 접근 방식의 존재 자체가 본질적으로 유용하지만, 우리는 extbf{CPPO가 18개 작업 중 14개에서 기존 CRL 베이스라인을 크게 능가할 뿐만 아니라, 테스트된 18개 작업 중 12개에서 수작업으로 설계된 조밀한 보상 (hand-crafted dense rewards)을 사용하는 PPO의 성능과 일치하거나 이를 능가한다는 것을 관찰했습니다.}

AI 자동 생성 콘텐츠

원문 바로가기

대조적 근사 정책 최적화 (Contrastive Proximal Policy Optimisation)를 통한 자기지도 온폴리시 강화학습

요약

핵심 포인트

댓글