본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 14:30

대조적 근사 정책 최적화 (Contrastive Proximal Policy Optimisation)를 통한 자기지도 온폴리시 강화학습

요약

기존의 대조적 강화학습(CRL)은 주로 오프폴리시 방식과 연속적 행동 공간에 국한되어 있었으나, 본 논문은 이를 온폴리시 방식으로 확장한 CPPO를 제안합니다. CPPO는 보상 함수나 리플레이 버퍼 없이 대조적 Q-값에서 정책 이점을 직접 도출하여 표준 PPO 목적 함수로 최적화합니다. 실험 결과, CPPO는 이산적/연속적 환경 및 단일/다중 에이전트 작업 전반에서 기존 CRL을 능가하며 수작업 보상을 사용하는 PPO와 대등하거나 더 높은 성능을 보였습니다.

핵심 포인트

  • CPPO는 보상 함수 설계 없이 자기지도 학습을 통해 목표 조건부 Q-값을 학습하는 온폴리시 알고리즘입니다.
  • 기존 CRL의 한계였던 오프폴리시 의존성과 연속적 행동 공간 국한 문제를 해결하여 이산적 환경에서도 작동합니다.
  • 리플레이 버퍼를 필요로 하지 않으며 표준 PPO 목적 함수를 활용하여 정책을 최적화합니다.
  • 18개 작업 중 14개에서 기존 CRL 베이스라인을 능가하며, 12개 작업에서는 수작업으로 설계된 조밀한 보상을 사용하는 PPO와 대등하거나 우수한 성능을 입증했습니다.

대조적 강화학습 (Contrastive reinforcement learning, CRL)은 상태-행동 (state-action) 및 목표 (goal) 표현에 대한 대조적 목적 함수 (contrastive objective)를 통해 목표 조건부 Q-값 (goal-conditioned Q-values)을 학습하며, 수작업으로 설계된 보상 함수 (reward functions)의 필요성을 제거합니다. 강화학습 (RL)에서 실행 가능한 자기지도 학습 (self-supervised learning)을 달성하며 인상적인 성공을 거두었음에도 불구하고, 기존의 모든 CRL 알고리즘은 오프폴리시 최적화 (off-policy optimisation)에 의존하며 대부분 연속적 행동 공간 (continuous action spaces)에 국한되어 있어, 이산적 환경 (discrete environments)에 대한 연구는 거의 이루어지지 않았습니다. 이로 인해 CRL은 연속적 및 이산적 환경 모두에서 단일 에이전트 (single-agent) 및 다중 에이전트 (multi-agent) 강화학습 (RL) 전반에 걸쳐 채택되는 널리 사용되고 효과적인 현대적 온폴리시 (on-policy) 훈련 파이프라인과 단절되어 있습니다. 이러한 첫 번째 연결 고리를 구축하기 위해, 우리는 대조적 근사 정책 최적화 (Contrastive Proximal Policy Optimisation, CPPO)를 소개합니다. CPPO는 대조적 Q-값 (contrastive Q-values)으로부터 정책 이점 (policy advantages)을 직접 도출하고, 보상 함수 (reward function)나 리플레이 버퍼 (replay buffer)를 필요로 하지 않고 표준 PPO 목적 함수를 통해 이를 최적화하는 온폴리시 대조적 강화학습 (on-policy contrastive RL) 알고리즘입니다. 우리는 연속적 및 이산적, 단일 에이전트 및 협력적 다중 에이전트 작업 전반에 걸쳐 CPPO를 평가합니다. 온폴리시 접근 방식의 존재 자체가 본질적으로 유용하지만, 우리는 extbf{CPPO가 18개 작업 중 14개에서 기존 CRL 베이스라인을 크게 능가할 뿐만 아니라, 테스트된 18개 작업 중 12개에서 수작업으로 설계된 조밀한 보상 (hand-crafted dense rewards)을 사용하는 PPO의 성능과 일치하거나 이를 능가한다는 것을 관찰했습니다.}

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0