arXiv논문2026. 06. 29. 22:43

정규화된 보상-처벌 강화학습 (Regularized Reward-Punishment Reinforcement Learning)

요약

보상과 처벌을 동시에 고려하는 강화학습 프레임워크인 KCPR과 그 구현체인 klDMP를 제안합니다. 기존 방식과 달리 정책 간의 동적 상호작용을 통해 보상과 처벌 정보가 가치 전파에 공동으로 영향을 미치도록 설계되었습니다.

핵심 포인트

KL-결합 정책 정규화(KCPR)를 통한 정책 간 상호작용 강화
KL-결합 소프트 최적성(KCSO) 기반의 벨만 연산자 생성
동반-사전 완화 메커니즘을 통한 학습 안정성 향상
로봇 내비게이션 실험에서 안전성 및 성능 입증

우리는 보상-처벌 강화학습 (Reward-Punishment Reinforcement Learning, RPRL)을 위한 정책 조정 프레임워크인 KL-결합 정책 정규화 (KL-Coupled Policy Regularization, KCPR)를 제안합니다. KCPR을 기반으로, 우리는 KL-결합 소프트 최적성 (KL-Coupled Soft Optimality, KCSO)을 도출하고 그 심층 구현체인 klDMP를 개발합니다. 보상 추구 정책과 처벌 관련 정책을 대체로 독립적으로 최적화하는 기존의 RPRL 접근 방식과 달리, KCPR은 각 정책을 상대방을 위한 동적으로 학습되는 사전 확률 (prior)로 취급함으로써 동반 정책들 간의 직접적인 상호작용을 가능하게 합니다. KCSO는 결합된 소프트 최적 정책 (soft-optimal policies)과 KL-정규화된 벨만 연산자 (Bellman operators)를 생성하여, 보상과 처벌 정보가 가치 전파 (value propagation)에 공동으로 영향을 미칠 수 있도록 합니다. 학습 안정성을 향상시키기 위해, 우리는 동반-사전 완화 (companion-prior softening) 메커니즘을 도입하고, 보상 및 처벌 관련 경험의 균형을 맞추기 위한 별도의 리플레이 버퍼 (replay-buffer) 설계를 평가합니다. 그리드 월드 (grid-world) 및 Gazebo 로봇 내비게이션 작업에서의 실험을 통해, klDMP가 DQN, SQL 및 softDMP와 비교했을 때 경쟁력 있는 작업 성능을 유지하면서도 안전성과 학습 안정성을 향상시킨다는 것을 입증합니다. 이러한 결과는 정책 수준의 조정이 여러 행동 목표를 통합하기 위한 효과적인 메커니즘을 제공하며, 상호작용하는 동기 부여 프로세스를 가진 강화학습 시스템을 위한 유용한 설계 원칙으로 활용될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

정규화된 보상-처벌 강화학습 (Regularized Reward-Punishment Reinforcement Learning)

요약

핵심 포인트

댓글