생존 강화학습 (Survival Reinforcement Learning): 확장 가능한 자기지도 강화학습 (Self-Supervised
요약
자기지도 대조 강화학습(CRL)의 한계를 극복하기 위해 목표 지점 체류 시간을 최대화하는 생존 강화학습(SRL) 프레임워크를 제안합니다. SRL은 복잡한 동적 시스템에서의 제어 문제를 완화하며, 로봇 보행 작업에서 기존 CRL보다 월등한 성능을 입증했습니다.
핵심 포인트
- CRL의 균일성-허용성 딜레마 문제 해결
- 온라인 분류 기반의 생존 가치 학습 프레임워크 도입
- 로봇 보행 작업에서 CRL 대비 2~8배 성능 향상
- 분류 기반 방법론의 강화학습 확장 가능성 증명
자기지도 대조 강화학습 (Contrastive Reinforcement Learning, CRL)이 64개 이상의 레이어를 가진 네트워크를 성공적으로 사용하여 놀라운 깊이 확장 (depth-scaling) 능력을 보여주었지만, 확장된 CRL은 대조 손실 (contrastive losses)에 내재된 균일성-허용성 딜레마 (uniformity-tolerance dilemma)로 인해 장기 목표 조건부 계획 (long-horizon goal-conditioned planning)에서 여전히 어려움을 겪고 있습니다. 우리는 에이전트가 목표 지점에 머무는 시간 (dwell time)을 최대화함으로써 생존 가치 학습 (survival value learning) 프레임워크를 확장하는 온라인 분류 기반 대안인 생존 강화학습 (Survival Reinforcement Learning, SRL)을 소개합니다. SRL은 CRL의 구조적 제약을 우회하며, 복잡한 동적 시스템 (dynamical systems)에서 종종 바람직하지 않은 행동을 유발하는 생존 프레임워크 고유의 "뱅뱅 (bang-bang)" 제어 솔루션을 완화합니다. 다양한 로봇 벤치마크를 통해 평가한 결과, 확장된 SRL은 조작 (manipulation) 작업에서 최첨단 (state-of-the-art) CRL과 대등한 성능을 보였으며, 안정적인 장기 보행 (long-horizon locomotion) 작업에서는 CRL보다 2배에서 8배 더 뛰어난 성능을 보였습니다. 우리의 결과는 분류 기반 방법론이 강화학습 (reinforcement learning)을 확장하려는 광범위한 노력에서 핵심적인 원시 기제 (primitive) 역할을 할 수 있다는 강력한 추가 증거를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기