UniIntervene: 효율적인 실세계 강화학습 (RL)을 위한 에이전트 기반 개입
요약
UniIntervene는 인간 참여형 강화학습(HiL-RL)에서 발생하는 과도한 인간 개입 문제를 해결하기 위한 에이전트 기반 개입 모델입니다. 비생산적인 탐색을 감지하고 자율적으로 고가치 상태로 회복하여 인간의 노동 비용을 줄이고 학습 효율을 높입니다.
핵심 포인트
- 비생산적 탐색을 감지하고 자율적으로 정책을 회복하는 에이전트 기반 모델 제안
- 미래 조건부 행동 가치 추정을 통해 안정적인 진행 신호 제공
- 시간적 가치-리스크 비평가를 활용하여 개입 시점을 지능적으로 결정
- 인간 개입을 57% 감소시키고 평균 성공률을 8.6% 향상
인간 참여형 강화학습 (Human-in-the-loop reinforcement learning, HiL-RL)은 인간의 가이드를 통해 온라인 정책 개선을 가능하게 함으로써 실세계 로봇 조작 (robotic manipulation)을 위한 효과적인 패러다임으로 부상했습니다. 그러나 현재의 HiL-RL 프레임워크는 비생산적인 탐색 (exploration)으로부터 정책을 재지시하기 위해 빈번한 인간의 교정에 의존하는 개입 집약적인 (intervention-intensive) 상태로 남아 있으며, 이는 높은 노동 비용을 발생시키고 실세계 확장성을 제한합니다. 이를 해결하기 위해, 우리는 비생산적인 탐색을 감지하고 정책을 고가치 상태 (high-value states)로 자율적으로 회복시켜 인간 운영자의 개입 부담을 대부분 가져오는 에이전트 기반 개입 모델인 UniIntervene를 제안합니다. 구체적으로, UniIntervene는 먼저 미래 조건부 행동 가치 추정 (future-conditioned action-value estimation)을 수행하여 현재 행동의 잠재적 결과를 예측하고 그로 인해 유도된 가치를 평가하며, 이를 통해 더욱 안정적인 진행 신호를 제공합니다. 이를 바탕으로, 시간적 가치-리스크 비평가 (temporal value-risk critic)는 최근의 가치 역학 (value dynamics)을 집계하고 추정된 가치가 지속적인 정체 또는 저하를 보일 때 개입을 트리거합니다. 개입이 필요할 때, UniIntervene는 과거 개입 에피소드의 메모리에서 고가치 회복 목표를 검색하고 목표 조건부 회복 정책 (goal-conditioned recovery policy)을 통해 실행 가능한 교정 행동을 생성합니다. 이러한 방식으로 UniIntervene는 개입을 수동적인 인간의 교정에서 효율적인 실세계 RL을 위한 가치 인식 회복 프로세스로 전환합니다. 다양한 실세계 조작 작업에 대한 광범위한 실험을 통해 UniIntervene가 최신 HiL-RL 베이스라인 대비 인간의 개입을 57% 줄이면서 평균 성공률을 8.6% 향상시킨다는 것을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기