When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior
요약
본 논문은 Behavior Cloning(BC)의 한계점인 온라인 개선 메커니즘 부재를 해결하기 위해 Q2RL이라는 새로운 오프라인-온라인 학습 알고리즘을 제안합니다. Q2RL은 BC 정책으로부터 Q-함수를 추정하고, 이 Q-값을 기반으로 샘플 수집 과정에서 BC와 강화학습(RL) 정책 행동 간의 전환을 관리하여 효율적인 온라인 개선을 가능하게 합니다. D4RL 및 robomimic 벤치마크에서 높은 성공률과 빠른 수렴 속도를 보여, 특히 고정밀 조작 작업에 효과적임을 입증했습니다.
핵심 포인트
- Behavior Cloning(BC)은 오프라인 데이터만 사용하므로 온라인 개선 능력이 부족하다는 한계가 있다.
- 제안된 Q2RL 알고리즘은 BC 정책으로부터 Q-함수를 추정하는 'Q-Estimation'과, 이 Q-값을 이용해 샘플 수집을 관리하는 'Q-Gating' 두 가지 핵심 모듈로 구성된다.
- Q2RL은 기존 오프라인-온라인 학습 방법의 분포 불일치 문제를 해결하며, 효율적인 온라인 개선을 가능하게 한다.
- 실제 조작 작업(예: 파이프 조립)에 적용했을 때, Q2RL은 짧은 시간의 상호작용만으로 높은 성공률과 큰 성능 향상을 달성할 수 있다.
Behavior Cloning (BC) 는 로봇 학습에 매우 효과적인 패러다임으로 등장했습니다. 그러나 BC 는 데모스트레이션이 수집된 후 온라인 개선을 위한 자기 유도 메커니즘을 결여하고 있습니다. 기존 오프라인-온라인 학습 방법은 오프라인 데이터와 온라인 학습 사이의 분포 불일치로 인해 이전에 학습된 좋은 행동에 대한 정책이 대체되는 문제를 일으킵니다. 본 작업에서는 Q2RL (Q-Estimation and Q-Gating from BC for Reinforcement Learning) 을 제안합니다. 이는 효율적인 오프라인-온라인 학습을 위한 알고리즘입니다. 우리 방법은 두 부분으로 구성됩니다: (1) Q-Estimation 은 환경과의 몇 단계의 상호작용을 사용하여 BC 정책에 Q-function 을 추출하고, (2) Q-Gating 은 RL 정책 훈련을 위해 샘플을 수집하기 위해 BC 와 RL 정책 행동 사이의 전환을 각각의 Q-value 에 기반하여 수행합니다. D4RL 및 robomimic 벤치마크의 조작 작업 전반에 걸쳐, Q2RL 은 성공률과 수렴 시간에서 SOTA 오프라인-온라인 학습 베이스라인을 능가했습니다. Q2RL 은 on-robot RL 설정에 적용하기에 효율적이며, 파이프 조립 및 kitting 과 같이 접촉이 풍부하고 고정밀 조작 작업에 대한 견고한 정책을 1~2 시간의 온라인 상호작용으로 학습할 수 있습니다. 성공률은 최대 100% 에 달하며, 원래 BC 정책 대비 최대 3.75 배 개선되었습니다. 코드와 비디오는 https://pages.rai-inst.com/q2rl_website/ 에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기