arXiv논문2026. 05. 07. 12:45

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior

요약

본 논문은 Behavior Cloning(BC)의 한계점인 온라인 개선 메커니즘 부재를 해결하기 위해 Q2RL이라는 새로운 오프라인-온라인 학습 알고리즘을 제안합니다. Q2RL은 BC 정책으로부터 Q-함수를 추정하고, 이 Q-값을 기반으로 샘플 수집 과정에서 BC와 강화학습(RL) 정책 행동 간의 전환을 관리하여 효율적인 온라인 개선을 가능하게 합니다. D4RL 및 robomimic 벤치마크에서 높은 성공률과 빠른 수렴 속도를 보여, 특히 고정밀 조작 작업에 효과적임을 입증했습니다.

핵심 포인트

Behavior Cloning(BC)은 오프라인 데이터만 사용하므로 온라인 개선 능력이 부족하다는 한계가 있다.
제안된 Q2RL 알고리즘은 BC 정책으로부터 Q-함수를 추정하는 'Q-Estimation'과, 이 Q-값을 이용해 샘플 수집을 관리하는 'Q-Gating' 두 가지 핵심 모듈로 구성된다.
Q2RL은 기존 오프라인-온라인 학습 방법의 분포 불일치 문제를 해결하며, 효율적인 온라인 개선을 가능하게 한다.
실제 조작 작업(예: 파이프 조립)에 적용했을 때, Q2RL은 짧은 시간의 상호작용만으로 높은 성공률과 큰 성능 향상을 달성할 수 있다.

Behavior Cloning (BC) 는 로봇 학습에 매우 효과적인 패러다임으로 등장했습니다. 그러나 BC 는 데모스트레이션이 수집된 후 온라인 개선을 위한 자기 유도 메커니즘을 결여하고 있습니다. 기존 오프라인-온라인 학습 방법은 오프라인 데이터와 온라인 학습 사이의 분포 불일치로 인해 이전에 학습된 좋은 행동에 대한 정책이 대체되는 문제를 일으킵니다. 본 작업에서는 Q2RL (Q-Estimation and Q-Gating from BC for Reinforcement Learning) 을 제안합니다. 이는 효율적인 오프라인-온라인 학습을 위한 알고리즘입니다. 우리 방법은 두 부분으로 구성됩니다: (1) Q-Estimation 은 환경과의 몇 단계의 상호작용을 사용하여 BC 정책에 Q-function 을 추출하고, (2) Q-Gating 은 RL 정책 훈련을 위해 샘플을 수집하기 위해 BC 와 RL 정책 행동 사이의 전환을 각각의 Q-value 에 기반하여 수행합니다. D4RL 및 robomimic 벤치마크의 조작 작업 전반에 걸쳐, Q2RL 은 성공률과 수렴 시간에서 SOTA 오프라인-온라인 학습 베이스라인을 능가했습니다. Q2RL 은 on-robot RL 설정에 적용하기에 효율적이며, 파이프 조립 및 kitting 과 같이 접촉이 풍부하고 고정밀 조작 작업에 대한 견고한 정책을 1~2 시간의 온라인 상호작용으로 학습할 수 있습니다. 성공률은 최대 100% 에 달하며, 원래 BC 정책 대비 최대 3.75 배 개선되었습니다. 코드와 비디오는 https://pages.rai-inst.com/q2rl_website/ 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior

요약

핵심 포인트

댓글