BORA: 오프라인 강화학습(Offline RL)과 온라인 잔차 적응(Online Residual Adaptation)을 통한 실세계 숙련된
요약
BORA는 VLA 모델의 숙련된 로봇 조작을 위해 설계된 오프라인-투-온라인 강화학습 프레임워크입니다. 오프라인 비평가 구축과 온라인 잔차 적응 메커니즘을 통해 실세계의 실행 오류를 줄이고 물리적 환경 적응력을 높입니다.
핵심 포인트
- 오프라인-투-온라인 RL 사후 학습 프레임워크 BORA 제안
- 인지 토큰과 행동 청크를 활용한 행동 조건부 가치 가이드 도입
- 인간 참여형(HiL) 청크 단위 잔차 적응으로 실행 오류 완화
- 기존 방식 대비 성공률 33%, 미학습 객체 일반화 43% 향상
시각-언어-행동 (Vision-Language-Action, VLA) 모델은 시각-언어 이해를 실세계 로봇 조작에 접목하기 위한 유망한 패러다임으로 부상했습니다. 그러나 고차원적인 손 제어와 누적되는 실행 오류로 인해 VLA 정책(Policy)의 숙련된 조작 (Dexterous manipulation)은 여전히 어려운 과제로 남아 있으며, 이는 시각적으로 근거가 있는 행동 생성과 물리적으로 신뢰할 수 있는 숙련된 실행 사이의 간극을 메우기 위해 실세계 강화학습 (RL) 사후 학습 (Post-training)을 필수적으로 만듭니다. 하지만 고차원적인 숙련된 탐색은 실세계에서 시간적 불일치 (Temporal inconsistency), 샘플 비효율성 (Sample inefficiency) 및 하드웨어 위험을 초래하는 경우가 많습니다. 이러한 과제를 해결하기 위해, 우리는 실세계 숙련된 VLA 모델을 위해 설계된 오프라인-투-온라인 (Offline-to-online) RL 사후 학습 프레임워크인 BORA를 제안합니다. 오프라인 단계에서 BORA는 VLM의 인지 토큰 (Cognition tokens)과 행동 청크 (Action chunks)를 모두 입력으로 받는 비평가 (Critic)를 구축합니다. 이러한 설계는 행동 조건부 가치 가이드 (Action-conditioned value guidance)를 가능하게 하여, 비평가가 시각적 문맥(Visual context)만으로는 부족한 숙련된 손 동작을 평가할 수 있도록 합니다. 이어지는 온라인 단계 동안, BORA는 VLA 베이스를 동결하고, 실세계 실행 오류를 완화하며 실제 물리적 환경 내에서 오프라인으로 학습된 의도를 더욱 교정하기 위해 경량화된 인간 참여형 (Human-in-the-Loop, HiL) 청크 단위 잔차 적응 (Chunk-wise residual adaptation) 메커니즘을 도입합니다. 오프라인 비평가를 상속하고 개입 기반 보상 (Intervention-driven rewards)을 채택함으로써, BORA는 사전 학습된 정책을 안정적인 사전 지식 (Prior)으로 유지하면서 실행 불일치를 효과적으로 교정하고 실세계의 물리적 변동에 적응합니다. 다섯 가지 복잡한 실세계 숙련된 작업에 대한 광범위한 평가 결과, BORA는 순수 모방 학습 (Imitation learning) 및 전통적인 분리형 RL (Decoupled RL) 베이스라인을 크게 능가하며, 표준 설정에서 평균 성공률이 33% 절대적으로 증가하고 미학습 객체 일반화 (Unseen object generalization) 성능이 최대 43% 향상됨을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기