FAR: 테스트 시간 복구 및 지속적인 정책 개선을 위한 실패 인지 재시도 (Failure-Aware Retry)
요약
로봇이 테스트 시간 중 실패를 인지하고 이전의 실수를 바탕으로 행동을 수정하여 작업을 완수하는 FAR 프레임워크를 제안합니다. 실패 대조 선호도 적응과 경량 액션 섭동을 결합하여 로봇의 자율적 복구 능력과 데이터 효율성을 높였습니다.
핵심 포인트
- 실패로부터 선호도 학습 데이터를 구축하여 정책 개선
- 실패 대조 선호도 적응 및 경량 액션 섭동 기술 결합
- 시뮬레이션 및 실제 환경에서 성공률과 강건성 향상
- 성공적인 복구 궤적을 통한 지속적인 정책 개선 루프 구축
- 데이터 효율성을 높여 리셋 및 타임스텝 예산 절감
로봇 정책은 실제 환경에 배치될 때 필연적으로 실패를 경험합니다. 단순한 재시도(Naive retries)는 종종 동일한 실수를 반복하는 반면, 기존의 많은 복구 방법들은 인간의 개입에 의존합니다. 본 논문에서는 로봇이 테스트 시간(test time)에 이전의 실패로부터 학습하고, 그에 따라 행동을 조정하며, 궁극적으로 작업을 자율적으로 완료할 수 있도록 하는 프레임워크인 FAR (Failure-Aware Retry)를 제안합니다. FAR은 실패로부터 선호도 학습 데이터(preference learning data)를 구축하여 정책이 이전의 실패한 행동으로부터 벗어나도록 유도하는 실패 대조 선호도 적응 (Failure-Contrastive Preference Adaptation)과, 재시도 중 국소적 탐색 (local exploration)을 장려하기 위한 경량 액션 섭동 (lightweight action perturbations)을 결합합니다. 나아가 우리는 성공적인 복구 궤적 (successful recovery trajectories)을 지속적인 정책 개선 (continual policy improvement)을 위한 학습 루프에 통합합니다. 시뮬레이션과 실제 환경의 조작 작업(manipulation tasks) 모두에서 수행된 실험 결과, FAR은 성공률과 강건성 (robustness)을 실질적으로 향상시켰으며, 표준 확산 정책 (standard diffusion policy) 대비 시뮬레이션에서 평균 17.6%, 실제 환경에서 11.7%의 이득을 보였습니다. 또한, FAR은 정보가 풍부한 실패 사례를 활용함으로써 지속적인 정책 개선 과정 중 리셋 (reset) 및 타임스텝 (timestep) 예산 모두에서 데이터 효율성을 크게 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기