FAR: 테스트 시간 복구 및 지속적인 정책 개선을 위한 실패 인지 재시도 (Failure-Aware Retry)

로봇 정책은 실제 환경에 배치될 때 필연적으로 실패를 경험합니다. 단순한 재시도(Naive retries)는 종종 동일한 실수를 반복하는 반면, 기존의 많은 복구 방법들은 인간의 개입에 의존합니다. 본 논문에서는 로봇이 테스트 시간(test time)에 이전의 실패로부터 학습하고, 그에 따라 행동을 조정하며, 궁극적으로 작업을 자율적으로 완료할 수 있도록 하는 프레임워크인 FAR (Failure-Aware Retry)를 제안합니다. FAR은 실패로부터 선호도 학습 데이터(preference learning data)를 구축하여 정책이 이전의 실패한 행동으로부터 벗어나도록 유도하는 실패 대조 선호도 적응 (Failure-Contrastive Preference Adaptation)과, 재시도 중 국소적 탐색 (local exploration)을 장려하기 위한 경량 액션 섭동 (lightweight action perturbations)을 결합합니다. 나아가 우리는 성공적인 복구 궤적 (successful recovery trajectories)을 지속적인 정책 개선 (continual policy improvement)을 위한 학습 루프에 통합합니다. 시뮬레이션과 실제 환경의 조작 작업(manipulation tasks) 모두에서 수행된 실험 결과, FAR은 성공률과 강건성 (robustness)을 실질적으로 향상시켰으며, 표준 확산 정책 (standard diffusion policy) 대비 시뮬레이션에서 평균 17.6%, 실제 환경에서 11.7%의 이득을 보였습니다. 또한, FAR은 정보가 풍부한 실패 사례를 활용함으로써 지속적인 정책 개선 과정 중 리셋 (reset) 및 타임스텝 (timestep) 예산 모두에서 데이터 효율성을 크게 향상시킵니다.

Insights

FAR: 테스트 시간 복구 및 지속적인 정책 개선을 위한 실패 인지 재시도 (Failure-Aware Retry)

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화