arXiv논문2026. 06. 09. 12:49

모방 학습을 위한 차이 인식 검색 정책 (Difference-Aware Retrieval Policies)

요약

행동 복제(Behavior Cloning)의 누적 오차 문제를 해결하기 위해 준-파라미터 검색 기반의 DARP 방식을 제안합니다. 국소 이웃 구조를 활용하여 전문가 시연 데이터를 재사용함으로써 일반화 성능을 높이는 것이 핵심입니다.

핵심 포인트

누적 오차로 인한 분포 외 상태의 일반화 문제 완화
준-파라미터 검색 기반의 DARP 방법론 제시
추가 데이터나 전문가 피드백 없이 성능 향상 가능
로봇 조작 등 다양한 도메인에서 15-46% 성능 향상 입증

행동 복제 (Behavior Cloning)를 통한 파라미터 기반 모방 학습 (Parametric imitation learning)은 배포 중 발생하는 누적 오차 (Compounding errors)로 인해 분포 외 (Out-of-distribution) 상태에 대한 일반화 성능이 저하될 수 있습니다. 본 연구에서는 준-파라미터 (Semi-parametric) 검색 기반 모방 학습 접근 방식을 통해 추론 (Inference) 과정에서 훈련 데이터를 재사용함으로써 이러한 문제를 완화할 수 있음을 보여줍니다. 우리는 모방 학습을 위한 차이 인식 검색 정책 (Difference-Aware Retrieval Policies for Imitation Learning, DARP)을 제시합니다. 이는 직접적인 상태-행동 매핑 (State-to-action mappings) 대신 국소 이웃 구조 (Local neighborhood structure)의 관점에서 모방 학습 문제를 재파라미터화 (Reparameterizing)함으로써 이러한 한계를 해결하는 준-파라미터 검색 기반 모방 학습 접근 방식입니다. DARP는 전역 정책 (Global policy)을 학습하는 대신, 전문가 시연 (Expert demonstrations)의 $k$-최근접 이웃 ($k$-nearest neighbors), 그에 대응하는 행동, 그리고 이웃 상태와 쿼리 상태 (Query states) 사이의 상대적 거리 벡터를 기반으로 행동을 예측하도록 모델을 훈련합니다. DARP는 표준 행동 복제 (Behavior cloning)를 위해 설정된 가정 외에 추가적인 가정을 요구하지 않습니다. 즉, 추가적인 데이터 수집, 온라인 전문가 피드백, 또는 작업 특정 지식 (Task-specific knowledge)이 필요하지 않습니다. 우리는 연속 제어 (Continuous control) 및 로봇 조작 (Robotic manipulation)을 포함한 다양한 도메인과 고차원 시각적 특징 (High-dimensional visual features)을 포함한 다양한 표현 방식(Representations)에 걸쳐 표준 행동 복제 대비 15-46%의 일관된 성능 향상을 입증했습니다. 코드와 데모는 https://weirdlabuw.github.io/darp-site/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

모방 학습을 위한 차이 인식 검색 정책 (Difference-Aware Retrieval Policies)

요약

핵심 포인트

댓글