arXiv논문2026. 06. 30. 11:38

행동 언클로닝(Behavior Uncloning): 추론 시 제어 없이 정책 가중치로 모드 재지정(Mode Redirection) 증류하기

요약

행동 복제(Behavior Cloning) 모델이 원치 않는 행동 모드를 학습하는 문제를 해결하기 위해 MoRE(Mode Redirection) 기법을 제안합니다. 이 방식은 추론 시 오버헤드 없이 정책 가중치에 재지정 신호를 증류하여 원하는 행동 모드로 유도합니다.

핵심 포인트

MoRE는 추론 시 제어 없이 정책 가중치 편집만으로 행동 모드 재지정 가능
데이터 재학습이나 추론 시 추가적인 오버헤드 없이 원치 않는 모드 억제
8가지 환경 테스트 결과, 기존 혼합 모드 정책 대비 성공률(SR) 44%p 향상
Diffusion Policy 및 Pi0.5 VLA 등 다양한 로봇 정책 백본에 일반화 가능

행동 복제(Behavior-cloned) 정책은 시연 데이터셋으로부터 배포 시 안전하지 않거나 바람직하지 않은 모드를 포함하여 여러 행동 모드를 학습하는 경우가 많습니다. 예를 들어, 다양한 물건 전달(handover) 시연을 통해 학습된 정책은 칼날을 먼저 내미는 방식으로 물건을 전달하는 법을 배울 수 있습니다. 데이터 큐레이션(data curation)이나 추론 시 제어(inference-time steering)와 같은 표준적인 해결책은 전체 재학습을 위해 원래의 시연 데이터에 접근해야 하거나, 추론 시 상당한 오버헤드를 추가합니다. 이러한 격차를 해소하기 위해, 우리는 짧은 "언클로닝(uncloning)" 단계를 통해 정책 롤아웃(rollouts)을 원하는 행동 모드로 재지정하는 MoRE(Mode Redirection)를 제안합니다. 구체적으로, MoRE는 행동을 제어하기 위해 임시 모드 분류기(mode classifier)로부터의 재지정 신호를 정책 가중치(policy weights)로 증류(distill)합니다. 유지 손실(retain loss)은 원하는 모드의 역량(competence)을 보존함으로써 이러한 편집의 균형을 맞추며, 이를 통해 단독 정책이 추론 시 오버헤드 없이 원치 않는 모드를 억제할 수 있게 합니다. 8가지 시뮬레이션 및 실제 환경 작업에서 MoRE는 기존의 혼합 모드(mixed-mode) 정책 대비 평균 배포 성공률(SR)을 44%포인트 향상시켰습니다. 비교된 모든 적응(adaptation) 및 제어(steering) 베이스라인 중에서 MoRE는 작업 역량과 추론 속도를 유지하면서도 가장 강력한 SR을 달성하며, 필터링된 데이터 재학습(filtered-data retraining) 기준치에 근접합니다. 또한 MoRE는 Diffusion Policy 및 Pi0.5 VLA를 포함한 로봇 정책 백본(backbones), 다양한 작업 범주 및 실제 배포 환경 전반에 걸쳐 일반화됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

행동 언클로닝(Behavior Uncloning): 추론 시 제어 없이 정책 가중치로 모드 재지정(Mode Redirection) 증류하기

요약

핵심 포인트

댓글