로봇 조작을 위한 자유 형식 선호 학습 (Freeform Preference Learning)
요약
로봇의 장기 조작 작업을 위해 자연어 선호 축을 활용하는 자유 형식 선호 학습(FPL) 방법을 제안합니다. 기존의 이진 선호도 방식보다 정교한 보상 모델 학습이 가능하며, 다양한 환경에서 성능을 크게 향상시켰습니다.
핵심 포인트
- 자연어 선호 축(속도, 안전성 등)을 통한 정교한 보상 설계
- 기존 이진 선호도 방식 대비 성능 38%p 향상
- 명시적 하위 작업 분할 없이도 조밀한 진행 신호 학습 가능
- 재학습 없이 테스트 시점에 사용자의 의도대로 정책 유도 가능
보상 설계 (Reward design)는 자율 로봇 정책 개선의 핵심적인 병목 현상으로 남아 있습니다. 특히 희소한 성공 라벨 (sparse success labels)이 너무 적은 신호를 제공하고, 이진 선호도 (binary preferences)가 품질에 대한 여러 경쟁적인 개념을 하나의 모호한 신호로 붕괴시키는 장기적 조작 (long-horizon manipulation) 작업에서 더욱 그러합니다. 우리는 자유 형식의 인간 선호도 (freeform human preferences)로부터 로봇 정책을 학습하는 방법인 자유 형식 선호 학습 (Freeform Preference Learning, FPL)을 소개합니다. 주석 작성자 (annotators)에게 두 개의 궤적 (trajectories) 중 어느 것이 전반적으로 더 나은지 묻는 대신, FPL은 그들이 속도, 안전성, 배치 품질 (quality of placement), 또는 주의 깊음 (carefulness)과 같은 자연어 선호 축 (natural-language preference axes)을 정의하고 각 축을 따라 쌍체 선호도 (pairwise preferences)를 제공할 수 있게 합니다. 이러한 주석은 궤적과 선호 라벨을 축별 보상 (axis-specific reward)으로 매핑하는 언어 조건부 보상 모델 (language-conditioned reward model)을 학습하는 데 사용됩니다. 우리는 이 모델을 사용하여 인간이 지정한 여러 차원에 걸쳐 최적화되는 보상 조건부 정책 (reward-conditioned policy)을 훈련합니다. 4개의 실제 환경 및 2개의 시뮬레이션 장기 조작 작업 전반에 걸쳐, FPL은 희소 보상 (sparse-reward) 및 이진 선호도 (binary-preference) 방법보다 38%포인트 향상된 성능을 보였습니다. 성능 향상 외에도, FPL은 명시적인 하위 작업 분할 (subtask segmentation) 없이도 조밀한 진행 신호 (dense progress signals)를 학습하며, 데이터에 존재하지 않는 행동의 구성성 (compositionality of behavior)을 보여주고, 재학습 없이 테스트 시점에 사용자가 정책을 다양한 행동으로 유도 (steer)할 수 있게 합니다. 비디오가 포함된 블로그 포스트는 https://freeform-pl.github.io/fpl.website/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기