로봇 조작을 위한 자유 형식 선호 학습 (Freeform Preference Learning)

보상 설계 (Reward design)는 자율 로봇 정책 개선의 핵심적인 병목 현상으로 남아 있습니다. 특히 희소한 성공 라벨 (sparse success labels)이 너무 적은 신호를 제공하고, 이진 선호도 (binary preferences)가 품질에 대한 여러 경쟁적인 개념을 하나의 모호한 신호로 붕괴시키는 장기적 조작 (long-horizon manipulation) 작업에서 더욱 그러합니다. 우리는 자유 형식의 인간 선호도 (freeform human preferences)로부터 로봇 정책을 학습하는 방법인 자유 형식 선호 학습 (Freeform Preference Learning, FPL)을 소개합니다. 주석 작성자 (annotators)에게 두 개의 궤적 (trajectories) 중 어느 것이 전반적으로 더 나은지 묻는 대신, FPL은 그들이 속도, 안전성, 배치 품질 (quality of placement), 또는 주의 깊음 (carefulness)과 같은 자연어 선호 축 (natural-language preference axes)을 정의하고 각 축을 따라 쌍체 선호도 (pairwise preferences)를 제공할 수 있게 합니다. 이러한 주석은 궤적과 선호 라벨을 축별 보상 (axis-specific reward)으로 매핑하는 언어 조건부 보상 모델 (language-conditioned reward model)을 학습하는 데 사용됩니다. 우리는 이 모델을 사용하여 인간이 지정한 여러 차원에 걸쳐 최적화되는 보상 조건부 정책 (reward-conditioned policy)을 훈련합니다. 4개의 실제 환경 및 2개의 시뮬레이션 장기 조작 작업 전반에 걸쳐, FPL은 희소 보상 (sparse-reward) 및 이진 선호도 (binary-preference) 방법보다 38%포인트 향상된 성능을 보였습니다. 성능 향상 외에도, FPL은 명시적인 하위 작업 분할 (subtask segmentation) 없이도 조밀한 진행 신호 (dense progress signals)를 학습하며, 데이터에 존재하지 않는 행동의 구성성 (compositionality of behavior)을 보여주고, 재학습 없이 테스트 시점에 사용자가 정책을 다양한 행동으로 유도 (steer)할 수 있게 합니다. 비디오가 포함된 블로그 포스트는 https://freeform-pl.github.io/fpl.website/ 에서 확인할 수 있습니다.

Insights

로봇 조작을 위한 자유 형식 선호 학습 (Freeform Preference Learning)

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법