본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 11. 17:54

PAWS: Advantage 가중 세그먼트를 활용한 선호도 학습

요약

본 논문은 인간의 궤적 비교를 통해 정책을 학습하는 선호도 기반 강화학습(PbRL)의 한계를 다룹니다. 기존 방법들이 단계별 유틸리티 추정에 의존하여 발생하는 분포 이동 문제를 해결하기 위해, 세그먼트 수준의 어드밴티지 함수를 활용한 PAWS라는 새로운 방법을 제안합니다.

핵심 포인트

  • PAWS는 세그먼트 기반 선호도 학습 방법론입니다.
  • 기존 PbRL은 단계별 유틸리티 추정치에 의존하여 분포 이동 문제가 발생했습니다.
  • PAWS는 훈련과 최적화를 정렬하여 신뢰성 높은 정책 업데이트를 제공합니다.

선호도 기반 강화학습 (PbRL)은 명시적인 보상 설계나 전문가 시연 없이 인간의 궤적 수준 비교로부터 정책을 학습합니다. 기존 방법들은 일반적으로 궤적 또는 세그먼트 수준의 선호도에 대해 유틸리티 함수를 훈련시키면서, 정책 최적화 과정 중에는 단계별(per-step) 유틸리티 추정치에 의존합니다. 이러한 훈련과 추론 간의 불일치는 분포 이동(distribution shift)을 야기하여 시간적 기여 할당(temporal credit assignment)을 심각하게 저하시키고 정책 학습을 제한합니다. 우리는 이 문제를 분석하고, 세그먼트 수준의 어드밴티지 함수를 사용하여 정책 업데이트를 직접 수행하는 세그먼트 기반 선호도 학습 방법인 PAWS를 제안합니다. 유틸리티 훈련과 정책 최적화를 정렬함으로써, PAWS는 궤적 수준의 선호도 정보를 보존하고 신뢰할 수 없는 단계별 학습 신호를 피합니다. 시뮬레이션된 로봇 조작 및 이동(locomotion) 작업에 대한 실험은 PAWS가 기존 PbRL 접근 방식들보다 일관되게 우수한 성능을 보여주었으며, 이는 분포 일치성 선호도 학습의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0