Vision Language Model 가이드를 통한 잠재 기반 보상 형성 (Potential-based Reward Shaping) 자동화
요약
VLM의 피드백을 활용하여 잠재 기반 보상 형성(PBRS)을 자동화하는 VLM-PBRS 프레임워크를 제안합니다. 경량 VLM의 선호도 데이터를 통해 잠재 함수를 학습함으로써 전문가의 설계 없이도 보상 해킹을 방지하고 샘플 효율성을 높입니다.
핵심 포인트
- VLM 피드백을 통한 잠재 함수 자동 학습 프레임워크 제안
- PBRS를 적용하여 최적 정책 보존 및 보상 해킹 방지
- 경량 VLM을 사용하여 계산 비용 효율성 확보
- Meta-World 및 Franka Kitchen 환경에서 샘플 효율성 검증
희소 보상 (Sparse rewards)은 강화학습 (Reinforcement Learning) 에이전트에게 본질적으로 어려운 과제입니다. 이는 탐색 (Exploration)을 가이드하고, 희소한 성공 보상을 궤적 (Trajectory)의 관련 부분에 정확하게 귀속시키기 위한 중간 피드백이 부족하기 때문입니다. 단순한 보상 형성 (Reward shaping)은 보상 해킹 (Reward hacking)을 유발하여, 의도한 작업을 해결하는 대신 보조 신호를 악용하는 정책 (Policy)을 생성할 수 있습니다. 잠재 기반 보상 형성 (Potential-based reward shaping, PBRS)은 최적 정책 집합의 보존을 보장하지만, 상태 공간 (State space)에 대한 휴리스틱 잠재 함수 (Heuristic potential function)의 정의를 필요로 합니다.
본 연구에서는 Vision Language Model (VLM) 피드백으로부터 잠재 함수를 직접 학습하는 VLM 가이드 PBRS 프레임워크인 VLM-PBRS를 소개합니다. 우리는 경량 VLM에 질의하여 이미지 쌍에 대한 선호도 (Preferences)를 얻고, 이러한 선호도를 사용하여 잠재 함수의 모델을 학습합니다. 이 접근 방식은 잠재 기반 보상 형성 (PBRS)에 기반하므로 원래의 최적 정책을 보존하며, 전문가가 설계한 보상 형성 항 (Reward shaping terms)의 필요성을 제거합니다. 대규모 VLM은 정책 학습 중에 반복적으로 호출하기에 비용이 너무 많이 들기 때문에, 우리는 더 작고 계산 효율적인 VLM을 채택합니다. 결과적으로 생성된 선호도 레이블 (Preference labels)의 정확도는 낮아질 수 있지만, 실증적 증거에 따르면 이러한 선호도 레이블이 학습을 가속화하는 데 여전히 사용될 수 있음을 보여줍니다.
우리는 Meta-World 및 Franka Kitchen 환경에서 우리의 방법을 실증적으로 검증하였으며, VLM 선호도 레이블의 정확도와 샘플 효율성 (Sample efficiency) 개선 사이의 연결 고리를 강조합니다. 우리의 기여는 세 가지입니다: (1) PBRS를 위한 잠재 함수를 합성하기 위해 VLM 선호도 기반 학습을 적용한 첫 사례, (2) 소형 VLM을 활용한 원칙적이고 저비용인 솔루션, (3) 개선된 샘플 효율성과 보상 해킹에 대한 강건성 (Robustness)에 대한 광범위한 실증적 입증입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기