오프라인 강화학습(Offline RL)에서의 일반화: 비관주의(Pessimism)의 양보다 구조가 더 중요하다
요약
오프라인 강화학습에서 일반화 성능은 비관주의의 양보다 비관적 구조가 데이터의 대칭성을 존중하는지에 달려 있음을 입증합니다. 비대칭적 가치 함수가 과도하게 비관적인 대칭적 함수보다 성능이 낮을 수 있음을 증명하며, 데이터 증강(DA)을 정책 추출 과정의 일관성 손실로 적용하는 방안을 제안합니다.
핵심 포인트
- 비관주의의 양보다 구조적 대칭성 유지가 일반화의 핵심
- 비대칭적 가치 함수가 과도한 비관적 대칭 함수보다 우수할 수 있음
- 데이터 증강(DA)을 정책 추출 시 일관성 손실로 적용할 것을 제안
- Reacher 환경에서 IQL 및 CQL을 통해 이론적 결과 검증
오프라인 강화학습 (Offline RL)에서 비관주의 (Pessimism)는 과대평가 편향 (Overestimation bias)을 상쇄하지만, 지나치게 보수적인 태도는 특정 형태의 일반화 (Generalization)를 방해하는 것과 연관되어 왔습니다. 그러나 본 논문에서는 문맥적 MDP (Contextual MDPs, CMDPs)에서 지나치게 비관적인 것이 본질적으로 최적의 일반화를 방해하지는 않는다는 것을 입증합니다. 대신, 우리는 성공적인 일반화가 비관주의의 양에 달려 있는 것이 아니라, 비관적 구조가 최적해의 기저에 깔린 대칭성 (Symmetries)을 존중하는지 여부에 달려 있다고 주장합니다. 우리는 약간의 비관성을 띠면서 비대칭적인 가치 함수 (Value function)가 지나치게 비관적이면서 대칭적인 가치 함수보다 일반화 성능이 더 낮을 수 있음을 증명합니다. 오프라인 RL에서 비관주의의 구조는 데이터셋 커버리지 (Dataset coverage)의 구조에 의해 결정됩니다. 따라서 대칭적인 가치 함수를 강제하는 것은 쉽지 않을 수 있으며, 데이터 증강 (Data Augmentation, DA)과 같은 기술이 필요할 수 있습니다. 우리의 이론적 결과에 영감을 받아, 우리는 DA가 증강된 데이터셋에 대해 (일반적인) 오프라인 학습을 수행하는 흔한 관행보다는, 정책 추출 (Policy extraction) 과정 중 일관성 손실 (Consistency loss)을 통해 적용될 때 가장 잘 적용될 수 있다고 주장합니다. 이는 회전 대칭성을 가진 Reacher 환경에서 IQL 및 CQL을 사용하여 경험적으로 검증되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기