목표-행동 정렬: MORL 정책 선택을 위한 진단 도구
요약
다중 목표 강화학습(MORL)에서 가치 벡터만으로는 파악하기 어려운 정책 간의 행동적 차이를 식별하는 진단 도구를 제안합니다. 파레토 프런트를 따르는 정책들의 궤적 변동을 정량적·시각적으로 분석하여 정책 검사를 지원합니다.
핵심 포인트
- 스칼라화 방식의 취약성인 가중치 변화에 따른 정책 급변 문제 지적
- 가치 벡터에 가려진 정책 간의 실제 행동적 차이를 탐색하는 워크플로우 제안
- 정량적 및 시각적 도구를 통한 파레토 프런트 정책 검사 지원
- 그리드 예시 및 연속 제어 벤치마크를 통한 방법론 검증 완료
실제 세계의 의사결정은 종종 여러 개의 상충하는 목표를 동시에 최적화할 것을 요구합니다. 강화학습 (RL)에서 이는 일반적으로 스칼라화 함수 (scalarization function)를 통해 보상 신호를 단일 스칼라 목표로 결합하여 해결하지만, 이는 취약할 수 있습니다. 즉, 가중치의 작은 변화가 급격히 다른 정책을 유도할 수 있습니다. 대신 다중 목표 강화학습 (MORL)은 목표 간의 트레이드오프 (trade-offs)를 명시적으로 나타내는 정책 세트를 생성합니다. 그러나 이러한 정책들은 일반적으로 가치 벡터 (value vectors)를 통해서만 의사결정자에게 제시되는데, 이는 상당한 행동적 차이를 가릴 수 있습니다. 즉, 서로 다른 궤적 (trajectories)을 유도하는 정책들이 기대 수익 (expected returns)만으로 평가될 때는 구별할 수 없는 것처럼 보일 수 있습니다. 우리는 목표 값만으로는 드러나지 않는 파레토 프런트 (Pareto front)를 따른 행동적 변동을 자동으로 강조하는 탐색적 진단 워크플로우를 제안하며, 정책 검사를 지원하기 위한 정량적 및 시각적 도구를 모두 제공합니다. 우리는 간단한 그리드 (grid) 예시에서 우리의 접근 방식을 검증하고 이를 연속 제어 (continuous control) 벤치마크로 확장하여, 문제의 복잡성이 증가함에 따라 효과가 유지됨을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기