arXiv논문2026. 05. 05. 12:41

강화학습 (RL) 일반화 성능 향상을 위한 알고리즘 및 하이퍼파라미터 SHAP 분석

요약

본 논문은 강화학습(RL) 모델의 성능이 알고리즘 및 하이퍼파라미터 설정에 매우 민감하며 발생하는 환경 간 일반화 격차 문제를 해결하기 위한 설명 가능한 프레임워크를 제안합니다. 연구진은 SHapley Additive exPlanations (SHAP) 값을 활용하여 로봇 환경 간 RL 성능을 평가하고, 특정 구성 요소가 일반화 격차에 기여하는 상대적 비중을 정량적으로 분해했습니다. 이를 통해 얻은 통찰력은 실무자들이 RL 시스템의 일반화 성능을 개선하기 위한 실행 가능한 가이드라인으로 활용될 수 있습니다.

핵심 포인트

RL 모델의 환경 간 일반화 격차는 실제 배포 시 주요 문제로 작용하며, 구성 요소별 기여도 분석이 필요하다.
SHAP(Shapley Additive exPlanations)를 사용하여 RL 성능에 대한 알고리즘 및 하이퍼파라미터의 영향을 정량적으로 분해하는 설명 가능한 프레임워크를 제시했다.
연구는 Shapley 값을 일반화 가능성과 연결하는 이론적 기반을 확립하고, 구성 요소 영향 패턴을 분석하여 실질적인 가이드라인을 제공한다.
SHAP 가이드드 구성 선택(component selection) 방법을 통해 RL 시스템의 일반화 성능 개선에 기여할 수 있다.

강화학습 (Reinforcement Learning, RL) 의 발전에도 불구하고 모델 성능은 알고리즘과 하이퍼파라미터 설정에 매우 민감하며, 환경 간 일반화 격차는 실제 배포를 복잡하게 만듭니다. 이전 연구는 RL 일반화를 다루었지만, 특정 구성 요소가 일반화 격차에 기여하는 상대적 비중을 정량적으로 분해하고 체계적으로 구성 선택에 활용하지 않았습니다. 이 한계를 해결하기 위해, 우리는 SHapley Additive exPlanations (SHAP) 를 사용하여 로봇 환경 간 RL 성능을 평가하며 구성 요소의 영향을 정량화하는 설명 가능한 프레임워크를 제안합니다. 우리는 Shapley 값을 일반화 가능성과 연결하는 이론적 기반을 확립하고, 구성 요소 영향 패턴을 경험적으로 분석하며, 일반화를 향상시키기 위해 SHAP 가이드드 구성 선택을 소개합니다. 우리의 결과는 알고리즘 및 하이퍼파라미터에 따라 다른 패턴을 보여주며, 다양한 과제와 환경 간 일관된 구성 요소 영향을 보여줍니다. 이러한 통찰력을 구성 선택에 적용함으로써 우리는 RL 일반화 성능을 개선하고, 실무자에게 실행 가능한 지침을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습 (RL) 일반화 성능 향상을 위한 알고리즘 및 하이퍼파라미터 SHAP 분석

요약

핵심 포인트

댓글