arXiv논문2026. 06. 02. 10:48

강화학습 (RL) 일반화 성능 평가를 위한 인증서 가이드 방식

요약

강화학습(RL) 알고리즘의 미학습 작업에 대한 일반화 성능을 평가하기 위한 논리 기반 프레임워크를 제안합니다. 신경 인증서 함수를 통해 생성된 궤적을 검증함으로써 RL 알고리즘의 일반화 능력을 정량적으로 측정하고 입증합니다.

핵심 포인트

미학습 작업에 대한 RL 일반화 평가 프레임워크 제시
신경 인증서 함수를 통한 궤적 검증 방식 도입
인증서 위반 비율과 일반화 성공률 간의 상관관계 입증
연속 환경에서의 최첨단 RL 알고리즘 성능 검증

본 연구는 강화학습 (RL) 알고리즘이 보지 못한 작업(unseen tasks)으로 일반화하는 능력을 평가하기 위한 논리 기반 프레임워크를 제시합니다. 우리의 프레임워크는 작업 역학 (task dynamics)의 구조적 유사성을 특징으로 하는 일련의 귀납적 도달-회피 (inductive reach-avoid) 작업군을 정의하여, 일반화 능력의 평가를 가능하게 합니다. 우리는 핵심 조건을 강제함으로써 RL 알고리즘에 의해 생성된 궤적 (trajectories)을 검증하는 신경 인증서 함수 (neural certificate function)를 도입하며, 이는 RL 일반화의 리트머스 시험지 역할을 합니다. 우리는 도전적인 연속 환경 (continuous environments)에서 여러 최첨단 일반화 가능 RL 알고리즘에 대해 일반화를 인증하는 우리 방법론의 능력을 실증적으로 입증합니다. 연구 결과, 인증서 함수 위반 (certificate function violations) 비율이 낮을수록 성공적으로 해결된 테스트 작업의 수가 많다는 상관관계를 보여주었으며, 이는 RL 알고리즘의 일반화 능력을 평가하고 구별하는 데 있어 우리 프레임워크의 효과를 강조합니다. 본 연구는 RL 일반화 벤치마킹을 위한 원칙적인 접근 방식을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습 (RL) 일반화 성능 평가를 위한 인증서 가이드 방식

요약

핵심 포인트

댓글