arXiv논문2026. 06. 19. 10:31

강화학습 (RL) 환경 제품군 개발을 위한 모델 주도 접근 방식

요약

강화학습(RL) 에이전트의 학습을 위해 다양한 환경 변형 제품군을 효율적으로 생성하는 모델 주도 접근 방식을 제안합니다. 하이브리드 유전 알고리즘과 모델 변환 엔진을 활용하여 기존의 수동적이고 노동 집약적인 환경 개발 프로세스를 자동화합니다.

핵심 포인트

RL 에이전트의 수렴을 위한 환경 변형 제품군 생성의 중요성 강조
하이브리드 유전 알고리즘을 통한 전역 및 지역 탐색 결합
모델 변환 엔진을 활용한 변이 및 제약 조건 처리
산불 완화 시나리오 및 커리큘럼 학습을 통한 방법론 검증

가상 훈련 환경은 강화학습 (RL) 에이전트가 학습하고, 적응하며, 의미 있는 행동을 보여주는 소프트웨어 집약적 시스템입니다. 가상 훈련 환경은 실제 환경에서 에이전트를 훈련시키는 것에 비해 안전하고 비용 효율적인 대안을 제공합니다. 그러나 수렴하기 위해서, 대부분의 현실적인 RL 문제들은 다수의, 주로 유사하지만 약간씩 다른 환경들, 즉 환경 변형 제품군 (families of environment variants)에서의 훈련을 필요로 합니다. 환경 제품군의 전형적인 개발 프로세스는 노동 집약적이고 오류가 발생하기 쉬운 수동 작업이며, 확장성이 떨어집니다. 이러한 문제를 완화하기 위해, 본 논문에서는 RL 훈련 환경 제품군을 개발하기 위한 모델 주도 접근 방식을 제안합니다. 환경 제품군을 얻기 위해, 우리는 접근 방식과 프로토타입 도구를 개발합니다. 우리의 접근 방식에서는, 개체군 기반의 전역 탐색 (global search)과 휴리스틱 지역 탐색 (heuristic local search)의 결합인 하이브리드 유전 알고리즘 (hybrid genetic algorithm)이 환경 제품군을 생성합니다. 변이 (Mutations)와 제약 조건 (constraints)은 모델 변환 (model transformations)으로 표현되며, 최첨단 모델 변환 엔진에 의해 탐색 프로세스로 실행됩니다. 우리는 산불 완화 시나리오와 환경 제품군에 의존하는 특정 학습 패러다임인 커리큘럼 학습 (curriculum learning)에서 우리 접근 방식의 건전성을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습 (RL) 환경 제품군 개발을 위한 모델 주도 접근 방식

요약

핵심 포인트

댓글