arXiv논문2026. 04. 30. 12:35

제한된 시뮬레이션 훈련 환경에서 검색 및 구조 UAV 임무에 적용되는 규칙 기반 고수준 코칭: 목표 조건부 강화학습을 위한 계층적 의사결정

요약

본 논문은 제한적인 시뮬레이션 환경에서 검색 및 구조(SAR) 임무를 수행하는 UAV를 위한 계층적 의사결정 프레임워크를 제안합니다. 이 프레임워크는 고정된 규칙 기반의 고수준 조언자와 온라인 목표 조건부 강화학습 컨트롤러를 결합하여, 안전하고 해석 가능한 지침을 제공하며 동시에 환경 변화에 적응하는 능력을 갖춥니다. 특히 사전 학습이 불가능한(no-pretraining) 배포 체제에서도 높은 초기 안전성과 샘플 효율성을 입증했습니다.

핵심 포인트

UAV 임무를 위해 고수준 규칙 기반 조언자와 저수준 강화학습 컨트롤러를 결합한 계층적 의사결정 프레임워크를 제시함.
고수준 조언자는 오프라인에서 정의되어 해석 가능한 안전 지침을 제공하며, 결정론적 규칙으로 작동함.
저수준 RL 컨트롤러는 온라인 목표 조건부 학습과 모드 인식 우선순위 리플레이를 통해 경험 재사용 및 환경 적응성을 높임.
제안된 방법은 충돌 종료를 줄여 초기 안전성과 샘플 효율성을 개선하면서도, 시나리오별 동역학에 온라인으로 적응하는 능력을 유지함.

본 논문은 제한된 시뮬레이션 (simulation) 훈련 환경하의 검색 및 구조 (SAR) 시나리오를 동기화하여 무인 항공기 (UAV) 임무를 위한 계층적 의사결정 프레임워크를 제시합니다. 해당 프레임워크는 고정된 규칙 기반 고수준 조언자 (high-level advisor) 와 온라인 목표 조건부 (goal-conditioned) 저수준 강화학습 (RL) 컨트롤러를 결합합니다. 초기 적응력을 견고하게 검증하기 위해 엄격한 사전 학습 불가 (no-pretraining) 배포 체제를 또한 고려합니다. 고수준 조언자는 구조화된 작업 명세로부터 오프라인에서 정의되며 결정론적 규칙으로 컴파일됩니다. 이 조언자는 권장 행동, 회피 행동 및 체제 의존적 중재 가중치를 통해 해석 가능한 임무 및 안전 인식 (safety-aware) 지침을 제공합니다. 저수준 컨트롤러는 작업 정의된 밀집 보상 (dense rewards) 에서 온라인으로 학습하며, 규칙 유래 메타데이터로 보강된 모드 인식 우선순위 리플레이 (mode-aware prioritized replay) 메커니즘을 통해 경험을 재사용합니다. 우리는 배터리 인식 다중 목표 배송 및 장애물 풍부한 환경에서의 이동 표적 배송이라는 두 가지 작업에서 프레임워크를 평가했습니다. 두 작업 모두에서 제안된 방법은 충돌 종료 (collision terminations) 를 줄임으로써 주로 초기 안전성과 샘플 효율성을 개선하면서도 시나리오별 동역학에 온라인으로 적응하는 능력을 유지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

제한된 시뮬레이션 훈련 환경에서 검색 및 구조 UAV 임무에 적용되는 규칙 기반 고수준 코칭: 목표 조건부 강화학습을 위한 계층적 의사결정

요약

핵심 포인트

댓글