본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 12:35

제한된 시뮬레이션 훈련 환경에서 검색 및 구조 UAV 임무에 적용되는 규칙 기반 고수준 코칭: 목표 조건부 강화학습을 위한 계층적 의사결정

요약

본 논문은 제한적인 시뮬레이션 환경에서 검색 및 구조(SAR) 임무를 수행하는 UAV를 위한 계층적 의사결정 프레임워크를 제안합니다. 이 프레임워크는 고정된 규칙 기반의 고수준 조언자와 온라인 목표 조건부 강화학습 컨트롤러를 결합하여, 안전하고 해석 가능한 지침을 제공하며 동시에 환경 변화에 적응하는 능력을 갖춥니다. 특히 사전 학습이 불가능한(no-pretraining) 배포 체제에서도 높은 초기 안전성과 샘플 효율성을 입증했습니다.

핵심 포인트

  • UAV 임무를 위해 고수준 규칙 기반 조언자와 저수준 강화학습 컨트롤러를 결합한 계층적 의사결정 프레임워크를 제시함.
  • 고수준 조언자는 오프라인에서 정의되어 해석 가능한 안전 지침을 제공하며, 결정론적 규칙으로 작동함.
  • 저수준 RL 컨트롤러는 온라인 목표 조건부 학습과 모드 인식 우선순위 리플레이를 통해 경험 재사용 및 환경 적응성을 높임.
  • 제안된 방법은 충돌 종료를 줄여 초기 안전성과 샘플 효율성을 개선하면서도, 시나리오별 동역학에 온라인으로 적응하는 능력을 유지함.

본 논문은 제한된 시뮬레이션 (simulation) 훈련 환경하의 검색 및 구조 (SAR) 시나리오를 동기화하여 무인 항공기 (UAV) 임무를 위한 계층적 의사결정 프레임워크를 제시합니다. 해당 프레임워크는 고정된 규칙 기반 고수준 조언자 (high-level advisor) 와 온라인 목표 조건부 (goal-conditioned) 저수준 강화학습 (RL) 컨트롤러를 결합합니다. 초기 적응력을 견고하게 검증하기 위해 엄격한 사전 학습 불가 (no-pretraining) 배포 체제를 또한 고려합니다. 고수준 조언자는 구조화된 작업 명세로부터 오프라인에서 정의되며 결정론적 규칙으로 컴파일됩니다. 이 조언자는 권장 행동, 회피 행동 및 체제 의존적 중재 가중치를 통해 해석 가능한 임무 및 안전 인식 (safety-aware) 지침을 제공합니다. 저수준 컨트롤러는 작업 정의된 밀집 보상 (dense rewards) 에서 온라인으로 학습하며, 규칙 유래 메타데이터로 보강된 모드 인식 우선순위 리플레이 (mode-aware prioritized replay) 메커니즘을 통해 경험을 재사용합니다. 우리는 배터리 인식 다중 목표 배송 및 장애물 풍부한 환경에서의 이동 표적 배송이라는 두 가지 작업에서 프레임워크를 평가했습니다. 두 작업 모두에서 제안된 방법은 충돌 종료 (collision terminations) 를 줄임으로써 주로 초기 안전성과 샘플 효율성을 개선하면서도 시나리오별 동역학에 온라인으로 적응하는 능력을 유지합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0