적응형 강화학습 (Adaptive Reinforcement Learning)을 통한 자율 수상정 (Autonomous Surface
요약
단일 정책으로 다양한 자율 수상정 플랫폼에 제로샷 배포가 가능한 적응형 강화학습 접근 방식을 제안합니다. 상호작용 이력을 통해 플랫폼의 역학을 추론하는 교사-학생 구조를 사용하여 미세 조정 없이도 실제 환경에서 높은 추적 성능을 입증했습니다.
핵심 포인트
- 제로샷 교차 플랫폼 배포를 위한 적응형 강화학습 방법론 제시
- 상호작용 이력을 활용한 부분 관측성 접근 방식으로 플랫폼 역학 추론
- 교사-학생 구조를 통해 플랫폼의 잠재 표현(latent representation) 학습
- 실제 환경 실험에서 기존 베이스라인 대비 위치 오차 최대 58% 개선
자율 수상정 (Autonomous surface vehicles)은 유체역학적 특성과 구동 특성이 매우 다양하지만, 대부분의 제어기는 단일 플랫폼 배포를 위해 설계됩니다. 본 논문에서는 단일 정책 (policy)을 사용하여 제로샷 (zero-shot) 교차 플랫폼 배포를 가능하게 하는 궤적 추적 (trajectory tracking)을 위한 적응형 강화학습 (adaptive reinforcement learning) 접근 방식을 제시합니다. 배포 플랫폼의 역학 (dynamics)을 정책이 알지 못하기 때문에, 우리는 상호작용 이력 (interaction history)에 따라 조건을 부여하는 표준적인 부분 관측성 (partial-observability) 접근 방식을 통해 교차 플랫폼 일반화 문제를 해결하며, 학습된 모듈이 플랫폼 역학의 잠재 표현 (latent representation)을 추론하는 교사-학생 (teacher-student) 구조를 채택합니다. 정책은 무작위화된 선박 역학 하의 시뮬레이션에서 훈련되며, 고충실도 (high-fidelity) 유체역학 시뮬레이터 대신 단순한 해석적 역학 모델 (analytical dynamics model)에 의존함에도 불구하고, 어떠한 미세 조정 (fine-tuning) 없이 두 개의 실제 플랫폼에 제로샷으로 배포됩니다. 서로 다른 두 플랫폼에 대한 실제 환경 실험에서, 적응형 정책은 위치 평균 절대 오차 (position mean absolute error) 측면에서 비적응형 학습 기반 베이스라인 (baselines)보다 최대 58% 더 우수한 성능을 보였으며, 플랫폼별로 튜닝된 제어기 (platform-specific tuned controller)의 추적 정확도에 근접했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기