적응형 강화학습 (Adaptive Reinforcement Learning)을 통한 자율 수상정 (Autonomous Surface

자율 수상정 (Autonomous surface vehicles)은 유체역학적 특성과 구동 특성이 매우 다양하지만, 대부분의 제어기는 단일 플랫폼 배포를 위해 설계됩니다. 본 논문에서는 단일 정책 (policy)을 사용하여 제로샷 (zero-shot) 교차 플랫폼 배포를 가능하게 하는 궤적 추적 (trajectory tracking)을 위한 적응형 강화학습 (adaptive reinforcement learning) 접근 방식을 제시합니다. 배포 플랫폼의 역학 (dynamics)을 정책이 알지 못하기 때문에, 우리는 상호작용 이력 (interaction history)에 따라 조건을 부여하는 표준적인 부분 관측성 (partial-observability) 접근 방식을 통해 교차 플랫폼 일반화 문제를 해결하며, 학습된 모듈이 플랫폼 역학의 잠재 표현 (latent representation)을 추론하는 교사-학생 (teacher-student) 구조를 채택합니다. 정책은 무작위화된 선박 역학 하의 시뮬레이션에서 훈련되며, 고충실도 (high-fidelity) 유체역학 시뮬레이터 대신 단순한 해석적 역학 모델 (analytical dynamics model)에 의존함에도 불구하고, 어떠한 미세 조정 (fine-tuning) 없이 두 개의 실제 플랫폼에 제로샷으로 배포됩니다. 서로 다른 두 플랫폼에 대한 실제 환경 실험에서, 적응형 정책은 위치 평균 절대 오차 (position mean absolute error) 측면에서 비적응형 학습 기반 베이스라인 (baselines)보다 최대 58% 더 우수한 성능을 보였으며, 플랫폼별로 튜닝된 제어기 (platform-specific tuned controller)의 추적 정확도에 근접했습니다.

Insights

적응형 강화학습 (Adaptive Reinforcement Learning)을 통한 자율 수상정 (Autonomous Surface

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실