arXiv논문2026. 06. 09. 11:11

문맥적 대조 메타 강화학습 (Contextual Contrastive Meta Reinforcement Learning)을 통한 자율 공중 조작

요약

다양한 페이로드의 비행 역학 변화에 대응하기 위해 문맥적 대조 메타 강화학습(Aco2)을 제안합니다. 이 방식은 별도의 시스템 식별 없이도 쿼드로터가 물체를 자율적으로 획득하고 운송할 수 있도록 온라인 적응력을 높였습니다.

핵심 포인트

문맥적 관측 인코더를 통한 잠재 문맥 추론
대조 목적 함수를 활용한 문맥 임베딩 구조화
시뮬레이션 학습 후 실제 환경 즉시 배포 가능
가변적인 비행 역학에 대한 온라인 적응 구현

무인 항공기 (UAVs)는 물류, 서비스 로봇 공학 및 기타 실제 응용 분야에 점점 더 많이 배치되고 있으며, 이에 따라 자율적인 페이로드 (payload) 획득 및 전달에 대한 수요가 증가하고 있습니다. 기존의 방식들은 일반적으로 미리 부착된 페이로드를 가정하거나 특수 그리퍼 (grippers)에 의존하며, 서로 다른 페이로드가 매우 가변적인 비행 역학 (flight dynamics)을 유발하여 수동 보정이나 명시적인 시스템 식별 (system identification) 없이 단일 정책 (policy)이 온라인으로 적응해야 하는 다재다능한 엔드 투 엔드 (end-to-end) 항공 전달 문제는 여전히 해결되지 않은 상태로 남아 있습니다. 이를 위해, 우리는 문맥적 대조 메타 강화학습 (Contextual Contrastive Meta Reinforcement Learning, \textbf{\textit{Aco2}})을 통한 자율 공중 조작 (\textbf{A}utonomous \textbf{A}erial Manipulation via \textbf{Co}ntextual \textbf{Co}ntrastive Meta Reinforcement Learning)을 연구합니다. 이는 경량 후크 (hook)를 장착한 쿼드로터 (quadrotor)가 인간의 개입 없이 무작위 위치 사이에서 손잡이가 달린 다양한 물체를 지속적으로 집어 올리고, 운송하고, 전달하는 완전 자율 항공 전달 설정입니다. 첫째, 우리는 최근의 상호작용 이력으로부터 압축된 잠재 문맥 (latent context)을 추론하는 문맥적 관측 인코더 (contextual observation encoder)를 설계하여, 정책이 페이로드에 따른 역학에 온라인으로 적응할 수 있도록 합니다. 이 문맥의 품질을 더욱 향상시키기 위해, 우리는 명시적인 시스템 식별 없이도 다양한 페이로드에 대한 일반화 성능을 높일 수 있도록 작업 관련 변동성을 중심으로 문맥 임베딩 (context embedding)을 구조화하는 대조 목적 함수 (contrastive objective)를 도입합니다. 광범위한 도메인 무작위화 (domain randomization)를 통해 시뮬레이션에서 완전히 학습된 \textit{Aco2}는 실제 환경에서의 미세 조정 (fine-tuning) 없이 물리적인 쿼드로터에 직접 배포될 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

문맥적 대조 메타 강화학습 (Contextual Contrastive Meta Reinforcement Learning)을 통한 자율 공중 조작

요약

핵심 포인트

댓글