시각 조건부 UAV 내비게이션을 위한 자기 개선형 에이전트 강화학습 (Self-Refining Agentic Reinforcement
요약
UAV 내비게이션을 위해 멀티모달 GPT 에이전트를 활용한 AgenticRL 프레임워크를 제안합니다. 이 시스템은 보상 함수 설계부터 정책 개선까지 폐쇄 루프 자기 개선 프로세스를 통해 자율적으로 수행하며, 시뮬레이션과 실제 환경 간의 높은 전이 성능을 입증했습니다.
핵심 포인트
- 멀티모달 GPT를 활용한 자율적 보상 함수 생성 및 정책 개선
- 실패 모드 식별을 통한 폐쇄 루프 자기 개선 프로세스 구현
- 초기 보상 대비 정책 행동 71% 향상 달성
- 실제 환경에서 91%의 높은 성공률 및 Sim-to-Real 정확도 입증
심층 강화학습 (Deep reinforcement learning)은 자율 로봇이 복잡한 내비게이션 작업을 학습할 수 있도록 하는 데 강력한 잠재력을 보여주었습니다. 그러나 실제 활용은 여전히 인간이 설계한 보상 함수 (reward functions)와 반복적인 수동 미세 조정 (manual fine tuning)에 크게 의존하고 있으며, 이는 시간이 많이 소요될 뿐만 아니라 원하는 작업에서 높은 성공을 보장하지도 않습니다. 본 논문은 무인 항공기 (UAV) 내비게이션 작업을 위해 보상 설계, 정책 개선 (policy refinement), 그리고 실제 환경 배포에서의 자율성을 높이는 에이전트 가이드 강화학습 (agent guided reinforcement learning) 프레임워크인 AgenticRL을 제시합니다. AgenticRL은 멀티모달 생성형 사전 학습 트랜스포머 (multimodal generative pre-trained transformer (GPT)) 에이전트를 사용하여 작업 정보와 시각적 장면 관측치를 해석하고, 작업 특화된 보상 함수를 생성하며, 근사 정책 최적화 (Proximal Policy Optimization (PPO)) 알고리즘을 사용하여 정책을 학습시킨 후, 진단 패킷을 통해 학습된 정책을 평가하여 피드백을 생성하는 비평가 (critic) 역할을 수행합니다. 이 피드백을 바탕으로 에이전트는 실패 모드 (failure modes)를 식별하고 폐쇄 루프 (closed loop) 자기 개선 프로세스를 통해 보상 함수를 개선합니다. 추론 (inference) 단계에서 멀티모달 GPT 에이전트를 더욱 활용하기 위해, AgenticRL은 실제 이미지와 자연어 작업 정보를 사용하여 활성 시나리오를 자동으로 식별하고 실행에 적합한 학습된 정책을 선택합니다. 이 프레임워크는 게이트 통과 (gate traversal), 장애물 회피 (obstacle avoidance), 착륙을 포함한 벽 장벽 통과 (wall barrier crossing with landing), 궤적 추적 (trajectory following), 그리고 동작 행동 학습 (motion behavior learning)을 포함한 여러 내비게이션 작업에서 평가되었습니다. 실험 결과, 폐쇄 루프 개선 프로세스는 초기 보상과 비교하여 정책 행동을 71% 향상시키는 것으로 나타났습니다. 또한 우리는 제안된 프레임워크의 시뮬레이션-실제 전이 (sim-to-real transfer)를 입증하여, 91%의 실제 환경 성공률과 94%의 시뮬레이션-실제 정확도 (sim-to-real accuracy)를 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기