Cross-Modal Navigation with Multi-Agent Reinforcement Learning
요약
본 논문은 로봇의 견고한 체화된 내비게이션을 위해 다중 모달리티 데이터를 활용하는 Multi-Agent Reinforcement Learning (MARL) 프레임워크인 CRONA를 제안합니다. CRONA는 각 모달리티에 특화된 경량 에이전트들이 협력하여 복잡하고 방대한 정책 공간 문제를 해결하며, 중앙 집중식 다중 모달 비평가(critic)와 제어 관련 보조 신념을 활용해 협업 능력을 향상시킵니다. 실험 결과, 이 다중 에이전트 접근 방식은 시각-음향 내비게이션 작업에서 단일 에이전트 기반 모델보다 성능과 효율성 면에서 크게 우수함을 입증했습니다.
핵심 포인트
- 로봇의 체화된 내비게이션을 위해서는 다양한 감각 정보를 활용하는 것이 필수적이지만, 고품질의 다중 모달 데이터 확보가 어렵다.
- CRONA는 각 모달리티에 특화된 경량 에이전트들이 협력하는 MARL 패러다임을 사용하여 확장성과 유연성을 높인다.
- 제안된 CRONA 프레임워크는 중앙 집중식 다중 모달 비평가와 제어 관련 보조 신념을 통해 에이전트 간의 협업을 강화한다.
- 실험적으로, 이질적인(heterogeneous) 모달리티를 가진 에이전트들의 협력이 복잡한 환경에서 가장 효율적이고 효과적임을 보여준다.
견고한(Robust) 체화된 내비게이션(embodied navigation)은 상호 보완적인 감각 단서(sensory cues)에 의존합니다. 하지만 실제 환경에서는 고품질의 잘 정렬된 다중 모드 데이터(multi-modal data)를 얻기 어렵습니다. 또한, 단일 모델을 훈련하는 것도 어려운 문제인데, 풍부한 다중 모드 입력은 복잡한 표현(representations)을 유도하고 정책 공간(policy space)을 크게 확장시키기 때문입니다. 가벼운(lightweight) 모달리티 특화 에이전트들 간의 교차 모드 협업(Cross-modal collaboration)은 확장 가능한 패러다임을 제공합니다. 이는 각 모달리티의 강점을 유지하면서 유연한 배포와 병렬 실행을 가능하게 합니다. 본 논문에서는 CRONA라는 다중 에이전트 강화 학습(Multi-Agent Reinforcement Learning, MARL) 프레임워크를 제안하며, 이를 Cross-Modal Navigation에 적용합니다. CRONA는 제어 관련 보조 신념(control-relevant auxiliary beliefs)과 전역 상태(global state)를 가진 중앙 집중식 다중 모드 비평가(centralized multi-modal critic)를 활용하여 협업을 개선합니다. 시각-음향 내비게이션 작업에 대한 실험 결과, 다중 에이전트 방법론이 단일 에이전트 기준선(single-agent baselines) 대비 성능과 효율성 면에서 유의미한 향상을 보였습니다. 우리는 다음과 같은 사실을 발견했습니다. 눈에 띄는 단서(salient cues)가 있는 근거리 내비게이션(short-range navigation)에는 제한된 모달리티를 가진 동종(homogeneous) 협업만으로 충분하며, 상호 보완적인 모달리티를 가진 에이전트들 간의 이질적(heterogeneous) 협업은 일반적으로 효율적이고 효과적입니다. 또한, 크고 복잡한 환경에서의 내비게이션은 더 풍부한 다중 모드 인식과 증가된 모델 용량(model capacity)을 모두 필요로 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기