메타 강화학습 (Meta-Reinforcement Learning)에서의 지식 재사용
요약
메타 강화학습에서 태스크 지식을 이질적인 에이전트 간에 효율적으로 전이하는 새로운 프레임워크를 제안합니다. 베이지안 비매개변수적 사전 확률과 의미론적-크기 인터페이스를 통해 신체 구현(embodiment)의 차이를 극복하고 지식 재사용성을 높였습니다.
핵심 포인트
- 태스크 지식과 신체 구현 특화 제어 간의 결합 문제 해결
- 베이지안 비매개변수적 사전 확률을 통한 잠재적 태스크 모드 구성
- 의미론적-크기 인터페이스를 통한 이질적 에이전트 간 지식 전이
- SOTA 대비 추적 오차 최대 99.79% 감소 및 높은 샘플 효율성 달성
메타 강화학습 (Meta-reinforcement learning)은 관련된 태스크들로부터 공유된 구조를 추출함으로써 빠른 적응 (fast adaptation)을 가능하게 하지만, 기존의 엔드투엔드 (end-to-end) 방식들은 종종 태스크 추론 (task inference)을 신체 구현 (embodiment) 특화 제어와 결합합니다. 이러한 결합은 비매개변수적 (non-parametric) 태스크 의미론 (semantics)을 모호하게 만들고, 샘플 효율성 (sample efficiency)을 저하시키며, 에이전트 간 재사용 (cross-agent reuse)을 제한할 수 있습니다. 우리는 역학이 단순화된 (dynamics-simplified) 에이전트에서 태스크 수준의 지식을 학습하고 이를 이질적인 (heterogeneous) 에이전트들에게 전이하는 메타 지식 재사용 (meta-knowledge reutilization) 프레임워크를 제안합니다. 이 프레임워크는 잠재적 태스크 모드 (latent task modes)를 구성하기 위해 베이지안 비매개변수적 사전 확률 (Bayesian non-parametric prior)을 사용하며, 태스크 수준의 크기 가이드 (task-level magnitude guidance)를 생성하기 위해 상위 수준 정책 (high-level policy)을 사용합니다. 재사용 가능한 태스크 지식과 서로 다른 신체 구현 (embodiments) 사이의 간극을 메우기 위해, 우리는 고정된 (frozen) 메타 지식을 신체 구현 특화 저수준 제어기 (embodiment-specific low-level controllers)를 위한 시간적으로 정렬된 서브골 (temporally aligned subgoals)로 변환하는 의미론적-크기 인터페이스 (semantic-magnitude interface)와 경량 템포럴 어댑터 (lightweight temporal adaptor)를 도입합니다. 여러 이동 (locomotion) 에이전트에 대한 실험 결과, 우리의 프레임워크는 최신 SOTA (state-of-the-art) 베이스라인들과 비교했을 때 최종 단계 추적 오차 (final-step tracking error)를 94.75% ~ 99.79% 감소시켰으며, 해당 베이스라인들 상호작용 데이터의 약 23.8%만을 사용하여 대등한 배포 성능을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기