arXiv논문2026. 06. 17. 12:56

메타 강화학습 (Meta-Reinforcement Learning)에서의 지식 재사용

요약

메타 강화학습에서 태스크 지식을 이질적인 에이전트 간에 효율적으로 전이하는 새로운 프레임워크를 제안합니다. 베이지안 비매개변수적 사전 확률과 의미론적-크기 인터페이스를 통해 신체 구현(embodiment)의 차이를 극복하고 지식 재사용성을 높였습니다.

핵심 포인트

태스크 지식과 신체 구현 특화 제어 간의 결합 문제 해결
베이지안 비매개변수적 사전 확률을 통한 잠재적 태스크 모드 구성
의미론적-크기 인터페이스를 통한 이질적 에이전트 간 지식 전이
SOTA 대비 추적 오차 최대 99.79% 감소 및 높은 샘플 효율성 달성

메타 강화학습 (Meta-reinforcement learning)은 관련된 태스크들로부터 공유된 구조를 추출함으로써 빠른 적응 (fast adaptation)을 가능하게 하지만, 기존의 엔드투엔드 (end-to-end) 방식들은 종종 태스크 추론 (task inference)을 신체 구현 (embodiment) 특화 제어와 결합합니다. 이러한 결합은 비매개변수적 (non-parametric) 태스크 의미론 (semantics)을 모호하게 만들고, 샘플 효율성 (sample efficiency)을 저하시키며, 에이전트 간 재사용 (cross-agent reuse)을 제한할 수 있습니다. 우리는 역학이 단순화된 (dynamics-simplified) 에이전트에서 태스크 수준의 지식을 학습하고 이를 이질적인 (heterogeneous) 에이전트들에게 전이하는 메타 지식 재사용 (meta-knowledge reutilization) 프레임워크를 제안합니다. 이 프레임워크는 잠재적 태스크 모드 (latent task modes)를 구성하기 위해 베이지안 비매개변수적 사전 확률 (Bayesian non-parametric prior)을 사용하며, 태스크 수준의 크기 가이드 (task-level magnitude guidance)를 생성하기 위해 상위 수준 정책 (high-level policy)을 사용합니다. 재사용 가능한 태스크 지식과 서로 다른 신체 구현 (embodiments) 사이의 간극을 메우기 위해, 우리는 고정된 (frozen) 메타 지식을 신체 구현 특화 저수준 제어기 (embodiment-specific low-level controllers)를 위한 시간적으로 정렬된 서브골 (temporally aligned subgoals)로 변환하는 의미론적-크기 인터페이스 (semantic-magnitude interface)와 경량 템포럴 어댑터 (lightweight temporal adaptor)를 도입합니다. 여러 이동 (locomotion) 에이전트에 대한 실험 결과, 우리의 프레임워크는 최신 SOTA (state-of-the-art) 베이스라인들과 비교했을 때 최종 단계 추적 오차 (final-step tracking error)를 94.75% ~ 99.79% 감소시켰으며, 해당 베이스라인들 상호작용 데이터의 약 23.8%만을 사용하여 대등한 배포 성능을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

메타 강화학습 (Meta-Reinforcement Learning)에서의 지식 재사용

요약

핵심 포인트

댓글