arXiv논문2026. 06. 24. 10:07

ASALT: 다중 에이전트 강화학습 (MARL)의 측면 전이를 위한 적응형 상태 정렬

요약

ASALT는 다중 에이전트 강화학습(MARL)에서 도메인 간 상태 공간 차원이 불일치할 때 발생하는 문제를 해결하기 위한 새로운 방법론을 제안합니다. 관측 및 상태 수준의 어댑터를 통해 이질적인 도메인 간의 효과적인 지식 전이를 지원합니다.

핵심 포인트

도메인 간 관측 및 전역 상태 공간 차원 불일치 문제 해결
관측 및 상태 수준의 어댑터를 통한 공유 임베딩 공간 매핑
협력적 설정에서 샘플 효율성 및 전역 보상 성능 향상
부정적 전이(negative transfer) 완화 효과 입증

다중 에이전트 강화학습 (Multi-agent reinforcement learning, MARL)은 협력적, 경쟁적 또는 혼합된 목표를 추구하는 여러 에이전트를 훈련하는 문제를 다룹니다. 기존 연구들은 MARL에서 소스 (source) 도메인과 타겟 (target) 도메인 간의 전이 학습 (transfer learning)을 조사해 왔으나, 기존 방식의 대부분은 관측 공간 (observation space)과 전역 상태 공간 (global state space)의 차원이 도메인 간에 동일해야 한다는 제약을 부과합니다. 본 논문에서는 소스 도메인과 타겟 도메인 사이의 불일치하는 상태 공간 차원을 명시적으로 수용하는 방법을 소개합니다. 제안된 방식인 ASALT는 타겟 도메인의 관측값과 전역 상태를 공유 임베딩 공간 (embedding space)으로 매핑하는 관측 수준 (observation-level) 및 상태 수준 (state-level) 어댑터 (adapters)를 모두 포함하며, 이를 통해 액터 (actors)와 크리틱 (critics) 모두에 걸쳐 더욱 효과적인 지식 전이를 가능하게 합니다. 이러한 어댑터는 이질적인 (heterogeneous) 도메인 간의 효율적인 전략 전이를 지원하는 임베딩을 생성할 수 있습니다. 표준 벤치마크 환경의 다양한 구성에 대한 실험 결과, ASALT는 협력적 설정에서 샘플 효율성 (sample efficiency)과 전역 보상 (global return) 측면에서 기존 베이스라인 (baselines)을 능가함을 보여주었으나, 그 효과는 소스 도메인과 타겟 도메인 간의 불일치 정도에 따라 달라집니다. 또한, 우리의 연구 결과는 ASALT가 관측 및 행동 공간 (action spaces)이 서로 다른 도메인 간에 정책 (policies)을 전이할 때 주요 장애물이 되는 경우가 많은 부정적 전이 (negative transfer)를 완화한다는 것을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

ASALT: 다중 에이전트 강화학습 (MARL)의 측면 전이를 위한 적응형 상태 정렬

요약

핵심 포인트

댓글