본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 19:04

다중 에이전트 강화학습에서 행동 다양성의 트리거로서의 이벤트

요약

본 논문은 다중 에이전트 협력 환경에서 작업 조건 변화에 따라 에이전트가 다양한 역할을 수행해야 하는 문제를 다룹니다. 기존 MARL 프레임워크는 행동을 고정된 정체성에 묶어 유연한 역할 전환이 어렵다는 한계가 있습니다. 이를 해결하기 위해, 시스템 상태의 질적 변화를 나타내는 '이벤트(events)'를 트리거로 활용하여 에이전트 정체성과 행동을 분리하고, 이벤트에 반응해 행동을 구현하는 새로운 프레임워크를 제안합니다.

핵심 포인트

  • 다중 에이전트 협력에서 유연한 역할 전환은 필수적이지만, 기존 MARL 프레임워크는 이를 지원하지 못한다.
  • 작업의 질적 변화를 나타내는 '이벤트(events)'를 도입하여 행동 다양성의 트리거로 활용한다.
  • 에이전트 정체성과 행동을 분리하고, 이벤트 기반 하이퍼네트워크와 Neural Manifold Diversity (NMD) 지표를 결합한 새로운 프레임워크를 제시한다.
  • 제안된 프레임워크는 기존 방식보다 우수한 성능과 제로샷 일반화 능력을 보여주며, 순차적인 행동 재할당이 필요한 작업을 해결하는 유일한 방법임을 입증했다.

효과적인 다중 에이전트 협력은 작업 조건이 진화함에 따라 에이전트들이 다양한 행동을 채택하고, 이를 적절한 순간에 수행할 것을 요구합니다. 하지만 현재 이러한 다양성을 촉진하는 Multi-Agent Reinforcement Learning (MARL) 프레임워크는 여전히 고정된 행동을 고정된 에이전트 정체성에 묶는다는 사실에 의해 제한적입니다. 결과적으로, 에이전트들이 매우 특정 순간에 다른 역할을 맡아야 하는 작업에는 부적합합니다. 우리는 이러한 행동 전환을 정의하기 위해 부족한 요소가 '이벤트(events)'라고 주장합니다. 이벤트란 시스템 상태의 변화로서, 작업에 질적인 변화를 유도하는 것입니다. 이러한 관점에 기반하여, 우리는 에이전트 정체성과 행동을 분리하고, 에이전트들이 이벤트에 반응하여 자신의 행동을 구현할 수 있는 연속적인 매니폴드(manifold)를 포착하는 프레임워크를 소개합니다. 이 프레임워크는 두 가지 요소를 기반으로 합니다. 첫째, 표현력이 풍부한 행동 매니폴드를 구축하기 위해, 우리는 Neural Manifold Diversity (NMD)라는 공식적인 거리 측정 지표를 도입하는데, 이는 행동이 일시적이고 에이전트와 무관할 때도 잘 정의된 상태로 유지됩니다. 둘째, 이벤트에 반응하여 온디바이스(on-the-fly) 에이전트 정책 재구성을 가능하게 하는 공유 팀 정책 위에 Low-Rank Adaptation (LoRA) 모듈을 생성하는 이벤트 기반 하이퍼네트워크를 사용합니다. 우리는 이러한 구성이 설계상 다양성이 보상 최대화와 간섭하지 않음을 증명합니다. 실험 결과는 우리의 프레임워크가 벤치마크 전반에 걸쳐 기존의 베이스라인보다 우수한 성능을 보이며, 제로샷 일반화(zero-shot generalization)를 나타내고, 순차적인 행동 재할당이 필요한 작업을 해결하는 유일한 방법임을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0