arXiv논문2026. 06. 19. 11:09

멀티 에이전트 게임에서의 계층적 제어: LLM 기반 계획 및 RL 실행

요약

LLM을 중앙 컨트롤러로, RL을 저수준 실행기로 사용하는 계층적 멀티 에이전트 제어 구조를 제안합니다. 실험 결과, 이 하이브리드 시스템은 기존 Flat RL보다 뛰어난 성능을 보였으며 행동 트리(BT)와 유사한 수준의 성능을 달성했습니다.

핵심 포인트

LLM이 전략적 계획을 담당하고 RL이 구체적 행동을 실행하는 계층적 구조 제안
기존 Flat RL 대비 유의미하게 높은 성능 및 효율성 입증
수작업 규칙 없이도 행동 트리(BT) 수준의 작업 성능 달성
사용자 연구 결과, 인간과 유사한 적응성과 전술적 가변성 확인

강화학습 (RL)은 순차적 의사결정 (sequential decision-making) 분야에서 강력한 성능을 달성해 왔으나, 희소한 보상 (sparse rewards), 거대한 상태-행동 공간 (state-action spaces), 그리고 협력적 전략 학습의 어려움으로 인해 복잡한 멀티 에이전트 환경으로 확장하는 데에는 여전히 어려움이 남아 있습니다. 본 논문에서는 사전 학습된 대규모 언어 모델 (LLM)이 에이전트 팀을 위한 특화된 RL 기술 정책 (skill policies) 중 하나를 선택하는 중앙 집중식 전략 컨트롤러 역할을 수행하고, RL 정책이 반응적인 저수준 실행 (low-level execution)을 담당하는 계층적 구조를 제안합니다. 우리는 경쟁적인 2v2 King of the Hill 환경에서 이 하이브리드 시스템을 행동 트리 (BT) 및 "Flat" RL (기술 분해 없는 엔드 투 엔드 학습) 베이스라인과 비교하여 평가합니다. LLM+RL 시스템은 수작업으로 제작된 BT와 통계적으로 동등한 작업 성능을 달성하였으며 (승률 46.4% vs 51.5%, $p=0.103$), 두 방식 모두 기술 분해 없이 학습된 Flat RL보다 유의미하게 뛰어난 성능을 보였습니다. 사용자 연구 ($n=15$) 결과, 참가자의 60%가 행동의 적응성과 전술적 가변성을 근거로 LLM+RL 에이전트를 가장 인간과 유사하다고 인식했습니다 ($p=0.027$). 이러한 결과는 사전 학습된 LLM의 추론이 사전 학습된 RL 기술을 효과적으로 조율할 수 있으며, 수동적인 규칙 엔지니어링 없이도 경쟁력 있는 멀티 에이전트 협력과 우수한 인지적 신뢰성을 달성할 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

멀티 에이전트 게임에서의 계층적 제어: LLM 기반 계획 및 RL 실행

요약

핵심 포인트

댓글