멀티 에이전트 게임에서의 계층적 제어: LLM 기반 계획 및 RL 실행
요약
LLM을 중앙 컨트롤러로, RL을 저수준 실행기로 사용하는 계층적 멀티 에이전트 제어 구조를 제안합니다. 실험 결과, 이 하이브리드 시스템은 기존 Flat RL보다 뛰어난 성능을 보였으며 행동 트리(BT)와 유사한 수준의 성능을 달성했습니다.
핵심 포인트
- LLM이 전략적 계획을 담당하고 RL이 구체적 행동을 실행하는 계층적 구조 제안
- 기존 Flat RL 대비 유의미하게 높은 성능 및 효율성 입증
- 수작업 규칙 없이도 행동 트리(BT) 수준의 작업 성능 달성
- 사용자 연구 결과, 인간과 유사한 적응성과 전술적 가변성 확인
강화학습 (RL)은 순차적 의사결정 (sequential decision-making) 분야에서 강력한 성능을 달성해 왔으나, 희소한 보상 (sparse rewards), 거대한 상태-행동 공간 (state-action spaces), 그리고 협력적 전략 학습의 어려움으로 인해 복잡한 멀티 에이전트 환경으로 확장하는 데에는 여전히 어려움이 남아 있습니다. 본 논문에서는 사전 학습된 대규모 언어 모델 (LLM)이 에이전트 팀을 위한 특화된 RL 기술 정책 (skill policies) 중 하나를 선택하는 중앙 집중식 전략 컨트롤러 역할을 수행하고, RL 정책이 반응적인 저수준 실행 (low-level execution)을 담당하는 계층적 구조를 제안합니다. 우리는 경쟁적인 2v2 King of the Hill 환경에서 이 하이브리드 시스템을 행동 트리 (BT) 및 "Flat" RL (기술 분해 없는 엔드 투 엔드 학습) 베이스라인과 비교하여 평가합니다. LLM+RL 시스템은 수작업으로 제작된 BT와 통계적으로 동등한 작업 성능을 달성하였으며 (승률 46.4% vs 51.5%, $p=0.103$), 두 방식 모두 기술 분해 없이 학습된 Flat RL보다 유의미하게 뛰어난 성능을 보였습니다. 사용자 연구 ($n=15$) 결과, 참가자의 60%가 행동의 적응성과 전술적 가변성을 근거로 LLM+RL 에이전트를 가장 인간과 유사하다고 인식했습니다 ($p=0.027$). 이러한 결과는 사전 학습된 LLM의 추론이 사전 학습된 RL 기술을 효과적으로 조율할 수 있으며, 수동적인 규칙 엔지니어링 없이도 경쟁력 있는 멀티 에이전트 협력과 우수한 인지적 신뢰성을 달성할 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기