GARL: 다중 에이전트 전략적 우선순위 결정을 위한 게임 이론 기반 강화학습
요약
GARL은 다중 에이전트 시스템의 전략적 의사결정을 위해 게임 이론을 결합한 강화학습 프레임워크입니다. 에이전트 간의 자원 할당과 중재 과정을 2단계 게임으로 공식화하여 정책 최적화를 유도합니다. 법률 도메인 실험을 통해 소규모 오픈 소스 LLM이 폐쇄형 모델과 경쟁할 수 있음을 입증했습니다.
핵심 포인트
- 게임 이론 기반의 2단계 의사결정 프레임워크 GARL 제안
- 전략적 효용을 역할별 강화 신호로 변환하여 정책 최적화
- 소규모 오픈 소스 LLM의 성능을 폐쇄형 모델 수준으로 향상
- 법률 분쟁 사안 순위 지정 문제에 성공적으로 적용
LLM (Large Language Model) 기반의 다중 에이전트 시스템 (multi-agent systems)은 전략적 의사결정 작업을 위해 점점 더 많이 사용되고 있습니다. 이러한 환경에서 성능은 개별 모델의 능력뿐만 아니라, 에이전트들이 상호작용하고 적응하는 방식인 정책 (policies)에도 달려 있습니다. 다중 에이전트 강화학습 (Multi-agent reinforcement learning)은 이러한 상호작용 정책을 최적화할 수 있지만, 그 보상 설계 (reward design)는 종종 특정 작업에 국한되며 상호작용 구조에 기반한 근거가 약한 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 다중 에이전트 전략적 우선순위 결정을 위한 게임 이론 기반 강화학습 (GAme-theoretic Reinforcement Learning) 프레임워크인 GARL을 제안합니다. GARL은 전략적 우선순위 결정을 2단계 게임으로 공식화합니다. 먼저 경쟁하는 에이전트들이 공유된 후보 집합에 대해 전략적 자원을 할당하고, 그 다음 상위 수준의 중재자 (arbiter)가 최종 순위를 생성합니다. 결과적으로 도출된 게임 이론적 효용 (game-theoretic utilities)은 역할별 강화 신호 (role-specific reinforcement signals)로 변환되어, 구조화된 상호작용에 의해 정책 최적화 (policy optimisation)가 가이드될 수 있도록 합니다. 우리는 법적 절차에서 핵심 쟁점을 우선순위화하는 것을 목표로 하는 분쟁 사안 순위 지정 (issues-in-dispute ranking) 문제에 GARL을 적용했습니다. 실험 결과, GARL은 순위 지정 성능을 향상시키고, 동일한 후보 순위 설정 하에서 작은 오픈 소스 LLM이 강력한 폐쇄형(closed-source) LLM과 경쟁할 수 있게 하며, 법률 도메인 역량 및 더 넓은 전략적 의사결정 측면에서 이득을 가져다준다는 것을 보여줍니다. 종합적으로, GARL은 게임 이론적 상호작용 구조가 어떻게 강화학습 목적 함수 (reinforcement-learning objectives)로 전환될 수 있는지를 보여주며, 다중 에이전트 전략적 우선순위 결정에서의 정책 최적화를 위한 원칙적인 접근 방식을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기