arXiv논문2026. 05. 07. 13:04

Strat-Reasoner: 멀티 에이전트 게임에서 LLM 의 전략적 추론 강화

요약

본 논문은 대규모 언어 모델(LLMs)이 다른 에이전트의 상호작용에 의해 결과가 결정되는 멀티 에이전트 게임 환경에서 전략적 추론 능력을 강화하는 새로운 RL 기반 프레임워크인 Strat-Reasoner를 제안합니다. 이 프레임워크는 에이전트의 추론 과정이 다른 에이전트의 추론 과정을 통합하는 반복적인 추론 패러다임을 도입했습니다. 또한, 중앙 집중식 CoT 비교 모듈을 사용하여 중간 추론 단계에 효과적인 보상 신호를 제공하고, 그룹 상대적 RL 접근법을 통해 LLM 정책 최적화를 수행하여 다양한 멀티 에이전트 게임에서 평균 22.1%의 성능 향상을 입증했습니다.

핵심 포인트

LLMs는 멀티 에이전트 환경에서 비정상성 및 크레딧 할당 문제로 인해 전략적 추론에 어려움을 겪는다.
Strat-Reasoner는 LLM의 전략적 추론을 강화하기 위해 RL 기반 프레임워크를 제안한다.
새로운 반복적 추론 패러다임을 도입하여 에이전트가 다른 에이전트의 추론 과정을 통합하도록 한다.
중앙 집중식 CoT 비교 모듈을 활용하여 중간 추론 시퀀스에 대한 효과적인 보상 신호를 제공한다.
그룹 상대적 RL 접근법을 통해 LLM 정책 최적화를 수행하며, 평균 22.1%의 성능 향상을 달성했다.

대규모 언어 모델 (LLMs) 은 특정 추론 작업에서는 탁월하지만, 모든 에이전트의 공동 전략에 따라 최종 결과가 결정되는 멀티 에이전트 게임 (multi-agent games) 에서는 어려움을 겪습니다. 멀티 에이전트 게임에서 다른 에이전트의 비정상성 (non-stationarity) 은 추론 과정 평가 및 여러 추론 단계에 대한 크레딧 할당 (credit assignment) 에 중대한 도전 과제를 가져옵니다. 기존 단일 에이전트 강화 학습 (RL) 접근법과 그 멀티 에이전트 확장들은 추론 과정에서 다른 에이전트를 포함하지 않으므로 이러한 도전 과제를 해결하지 못합니다. 본 작업에서는 멀티 에이전트 게임에서 LLM 의 전략적 추론 능력을 향상시키는 새로운 RL 기반 프레임워크인 Strat-Reasoner 를 제안합니다. 우리는 에이전트의 추론이 또한 다른 에이전트의 추론 과정을 통합하는 새로운 반복적 추론 패러다임 (recursive reasoning paradigm) 을 소개합니다. 중간 추론 시퀀스를 위한 효과적인 보상 신호를 제공하기 위해, 우리는 추론 품질을 평가하기 위해 중앙 집중식 체인 오브 더 소트 (Chain-of-Thought, CoT) 비교 모듈을 사용합니다. 마지막으로, 정확한 하이브리드 이득 (hybrid advantage) 을 계산하고 LLM 정책 최적화를 위한 그룹 상대적 RL 접근법 (group-relative RL approach) 을 개발합니다. 실험 결과는 Strat-Reasoner 가 기초 LLM 의 전략적 능력을 현저히 향상시키며, 다양한 멀티 에이전트 게임에서 22.1% 평균 성능 향상을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Strat-Reasoner: 멀티 에이전트 게임에서 LLM 의 전략적 추론 강화

요약

핵심 포인트

댓글