arXiv논문2026. 05. 28. 12:09

TRACER: 협력적 다중 LLM 추론을 위한 내부 강화 크레딧 기반의 턴 단위 후회 매칭 (Turn-level Regret Matching)

요약

TRACER는 다중 LLM 에이전트의 협력적 추론을 위해 강화학습과 후회 매칭을 결합한 새로운 프레임워크입니다. 컨트롤러와 생성-크레딧 레이어를 분리하여 무임승차 문제를 해결하고, 수학적 수렴성을 보장하며 효율적인 협업 정책 학습을 가능하게 합니다.

핵심 포인트

컨트롤러-후회 및 생성-크레딧 레이어 분리 설계
후회 매칭을 통한 에이전트 발화 여부 결정
역할별 GSPO 보상을 통한 무임승차 및 희소 보상 문제 해결
고전 게임 이론을 확장하여 수학적 수렴성 달성
GSM8K, MATH500 등 벤치마크에서 우수한 성능 입증

대규모 언어 모델 (Large language models)은 추론 능력을 향상시키기 위해 강화학습 (Reinforcement learning) 또는 다중 에이전트 프롬프팅 (Multi-agent prompting)에 점점 더 의존하고 있지만, 이 두 패러다임을 결합하는 것은 여전히 어렵습니다. 단일 에이전트 강화학습을 다회차 다중 에이전트 시스템에 직접 적용하는 것은 다음과 같은 딜레마에 직면합니다: i) 희소한 보상 (Sparse rewards), 역할 수준의 무임승차 (Free-riding) 및 과도한 훈련 오버헤드 (Training overhead). ii) 에이전트들이 협업을 위해 단순히 모방만 함. iii) 고정된 협업 프로토콜이 진동하는 지역 최적점 (Oscillating local optimum)에 빠짐. 우리는 협력적 다중 LLM 추론을 위한 턴 단위 강화 학습 프레임워크인 TRACER를 소개합니다. TRACER는 협력적 의사결정을 컨트롤러-후회 (Controller-regret) 레이어와 생성-크레딧 (Generation-credit) 레이어로 분리합니다. 컨트롤러 레이어에서는 컨트롤러가 후회 매칭 (Regret matching)을 통해 에이전트가 현재 라운드에서 발화해야 할지 아니면 건너뛰어야 할지를 학습하며, 생성-크레딧 레이어는 역할별 GSPO 보상을 통해 제안자 (Proposer)와 검토자 (Reviewer)의 발화를 최적화합니다. 이러한 설계는 i) 행동 모드와 생성된 발화 수준 모두에서 크레딧 (Credit)을 할당함으로써 무임승차와 희소한 보상 문제를 방지합니다. 우리는 컨트롤러가 내리는 선택지만 확장하므로 훈련의 계산 비용을 크게 줄입니다. 또한, ii) 에이전트는 언제 발화할지 그리고 무엇을 말할지를 학습함에 따라 협업 능력을 습득합니다. 마지막으로, iii) 이진 행동 (Binary actions)을 독창적으로 설계함으로써, 유한 행동 공간 (Finite action spaces)을 위해 확립된 고전 게임 이론을 딥러닝으로 확장하여 수학적으로 엄격한 수렴 (Convergence)을 달성합니다. 우리는 모든 로컬 RL 스타일 방법론을 GSM8K 훈련 데이터셋에서 훈련시키고, 도메인 내 정확도 (In-domain accuracy), 교차 벤치마크 일반화 (Cross-benchmark generalization), 추론 비용 (Inference cost), 그리고 수정-보존 행동 (Correction-preservation behavior)을 측정하기 위해 분리된 GSM8K, MATH500, GPQA-Diamond에서 평가합니다. 결과적으로 이 프레임워크는 고정된 토론, 투표 또는 집계 프로토콜을 넘어 학습된 협업 정책을 연구하기 위한 컴팩트하고 재현 가능한 테스트베드를 제공합니다. 코드는 https://github.com/Shark-Forest/TRACER 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TRACER: 협력적 다중 LLM 추론을 위한 내부 강화 크레딧 기반의 턴 단위 후회 매칭 (Turn-level Regret Matching)

요약

핵심 포인트

댓글