arXiv논문2026. 05. 05. 16:32

编排 추적을 통한 LLM 기반 다중 에이전트 시스템에 대한 강화 학습

요약

본 기술 기사는 LLM 기반 다중 에이전트 시스템에 강화 학습(RL)을 적용하는 방법을 제시하며, 특히 '오케스트레이션 트랙킹(Orchestration Tracking)'이라는 시간적 상호작용 그래프를 통해 접근합니다. 이 프레임워크는 서브 에이전트 생성, 작업 위임, 통신, 도구 사용, 집계 및 중지 결정 등 복잡한 다단계 과정을 포괄적으로 최적화하는 데 초점을 맞춥니다. 연구 결과에 따르면, 효과적인 RL을 위해서는 병렬 속도 향상, 분할 정확도 등을 고려한 다양한 오케스트레이션 보상 설계가 필요하며, 토큰 단위부터 팀 전체까지 크레딧 신호를 부여하는 정교한 메커니즘이 요구됩니다. 또한, 중지 결정과 같은 핵심 하위 결정에 대한 명시적인 RL 훈련 방법론을 구축하고 아티팩트를 공개하여 연구 커뮤니티의 발전을 도모합니다.

핵심 포인트

LLM 다중 에이전트 시스템 최적화를 위해 '오케스트레이션 트랙킹'이라는 시간적 상호작용 그래프를 활용한다.
RL 보상 설계는 단순한 행동 단위가 아닌, 병렬 속도 향상 및 집계 품질을 포함하는 오케스트레이션 레벨에서 이루어져야 한다.
토큰 수준부터 팀 전체까지 크레딧 신호를 부여하여 책임 소재(Credit Assignment) 문제를 해결해야 한다.
에이전트의 생명주기 전반(생성, 위임, 통신, 집계, 중지 등)을 포괄하는 5가지 핵심 하위 결정으로 RL 학습을 분해한다.
연구 결과와 아티팩트를 공개하여 재현 가능한 오케스트레이션 추적 및 최소 JSON 스키마를 제공한다.

대형 언어 모델 (LLM) 에이전트가 고립된 도구 사용자에서 조정된 팀으로 진화함에 따라, 강화 학습 (RL) 은 개별 행동뿐만 아니라 작업의 생성, 위임, 통신, 집계, 중지 방식을 최적화해야 합니다. 본 논문은 LLM 기반 다중 에이전트 시스템에 대한 RL 을编排 추적을 통해 연구합니다: 이벤트가 서브 에이전트 생성, 위임, 통신, 도구 사용, 반환, 집계, 중지 결정 등을 포함하는 시간적 상호작용 그래프입니다. 이 렌즈를 사용하여 우리는 세 가지 기술적 축을 식별했습니다. 첫째, 보상 설계는 병렬 속도 향상, 분할 정확도, 집계 품질을 위한编排 보상을 포함한 8 개 계열을 포함합니다. 둘째, 보상 및 크레딧 신호는 토큰에서 팀까지의 8 개의 크레딧 또는 신호를 부르는 단위에 부착되며, 명시적 반례 메시지 수준 크레딧은 우리가 큐레이션한 풀에서 특히 희소합니다. 셋째,编排 학습은 언제 생성할지, 누구에게 위임할지, 어떻게 통신할지, 어떻게 집계할지, 언제 중지할지에 대한 5 개의 하위 결정으로 분해됩니다. 2026 년 5 월 4 일까지의 우리가 큐레이션한 풀에서 우리는 중지 결정에 대한 명시적 RL 훈련 방법을 찾지 못했습니다. 우리는 Kimi Agent Swarm, OpenAI Codex, Anthropic Claude Code 의 공업 증거를 연결합니다. 그 결과 규모 격차는 공개적으로 보고된 배포 범위와 오픈 학술 평가 제도의 차이이며, 산업 훈련 추적을 독립적으로 검증하는 것이 아닙니다. 우리는 https://github.com/xxzcc/awesome-llm-mas-rl 에 아티팩트를 게시하며, 84 개의 태그가 달린 논문 풀, 32 건의 제외 로그, 스크립트 corpus 통계, 그리고 재생 가능한编排 추적을 위한 최소 JSON 스키마를 포함합니다.

AI 자동 생성 콘텐츠

원문 바로가기

编排 추적을 통한 LLM 기반 다중 에이전트 시스템에 대한 강화 학습

요약

핵심 포인트

댓글