编排 추적을 통한 LLM 기반 다중 에이전트 시스템에 대한 강화 학습
요약
본 기술 기사는 LLM 기반 다중 에이전트 시스템에 강화 학습(RL)을 적용하는 방법을 제시하며, 특히 '오케스트레이션 트랙킹(Orchestration Tracking)'이라는 시간적 상호작용 그래프를 통해 접근합니다. 이 프레임워크는 서브 에이전트 생성, 작업 위임, 통신, 도구 사용, 집계 및 중지 결정 등 복잡한 다단계 과정을 포괄적으로 최적화하는 데 초점을 맞춥니다. 연구 결과에 따르면, 효과적인 RL을 위해서는 병렬 속도 향상, 분할 정확도 등을 고려한 다양한 오케스트레이션 보상 설계가 필요하며, 토큰 단위부터 팀 전체까지 크레딧 신호를 부여하는 정교한 메커니즘이 요구됩니다. 또한, 중지 결정과 같은 핵심 하위 결정에 대한 명시적인 RL 훈련 방법론을 구축하고 아티팩트를 공개하여 연구 커뮤니티의 발전을 도모합니다.
핵심 포인트
- LLM 다중 에이전트 시스템 최적화를 위해 '오케스트레이션 트랙킹'이라는 시간적 상호작용 그래프를 활용한다.
- RL 보상 설계는 단순한 행동 단위가 아닌, 병렬 속도 향상 및 집계 품질을 포함하는 오케스트레이션 레벨에서 이루어져야 한다.
- 토큰 수준부터 팀 전체까지 크레딧 신호를 부여하여 책임 소재(Credit Assignment) 문제를 해결해야 한다.
- 에이전트의 생명주기 전반(생성, 위임, 통신, 집계, 중지 등)을 포괄하는 5가지 핵심 하위 결정으로 RL 학습을 분해한다.
- 연구 결과와 아티팩트를 공개하여 재현 가능한 오케스트레이션 추적 및 최소 JSON 스키마를 제공한다.
대형 언어 모델 (LLM) 에이전트가 고립된 도구 사용자에서 조정된 팀으로 진화함에 따라, 강화 학습 (RL) 은 개별 행동뿐만 아니라 작업의 생성, 위임, 통신, 집계, 중지 방식을 최적화해야 합니다. 본 논문은 LLM 기반 다중 에이전트 시스템에 대한 RL 을编排 추적을 통해 연구합니다: 이벤트가 서브 에이전트 생성, 위임, 통신, 도구 사용, 반환, 집계, 중지 결정 등을 포함하는 시간적 상호작용 그래프입니다. 이 렌즈를 사용하여 우리는 세 가지 기술적 축을 식별했습니다. 첫째, 보상 설계는 병렬 속도 향상, 분할 정확도, 집계 품질을 위한编排 보상을 포함한 8 개 계열을 포함합니다. 둘째, 보상 및 크레딧 신호는 토큰에서 팀까지의 8 개의 크레딧 또는 신호를 부르는 단위에 부착되며, 명시적 반례 메시지 수준 크레딧은 우리가 큐레이션한 풀에서 특히 희소합니다. 셋째,编排 학습은 언제 생성할지, 누구에게 위임할지, 어떻게 통신할지, 어떻게 집계할지, 언제 중지할지에 대한 5 개의 하위 결정으로 분해됩니다. 2026 년 5 월 4 일까지의 우리가 큐레이션한 풀에서 우리는 중지 결정에 대한 명시적 RL 훈련 방법을 찾지 못했습니다. 우리는 Kimi Agent Swarm, OpenAI Codex, Anthropic Claude Code 의 공업 증거를 연결합니다. 그 결과 규모 격차는 공개적으로 보고된 배포 범위와 오픈 학술 평가 제도의 차이이며, 산업 훈련 추적을 독립적으로 검증하는 것이 아닙니다. 우리는 https://github.com/xxzcc/awesome-llm-mas-rl 에 아티팩트를 게시하며, 84 개의 태그가 달린 논문 풀, 32 건의 제외 로그, 스크립트 corpus 통계, 그리고 재생 가능한编排 추적을 위한 최소 JSON 스키마를 포함합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기