본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 20:03

멀티 에이전트 시스템을 위한 응답 조건부 병렬-순차 오케스트레이션 기법

요약

본 연구는 멀티 에이전트 시스템의 효율성을 높이기 위해 병렬 모드와 순차 모드를 결합한 하이브리드 패러다임인 Nexa를 제안합니다. Nexa는 경량 트랜스포머를 사용하여 응답 조건부 정책을 학습하며, 생성된 응답을 바탕으로 희소 유향 비순환 그래프(DAG)를 예측하여 최적의 통신 구조를 결정합니다. 이를 통해 외부 LLM 판사나 복잡한 탐색 없이도 지연 시간을 최소화하면서 응답의 정확도를 극대화할 수 있습니다.

핵심 포인트

  • 병렬 실행과 순차적 메시지 전파를 유연하게 결합하는 하이브리드 오케스트레이션 기법 제안
  • 경량 트랜스포머 기반의 응답 조건부 정책을 통해 별도의 LLM 판사나 보상 모델 없이 동작 가능
  • 예측된 그래프가 구조적으로 비순환(DAG)임을 보장하여 시스템의 안정성 확보
  • 정책 경사 최적화를 통해 학습된 정책이 에이전트 수나 과업 변화에도 높은 일반화 성능을 보임

멀티 에이전트 시스템 (Multi-agent systems)은 여러 개의 거대 언어 모델 (Large Language Model, LLM) 에이전트 간의 협업을 통해 복잡한 과업을 해결할 수 있습니다. 기존의 협업 프레임워크는 일반적으로 병렬 (parallel) 모드 또는 순차 (sequential) 모드 중 하나로 작동합니다. 병렬 모드에서는 에이전트들이 질의에 독립적으로 응답한 후 응답들을 집계합니다. 반면, 순차 시스템은 에이전트들이 유향 토폴로지 (directed topology)를 통해 서로 통신하며 단계별로 서로를 개선할 수 있도록 합니다. 그러나 두 모드 모두 통신과 지연 시간 (latency)을 최소화하는 동시에 최종 응답의 정확도를 극대화하려는 목표를 달성하기에는 불충분합니다.

본 연구에서는 두 모드 사이의 간극을 메우는 학습 가능한 응답 조건부 정책 (response-conditioned policy)인 Nexa라는 하이브리드 패러다임을 소개합니다. Nexa는 병렬 실행 단계로 시작하여, 생성된 응답들을 공유된 의미 공간 (semantic space)에 임베딩한 다음, 희소 유향 비순환 그래프 (sparse directed acyclic graph, DAG)를 예측합니다. 만약 그래프가 비어 있다면 시스템은 순수하게 병렬 상태를 유지하며, 그래프가 비어 있지 않다면 시스템은 한 번의 순차적 메시지 전파 (message propagation)를 수행합니다. 이 정책은 경량 트랜스포머 (transformer) 모델이며, 이 방법은 외부 LLM 판사 (LLM judges)나 보상 모델 (reward models), 또는 수작업으로 설계된 테스트 시간 토폴로지 탐색 (hand-crafted test-time topology search)을 필요로 하지 않습니다.

우리는 이 하이브리드 실행 문제를 공식화하고, 결과로 도출된 그래프가 구조적으로 비순환임을 보여주며, 이 프레임워크가 순수 병렬 실행을 엄격하게 포함 (subsumes)함을 증명합니다. 또한 정책 경사 최적화 (policy-gradient optimization)에 기반한 학습 절차를 제시합니다. 실험 결과, 하나의 설정에서 Nexa가 학습한 응답 조건부 정책은 에이전트의 수, 과업, 또는 기반이 되는 에이전트가 변경되더라도 재사용될 수 있음을 보여주었으며, 이를 통해 학습된 통신 정책의 일반화 가능성 (generalizability)을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0