멀티 에이전트 시스템을 위한 응답 조건부 병렬-순차 오케스트레이션 기법

멀티 에이전트 시스템 (Multi-agent systems)은 여러 개의 거대 언어 모델 (Large Language Model, LLM) 에이전트 간의 협업을 통해 복잡한 과업을 해결할 수 있습니다. 기존의 협업 프레임워크는 일반적으로 병렬 (parallel) 모드 또는 순차 (sequential) 모드 중 하나로 작동합니다. 병렬 모드에서는 에이전트들이 질의에 독립적으로 응답한 후 응답들을 집계합니다. 반면, 순차 시스템은 에이전트들이 유향 토폴로지 (directed topology)를 통해 서로 통신하며 단계별로 서로를 개선할 수 있도록 합니다. 그러나 두 모드 모두 통신과 지연 시간 (latency)을 최소화하는 동시에 최종 응답의 정확도를 극대화하려는 목표를 달성하기에는 불충분합니다.

본 연구에서는 두 모드 사이의 간극을 메우는 학습 가능한 응답 조건부 정책 (response-conditioned policy)인 Nexa라는 하이브리드 패러다임을 소개합니다. Nexa는 병렬 실행 단계로 시작하여, 생성된 응답들을 공유된 의미 공간 (semantic space)에 임베딩한 다음, 희소 유향 비순환 그래프 (sparse directed acyclic graph, DAG)를 예측합니다. 만약 그래프가 비어 있다면 시스템은 순수하게 병렬 상태를 유지하며, 그래프가 비어 있지 않다면 시스템은 한 번의 순차적 메시지 전파 (message propagation)를 수행합니다. 이 정책은 경량 트랜스포머 (transformer) 모델이며, 이 방법은 외부 LLM 판사 (LLM judges)나 보상 모델 (reward models), 또는 수작업으로 설계된 테스트 시간 토폴로지 탐색 (hand-crafted test-time topology search)을 필요로 하지 않습니다.

우리는 이 하이브리드 실행 문제를 공식화하고, 결과로 도출된 그래프가 구조적으로 비순환임을 보여주며, 이 프레임워크가 순수 병렬 실행을 엄격하게 포함 (subsumes)함을 증명합니다. 또한 정책 경사 최적화 (policy-gradient optimization)에 기반한 학습 절차를 제시합니다. 실험 결과, 하나의 설정에서 Nexa가 학습한 응답 조건부 정책은 에이전트의 수, 과업, 또는 기반이 되는 에이전트가 변경되더라도 재사용될 수 있음을 보여주었으며, 이를 통해 학습된 통신 정책의 일반화 가능성 (generalizability)을 강조합니다.

Insights

멀티 에이전트 시스템을 위한 응답 조건부 병렬-순차 오케스트레이션 기법

요약

핵심 포인트

댓글

AI 에이전트 ROI 사례 연구: 송장 대조(Invoice Reconciliation) 속도 73% 향상

내가 얻지 못한 호환성 주장

AI 테스트 자동화에는 맹목적인 신뢰가 아닌 검토 게이트(Review Gates)가 필요합니다

사례 연구: 실행 모드로서의 루프(Loop) — 제어력을 잃지 않으면서 에이전트가 반복하게 하는 방법

AI 에이전트 ROI 사례 연구: 송장 대조(Invoice Reconciliation) 속도 73% 향상

내가 얻지 못한 호환성 주장

AI 테스트 자동화에는 맹목적인 신뢰가 아닌 검토 게이트(Review Gates)가 필요합니다

사례 연구: 실행 모드로서의 루프(Loop) — 제어력을 잃지 않으면서 에이전트가 반복하게 하는 방법