멀티 에이전트 시스템(Multi-Agent Systems), 에이전트 4개 초과 시 수익 체감 발생

요약

멀티 에이전트 시스템에서 에이전트 수를 무조건 늘리는 것이 성능 향상을 보장하지 않는다는 연구 결과가 발표되었습니다. 모델의 성능에 따라 최적의 에이전트 수가 다르며, 임계치를 넘으면 정보 중복과 조정 오버헤드로 인해 오히려 성능이 저하됩니다.

핵심 포인트

에이전트 수와 성능은 단조 증가가 아닌 포물선 관계임
약한 모델(3B)은 4개, 강한 모델(8B)은 2개에서 성능 정점 도달
정보 중복 및 조정 오버헤드가 주요 성능 저하 원인
에이전트 수보다 상호작용 설계(Interaction design)가 더 중요함

LLM(대규모 언어 모델) 기반 멀티 에이전트 시스템에 에이전트를 더 추가하는 것은 작업 의존적인 최적점을 지나면 성능을 저하시킵니다. 성능이 낮은 모델은 4개의 에이전트에서 정점에 도달하며, 더 강력한 모델은 2개에서 정점에 도달합니다.

여러 기관의 연구진이 발표한 새로운 연구에 따르면, 단일 LLM 기반 멀티 에이전트 시스템에 에이전트를 더 추가하는 것은 작업 의존적인 최적점을 지나면 성능을 저하시킵니다. @omarsar0가 X(구 트위터)를 통해 공유한 이 논문은 Llama-3.2-3B와 같은 약한 모델은 4개의 에이전트에서 정점에 도달하는 반면, Llama-3.1-8B와 같은 더 강력한 모델은 2개에서 정점에 도달한다고 보고합니다.

핵심 사실

최적 에이전트 수: 3B 모델은 4개, 8B 모델은 2개
최적치를 초과하여 에이전트를 추가하면 MATH-500 정확도가 감소함
연구 대상: Llama-3.2-3B, Llama-3.1-8B, GPT-4o-mini
정보 중복(Information redundancy) 및 조정 오버헤드(Coordination overhead)가 실패 모드로 확인됨
에이전트의 수보다 상호작용 설계(Interaction design)가 더 중요함

멀티 에이전트 시스템(Multi-agent system) 설계의 지배적인 가정은 더 많은 에이전트가 더 나은 집단 지성을 산출한다는 것이었습니다. 새로운 프리프린트(Preprint) 논문은 에이전트 수와 성능 사이의 관계가 단조 증가(Monotonic)가 아닌 포물선(Parabolic) 형태임을 보여줌으로써 이 가설에 직접적으로 도전합니다.

연구 방식

연구진은 MATH-500, GSM8K, MMLU를 포함한 추론 벤치마크에서 여러 베이스 모델(Llama-3.2-3B, Llama-3.1-8B, GPT-4o-mini)을 사용하여 단일 LLM 기반 멀티 에이전트 시스템을 테스트했습니다. 이들은 상호작용 프로토콜(구조화된 메시지를 통한 에이전트 간 통신)을 고정한 채 에이전트 수를 1개에서 10개까지 변화시켰습니다. [arXiv 프리프린트에 따르면]

핵심 결과: 약한 베이스 모델(3B 파라미터)의 경우, 성능은 1개에서 4개의 에이전트까지 상승하다가 이후 하락합니다. 더 강력한 모델(8B 파라미터)의 경우, 최적점은 단 2개의 에이전트이며, 더 많이 추가하면 복잡한 수학 및 추론 작업의 정확도가 떨어집니다. GPT-4o-mini 또한 이와 유사한 조기 정점(Early-peak) 동작을 보였습니다.

왜 더 많은 에이전트가 해로운가

이 논문은 두 가지 실패 모드(failure modes)를 식별합니다: 정보 중복(information redundancy)과 조정 오버헤드(coordination overhead)입니다. 에이전트 수가 증가함에 따라 에이전트들은 중복되는 추론 흔적(reasoning traces)을 생성하며, 에이전트이자 오케스트레이터(orchestrator) 역할을 동시에 수행하는 단일 LLM은 상충하는 출력값들을 통합하는 데 어려움을 겪습니다. 저자들은 "집단 지성은 에이전트의 다수성(plurality)이 아니라 상호작용 설계(interaction design)로부터 나타난다"라고 기술했습니다. [arXiv 프리프린트에 따르면]

이는 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처에 관한 이전 연구 결과와도 일맥상통하는데, 해당 연구에서는 라우팅(routing) 품질이 일정 수 이상의 전문가를 넘어서면 저하되는 현상이 나타났습니다. 본 연구는 그 통찰을 멀티 에이전트 시스템(multi-agent systems)으로 확장하여, 병목 현상이 에이전트 수 그 자체 때문이 아니라 다중 소스 입력을 처리하는 기본 모델(base model)의 역량 때문임을 시사합니다.

실무적 시사점

멀티 에이전트 워크플로우(multi-agent workflows)를 구축하는 엔지니어들에게: "더 나은 추론을 위해 더 많은 에이전트를 추가한다"는 기본 설정은 틀렸을 가능성이 높습니다. 최적의 에이전트 수는 기본 모델의 능력과 작업 복잡도(task complexity) 모두의 함수이며, 거의 항상 5개 미만입니다. 논문은 강력한 모델의 경우 2개의 에이전트로 시작하고, 약한 모델의 경우 4개로 시작한 뒤, 아래 방향으로 튜닝(tuning)할 것을 권장합니다.

AP 통신사가 놓칠 법한 독특한 관점은 다음과 같습니다: 이 결과는 멀티 에이전트 시스템이 추론 확장을 위한 공짜 점심(free lunch)이 아님을 시사합니다. 진정한 레버(lever)는 인원수가 아니라 상호작용 설계(프롬프트 구조, 통신 프로토콜, 에이전트 역할)입니다. CrewAI나 AutoGen과 같이 멀티 에이전트 프레임워크를 판매하는 기업들은 자신들의 기본 설정(default configurations)을 재조정해야 할 수도 있습니다.

주목해야 할 점

더 큰 기본 모델(70B+)과 역할 기반 위임(role-based delegation)과 같이 더 정교한 상호작용 프로토콜을 사용하여 이러한 스케일링 동작(scaling behavior)을 테스트하는 후속 연구를 주목하십시오. 또한 CrewAI와 AutoGen이 이 발견을 바탕으로 업데이트된 기본 에이전트 수를 출시하는지도 모니터링해야 합니다.

원문은 gentic.news에 게시되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기