소프트웨어 설계 개선을 위한 LLM 컨소시엄: 멀티 에이전트 협업 토폴로지에 관한 통제 실험
요약
소프트웨어 아키텍처 설계를 위한 12가지 멀티 에이전트 LLM 협업 토폴로지를 비교 분석한 연구입니다. 실험 결과, 구조적 적대적 방식(v4b)이 가장 우수한 성능을 보였으며, 병렬 병합 방식은 토큰 기아 현상으로 인해 가장 낮은 성능을 기록했습니다.
핵심 포인트
- 구조적 적대적 방식(v4b)이 설계 품질 1위 기록
- 교차 모델 리뷰 방식이 성능 2위로 확인됨
- 병렬 병합 방식은 토큰 기아 및 프랑켄슈타인 효과로 인해 결함 발견
- 평가 모델(GPT, Claude) 간의 설계 품질 판단 기준 차이 존재
우리는 소프트웨어 아키텍처 설계(software architecture design)를 위해 12가지 멀티 에이전트 LLM 협업 토폴로지(collaboration topologies)를 평가하는 통제 실험을 제시합니다. $2\times2\times2$ 요인 설계(Authority $\times$ Roles $\times$ Dynamics)를 사용하여, 다양한 복잡도를 가진 8가지 설계 작업에 대해 각각 5회씩 반복하여 총 520회의 실험 실행을 수행했습니다. 설계 결과는 세 명의 독립적인 자동 평가자(GPT-OSS 120B, Claude Opus 4.6, Claude Sonnet 4.6)에 의해 12차원 루브릭(rubric)으로 평가되었습니다. 우리는 네 가지 핵심 발견 사항을 보고합니다. 첫째, 구조적 적대적 방식(structural adversarial, v4b)이 앙상블 결과 1위를 차지했습니다. 이는 패치(patch)가 아닌 재작성 명령(rewrite mandates)을 요구하는 프롬프트 엔지니어링된 적대적 변형 방식입니다(가중 앙상블: 4.637/5.0). 둘째, 교차 모델 리뷰(cross-model review)가 만장일치로 2위를 차지했습니다. 즉, 한 모델로 생성하고 다른 모델로 리뷰하는 방식이며, 세 평가자 모두에 의해 2위로 선정되었습니다(가중 앙상블: 4.606). 셋째, 평가자 다양성 자체가 하나의 발견입니다. 세 평가자 모두 v4b가 가장 우수하고 v3가 가장 최악이라는 점에는 동의하지만, v2b에 대해서는 날카로운 의견 차이를 보였습니다(Claude d=1.44 vs. GPT-OSS d=0.45). 이는 서로 다른 모델 제품군(model families)이 설계 품질을 가중하는 방식이 어떻게 다른지를 보여줍니다. 넷째, 병렬 병합(parallel merge)은 근본적으로 결함이 있습니다. 세 평가자 모두 병합 변형 방식들을 최하위 계층(3.65-3.79)에 배치했는데, 이는 토큰 기아(token starvation) 현상과 프랑켄슈타인 효과(Frankenstein effect) 때문입니다. 가중 앙상블($2\times$Opus + $2\times$Sonnet + $1\times$GPT-OSS)은 520회의 실행에 걸쳐 견고한 순위를 제공하며, 이는 독립적인 교차 검증(cross-validation)을 통해 확인되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기