arXiv논문2026. 06. 12. 18:55

ARMOR-MAD: 대규모 언어 모델 추론을 위한 이종 다중 에이전트 토론의 적응형 라우팅

요약

본 논문은 LLM 추론 능력을 향상시키는 다중 에이전트 토론(MAD)의 비효율성을 개선한 ARMOR-MAD 프레임워크를 제안합니다. ARMOR-MAD는 사전 합의 라우팅, 조기 중단 평가자, 의미적 아웃라이어 탐지 기능을 결합하여 계산 자원 낭비를 줄이고 정확도를 높입니다. 다양한 벤치마크에서 기존 방식 대비 높은 성능 향상을 입증했습니다.

핵심 포인트

ARMOR-MAD는 조건부 컴퓨팅을 도입한 이종 다중 에이전트 토론 프레임워크이다.
사전 합의 라우팅(PAR)으로 불필요한 토론 과정을 건너뛰어 효율성을 높인다.
조기 중단 평가자(EASE)와 의미적 아웃라이어 탐지(SOD)로 정확도와 안정성을 개선했다.

다중 에이전트 토론(Multi-agent debate, MAD)은 대규모 언어 모델(LLM)의 추론 능력을 향상시킬 수 있지만, 고정된 토론 파이프라인은 종종 계산 자원을 낭비하고 유사한 에이전트들 사이에서 상관관계가 있는 오류를 증폭시킬 수 있습니다. 우리는 토론을 조건부 컴퓨팅(conditional computation)으로 취급하는 학습 과정이 필요 없는 이종 다중 에이전트 토론 프레임워크인 ARMOR-MAD를 제안합니다. ARMOR-MAD는 세 가지 구성 요소를 결합합니다: 사전 토론 합의 라우팅(Pre-debate Agreement Routing, PAR)은 독립적으로 생성된 Round-0 답변이 토론을 필요로 하는지 결정하고; 조기 합의 중단 평가자(Early Agreement Stopping Evaluator, EASE)는 수렴 후 토론을 중단시키며; 의미적 아웃라이어 탐지(Semantic Outlier Detection, SOD)는 집계 과정에서 비정상적인 최종 답변의 가중치를 낮춥니다. MATH Level 5, GSM8K, MMLU, 그리고 MMLU-Pro 전반에 걸쳐 ARMOR-MAD는 동일한 모델 풀을 사용한 고정 라운드 이종 토론보다 일관되게 성능이 향상되어 각각 65.5%, 96.5%, 90.0%, 81.5%의 정확도를 달성했습니다. 이러한 결과는 진정한 모델 이질성과 합의 기반 제어가 MAD를 더 정확하고 효율적으로 만드는 데 모두 중요함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ARMOR-MAD: 대규모 언어 모델 추론을 위한 이종 다중 에이전트 토론의 적응형 라우팅

요약

핵심 포인트

댓글