MOSAIC: 적응형 집계 및 추론 병렬성을 통한 효율적인 Mixture-of-Agent 스케줄링
요약
MOSAIC는 Mixture-of-Agents(MoA) 시스템의 GPU 자원 효율성을 극대화하기 위한 새로운 스케줄링 프레임워크입니다. ILP 기반의 최적화와 신뢰도 인식 적응형 집계 기술을 통해 정확도 손실 없이 추론 속도를 대폭 향상시킵니다.
핵심 포인트
- ILP 기반 스케줄러로 전문가 배치와 프롬프트 할당 최적화
- 전문가 간 합의를 활용해 무거운 최종 집계기 단계 생략 가능
- 엔드 투 엔드 추론 속도를 최대 2.3배까지 향상
- 정확도 저하를 0.1pp 이내로 최소화하며 효율성 달성
Mixture-of-Agents (MoA) 시스템은 각 쿼리를 여러 전문가 LLM (Large Language Models)으로 라우팅하고 그 출력들을 집계함으로써 추론 정확도를 향상시킵니다. 제한된 GPU 자원에서 이러한 워크로드를 효율적으로 실행하는 데에는 병목 현상이 존재합니다. 기술 기반 라우팅 (Skill-based routing)은 전문가 수요의 불균형을 초래하며, 지시어 튜닝된 (instruction-tuned) LLM과 긴 추론 모델 (long-reasoning models)을 결합하면 생성 길이의 극심한 변동성이 발생합니다. 결과적으로, 전통적인 스케줄링 전략은 부하 불균형으로 인해 심각한 GPU 유휴 상태 (idling) 및 처리량 붕괴 (throughput collapse)를 겪게 됩니다. 우리는 MoA 워크로드를 가속화하기 위한 스케줄링 프레임워크인 MOSAIC를 제안합니다. 첫째, 우리는 오프라인 프로파일링된 비용 (offline-profiled costs)을 바탕으로 전문가 배치와 작업자별 프롬프트 할당을 공동 최적화하는 정수 선형 계획법 (Integer Linear Program, ILP) 기반 스케줄러를 공식화하며, 경량 모델은 고정(pinning)하는 동시에 추론 전문가들은 작업자 전반에 복제합니다. 둘째, MOSAIC는 전문가 간의 합의 (inter-expert agreement)를 활용하여 합의가 이루어진 쿼리에 대해서는 무거운 최종 집계기 LLM (final aggregator LLM)을 건너뛰는 신뢰도 인식 적응형 집계 (confidence-aware adaptive aggregation)를 사용합니다. 4-GPU 시스템에서 MOSAIC는 베이스라인 스케줄러 대비 전문가 단계에서 최대 2.5배, 집계기 단계에서 4.23배, 그리고 엔드 투 엔드 (end-to-end)에서 1.7~2.3배의 속도 향상을 달성하는 동시에, 정확도는 0.1pp 이내로 유지합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기