본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 05:37

Brick: Mixture-of-Models (MoM) 패러다임을 위한 공간 능력 라우팅

요약

Brick은 기존 LLM 라우터의 한계를 극복하기 위해 제안된 멀티모달 라우터입니다. 이 시스템은 쿼리별 난이도 추정치와 모델의 여섯 가지 능력 차원 점수를 결합하여 비용 페널티가 적용된 기하학적 규칙으로 요청을 디스패치합니다. 테스트 결과, Brick은 최대 품질 설정에서 최고 성능을 달성했으며, 중립적인 프로파일에서도 높은 정확도를 유지하며 비용 효율성을 크게 개선했습니다.

핵심 포인트

  • Brick은 쿼리 난이도와 모델의 능력 차원을 결합한 멀티모달 라우터입니다.
  • 최대 품질 설정에서 기존 최고의 단일 모델보다 높은 정확도를 달성했습니다.
  • 중립적인 비용-품질 프로파일에서 비용을 크게 절감하며 성능을 유지합니다.
  • 운영자가 선호도 노브를 통해 최대 품질과 최대 절약 사이를 조정할 수 있습니다.

쿼리 난이도를 정의하는 것은 배포 엔지니어링에서 가장 어려운 문제 중 하나입니다. 기존의 LLM 라우터들은 도메인 레이블, 키워드, 토큰 수와 같은 표면적 특징에 의존하며, 실제 모델 성공을 결정하는 도메인 내부의 가변성을 무시합니다. Frontier 모델은 로컬 오픈 웨이트 모델보다 10배에서 100배 더 비용이 많이 들기 때문에, 프로덕션 규모에서는 요청당 작은 절약도 직접적인 클라우드 청구서 레버가 됩니다. 우리는 각 모델을 여섯 가지 능력 차원(capability dimensions)으로 점수화하고, 이를 쿼리별 난이도 추정치와 결합하여 비용 페널티가 적용된 기하학적 규칙을 통해 디스패치하는 멀티모달 라우터인 Brick을 제시합니다. 연속적인 선호도 노브를 통해 운영자는 배포 시 최대 품질(max-quality)과 최대 절약(max-saving) 프로파일 사이를 조정할 수 있습니다. 5,504개의 쿼리 벤치마크에서, Brick은 최대 품질 설정에서 76.98%의 정확도를 달성하여 최고의 단일 모델(75.02%)과 테스트된 모든 라우터를 능가했습니다. 중립적인 비용-품질 프로파일에서는, Brick이 가장 강력한 모델을 항상 사용하는 것보다 4.71배 낮은 비용으로 74.11%의 정확도를 달성합니다. 최소 비용 설정에서는 비용을 22.15배 절감하면서 정확도는 11.85점 하락했습니다. 중앙값 지연 시간은 51.2초에서 22.8초로 감소했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0