IR3DE: 대규모 언어 모델(LLM)을 위한 선형 라우터
요약
IR3DE는 다양한 도메인 전문가 LLM 중 프롬프트에 가장 적합한 모델을 저렴하고 빠르게 선택하는 Ridge 회귀 기반의 선형 라우터입니다. 기존 방식과 달리 추가 학습 없이도 새로운 모델을 동적으로 추가하거나 제거할 수 있어 효율적인 LLM 서비스 운영을 지원합니다.
핵심 포인트
- Ridge 회귀 기반의 빠르고 저렴한 선형 라우팅 방식 제안
- 추론(Reasoning) 설정에서 베이스라인을 능가하는 98.4% 성능 달성
- 재학습 없이 도메인 전문가 모델을 동적으로 추가 및 제거 가능
- CLM 및 추론 설정 모두에서 기존 모델들과 대등하거나 우수한 성능 입증
파운데이션 대규모 언어 모델 (Foundational Large Language Models, LLMs)은 광범위한 일반 작업에서 숙련도를 보여주며, 도메인 전문가 LLM (domain-expert LLMs)을 통해 다양한 특화 작업에서 놀라운 결과를 달성합니다. 사용 가능한 LLM의 목록이 계속 늘어남에 따라, 각 프롬프트(prompt)에 대해 가장 적합한 LLM을 선택하기 위한 추론 라우터 (inference routers)가 제안되고 있습니다. 그러나 기존의 라우팅 방법들은 약한 모델에서 강한 모델로 이어지는 일반론적 LLM 사이의 비용을 최적화하거나, 도메인 전문성 라우팅 (domain-expertise routing)을 지원하기 위해 상당한 학습을 요구합니다. 본 논문에서는 각 프롬프트에 대해 저렴하고 빠른 라우팅 결정을 제공하는 도메인 전문가를 위한 Ridge 회귀 기반 라우터인 IR3DE를 제안합니다. 우리는 모든 도메인에 대해 다음 토큰 예측 (next-token prediction)을 수행하는 인과적 언어 모델링 (Causal Language Modeling, CLM) 설정 두 가지와, 각 도메인이 고유한 추론 작업을 갖는 하나의 추론 (reasoning) 설정에서 IR3DE를 평가합니다. 선형 라우터임에도 불구하고, IR3DE는 두 CLM 설정 모두에서 다른 베이스라인 (baselines)과 대등한 성능을 달성하였으며, 추론 설정에서는 98.4%의 정규화된 성능을 기록하며 베이스라인들을 능가했습니다. 또한, IR3DE는 라우터를 처음부터 다시 학습시킬 필요 없이 새로운 도메인 전문가를 추가하거나 제거할 수 있게 하여, 라우터 자체에 대한 최소한의 중단만으로 동적인 LLM 세트를 서비스할 수 있도록 합니다. 우리의 코드는 다음에서 확인할 수 있습니다: github.com/gensyn-ai/IR3DE.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기