arXiv논문2026. 06. 05. 14:06

메타 러닝 (Meta-Learning)을 통한 암묵적 비용-성능 선호도 기반의 LLM 라우팅 학습

요약

사용자의 암묵적 비용-성능 선호도를 학습하여 개인화된 LLM 라우팅을 수행하는 MetaRouter 프레임워크를 제안합니다. 컨텍스츄얼 밴딧과 메타 러닝을 결합하여 적은 상호작용만으로도 사용자 맞춤형 최적화를 달성합니다.

핵심 포인트

사용자의 암묵적 비용-성능 선호도 반영
메타 러닝 기반의 MetaRouter 프레임워크 제안
컨텍스츄얼 밴딧을 통한 선호도 프로필 공식화
기존 베이스라인 대비 높은 효율성 및 강건성 입증

대규모 언어 모델 (LLMs)은 성능과 비용 사이의 트레이드오프 (trade-off) 관계를 보여주며, 더 강력한 모델일수록 더 큰 비용이 발생합니다. LLM 라우팅 (LLM routing)은 쿼리를 가장 적합한 모델로 전송함으로써 성능을 유지하면서 비용을 완화하는 것을 목표로 합니다. 그러나 기존 방식들은 서로 다른 사용자의 비용-성능 선호도를 잘 반영하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 적은 상호작용을 통해 사용자의 암묵적 선호도를 효율적으로 학습하여 개인화되고 사용자 중심적인 비용-성능 최적화를 수행하는 새로운 인지적 LLM 라우팅 패러다임을 소개합니다. 이질적인 사용자 요구 사항의 문제를 해결하기 위해, 우리는 선호도 프로필을 컨텍스츄얼 밴딧 (contextual bandit) 내의 일련의 별도 작업들로 공식화하고, 선호도를 인식하는 LLM 라우팅을 위해 설계된 메타 러닝 (meta-learning) 프레임워크인 MetaRouter를 제안합니다. 실험 결과에 따르면 MetaRouter는 분포 내 (in-distribution) 및 분포 외 (out-of-distribution) 작업 모두에서 강력한 베이스라인 (baselines) 모델들을 능가합니다. 또한, 사용자 선호도를 학습하는 데 있어 높은 효율성, 라우팅 가능한 LLM의 변화에 대한 강건성 (robustness), 그리고 다중 모델 라우팅에 대한 확장성 (scalability)을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

메타 러닝 (Meta-Learning)을 통한 암묵적 비용-성능 선호도 기반의 LLM 라우팅 학습

요약

핵심 포인트

댓글