Show HN: Arch-Router – 벤치마크가 아닌 선호도에 기반한 LLM 라우팅용 1.5B 모델
요약
Arch-Router는 벤치마크나 단순 의도 분류 대신 사용자의 평문 선호도 규칙을 기반으로 LLM을 선택하는 1.5B 규모의 경량 라우터 모델입니다. Rust 기반의 오픈 소스 프록시 Arch와 통합되어 작동하며, 재학습 없이도 복잡한 대화 문맥과 비용/지연 시간 효율성을 고려한 모델 라우팅을 지원합니다.
핵심 포인트
- 기존 임베딩 기반 분류기나 벤치마크 기반 라우팅의 한계를 극복하기 위해 평문 선호도 규칙 방식을 채택함
- 1.5B 파라미터의 경량 모델로 단일 GPU 또는 CPU에서도 실행 가능하며 높은 효율성을 제공함
- 의도 드리프트(intent drift)와 멀티턴 대화 문맥을 처리할 수 있어 실제 운영 환경에 적합함
- 재학습 없이도 사용자가 정의한 규칙에 따라 다양한 LLM 조합을 유연하게 교체 가능함
안녕하세요 HN — 저희는 Rust로 작성된 LLM용 오픈 소스 프록시(proxy)인 Arch(https://github.com/katanemo/archgw)를 개발한 팀입니다. 오늘 저희는 선호도 기반 라우팅(preference-based routing)을 위한 1.5B 라우터 모델인 Arch-Router(https://huggingface.co/katanemo/Arch-Router-1.5B)를 출시하며, 이를 프록시에 통합했습니다. 팀들이 각기 다른 강점, 스타일, 또는 비용/지연 시간(latency) 프로필을 가진 여러 LLM을 통합함에 따라, 적절한 프롬프트(prompt)를 적절한 모델로 라우팅하는 것은 애플리케이션 설계의 중요한 부분이 되었습니다. 하지만 이는 여전히 해결되지 않은 문제입니다. 대부분의 라우팅 시스템은 다음 두 가지 부류로 나뉩니다:
-
임베딩 기반 라우터(Embedding-based routers)는 의도 분류기(intent classifiers)를 사용합니다. 프롬프트를 “지원(support)”, “SQL”, 또는 “수학(math)”으로 라벨링한 다음 일치하는 모델로 라우팅합니다. 이는 단순한 작업에는 효과적이지만, 실제 대화에서는 한계가 있습니다. 사용자는 대화 도중에 주제를 바꾸고, 작업 경계가 모호해지며, 제품이 변경될 때마다 분류기를 재학습(retraining)해야 합니다.
-
성능 기반 라우터(Performance-based routers)는 MMLU 또는 MT-Bench와 같은 벤치마크(benchmarks)나 지연 시간(latency) 또는 비용 곡선에 따라 모델을 선택합니다. 하지만 벤치마크는 실제 운영 환경에서 중요한 요소, 즉 도메인 특화 품질이나 “법무팀이 이 조항을 수용할 것인가?”와 같은 주관적 선호도를 놓치는 경우가 많습니다.
Arch-Router는 다른 접근 방식을 취합니다. 평문(plain language)으로 작성된 선호도에 따라 라우팅합니다. 여러분은 “계약 조항(contract clauses) → GPT-4o” 또는 “빠른 여행 팁(quick travel tips) → Gemini Flash”와 같은 규칙을 작성합니다. 라우터는 경량 1.5B 자기회귀(autoregressive) 모델을 사용하여 프롬프트(및 대화 문맥)를 해당 규칙에 매핑합니다. 재학습도 필요 없고, 취약한 if/else 체인도 필요 없습니다. 저희는 Twilio와 Atlassian의 팀들로부터 피드백을 받아 이를 구축했습니다. 이 모델은 의도 드리프트(intent drift)를 처리하고, 멀티턴 대화(multi-turn conversations)를 지원하며, 라우팅 정책을 한 줄만 변경하여 모델을 교체할 수 있게 해줍니다. 자세한 내용은 저희 논문(https://arxiv.org/abs/2506.16655)에 나와 있지만, 요약하자면 다음과 같습니다:
사양(Specs):
-
1.5B 파라미터(params) — 단일 GPU(또는 테스트용 CPU)에서 실행 가능
-
재학습 불필요 — 어떤 조합의 LLM이든 지정 가능
-
비용 및 지연 시간 인식 — 무거운 작업은 비싼 모델로, 가벼운 작업은 더 빠르고 저렴한 모델로 라우팅
-
당사의 대화형 라우팅 벤치마크 (conversational routing benchmarks)에서 더 큰 규모의 폐쇄형 모델 (closed models)보다 뛰어난 성능을 발휘합니다 (자세한 내용은 논문 참조)
링크:
-
Arch Proxy (오픈 소스): https://github.com/katanemo/archgw
AI 자동 생성 콘텐츠
본 콘텐츠는 HN Code Generation의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기