ComplianceGate: 규제 산업 내 추론을 위한 분류기 게이트 방식의 다계층 LLM 라우팅
요약
규제 산업 내 LLM 배포를 위해 데이터 민감도와 질의 복잡도를 사전에 평가하는 '분류기 게이트 라우팅' 아키텍처를 제안합니다. 이 방식은 PII 포함 여부에 따라 적절한 모델로 라우팅하여 데이터 거주성을 보장하고 비용과 지연 시간을 획기적으로 줄입니다.
핵심 포인트
- 분류기 게이트 방식을 통한 설계 단계부터의 규제 준수(Compliance-by-design) 구현
- PII 포함 질의를 로컬 엔드포인트로 사전 라우팅하여 데이터 유출 방지
- 질의 복잡도에 따른 모델 최적화로 비용 33~52% 절감 및 지연 시간 39% 감소
- 기존 베이스라인 대비 생성 처리량(Throughput) 대폭 향상
규제 산업(Regulated industries)에 배포된 대규모 언어 모델(Large language models, LLM)은 준수(Compliance) 강제와 비용 효율성이라는 두 가지 제약 조건 하에서 작동합니다. 사용자 질의(Query)에 포함된 개인정보(Personally identifiable information, PII)는 시스템이 해당 데이터의 관할 구역 경계를 벗어나도 되는지 결정하기 전에 모델 엔드포인트(Endpoint)에 도달할 수 있습니다. 모든 질의를 단일 대형 모델을 통해 처리하는 것은 질의 복잡도와 관계없이 전체 GPU 용량을 소비하며, 지리적 라우팅(Geographic routing)을 위한 메커니즘도 제공하지 않습니다. 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처는 데이터가 이미 엔드포인트에 도착한 후 모델 내부의 전문가 계층(Expert layers) 사이에서 라우팅이 발생하며, 질의 복잡도와 상관없이 모든 전문가가 메모리에 로드된다는 점에서 이 문제를 해결하지 못합니다.
우리는 설계 단계부터 준수를 강제하는 분류기 게이트 라우팅(Classifier-gated routing) 아키텍처를 제안합니다. 학습된 인코더 분류기(Encoder classifier)가 디코더 추론(Decoder inference) 이전에 위치하여, 각 질의의 복잡도와 데이터 민감도를 평가한 후 적절한 지리적 위치에 있는 적절한 크기의 밀집 모델(Dense model)로 라우팅합니다. PII를 포함하는 질의는 LLM 연산이 시작되기 전에 로컬 엔드포인트로 라우팅되어, 데이터 거주성(Data residency) 위반이 구조적으로 불가능하게 만듭니다. 단순한 질의는 훨씬 적은 비용으로 작고 빠른 모델에 도달합니다.
600개의 질의에 대한 평가 결과, 중앙값 지연 시간(Median latency) 39% 감소, 질의 분포에 따라 3352%의 비용 절감, 그리고 베이스라인의 5064 tokens/second 대비 122~200 tokens/second의 생성 처리량(Generation throughput)을 입증했습니다. 인코더 분류기는 7ms의 추론 오버헤드(Inference overhead)로 거의 완벽한 PII 재현율(Recall)과 함께 99.2%의 정확도를 달성하였으며, 이는 추론 전 분류(Pre-inference classification)가 설계에 의한 준수(Compliance-by-design) LLM 배포를 위한 실질적인 경로임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기