ComplianceGate: 규제 산업 내 추론을 위한 분류기 게이트 방식의 다계층 LLM 라우팅

규제 산업(Regulated industries)에 배포된 대규모 언어 모델(Large language models, LLM)은 준수(Compliance) 강제와 비용 효율성이라는 두 가지 제약 조건 하에서 작동합니다. 사용자 질의(Query)에 포함된 개인정보(Personally identifiable information, PII)는 시스템이 해당 데이터의 관할 구역 경계를 벗어나도 되는지 결정하기 전에 모델 엔드포인트(Endpoint)에 도달할 수 있습니다. 모든 질의를 단일 대형 모델을 통해 처리하는 것은 질의 복잡도와 관계없이 전체 GPU 용량을 소비하며, 지리적 라우팅(Geographic routing)을 위한 메커니즘도 제공하지 않습니다. 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처는 데이터가 이미 엔드포인트에 도착한 후 모델 내부의 전문가 계층(Expert layers) 사이에서 라우팅이 발생하며, 질의 복잡도와 상관없이 모든 전문가가 메모리에 로드된다는 점에서 이 문제를 해결하지 못합니다.

우리는 설계 단계부터 준수를 강제하는 분류기 게이트 라우팅(Classifier-gated routing) 아키텍처를 제안합니다. 학습된 인코더 분류기(Encoder classifier)가 디코더 추론(Decoder inference) 이전에 위치하여, 각 질의의 복잡도와 데이터 민감도를 평가한 후 적절한 지리적 위치에 있는 적절한 크기의 밀집 모델(Dense model)로 라우팅합니다. PII를 포함하는 질의는 LLM 연산이 시작되기 전에 로컬 엔드포인트로 라우팅되어, 데이터 거주성(Data residency) 위반이 구조적으로 불가능하게 만듭니다. 단순한 질의는 훨씬 적은 비용으로 작고 빠른 모델에 도달합니다.

600개의 질의에 대한 평가 결과, 중앙값 지연 시간(Median latency) 39% 감소, 질의 분포에 따라 33~~52%의 비용 절감, 그리고 베이스라인의 50~~64 tokens/second 대비 122~200 tokens/second의 생성 처리량(Generation throughput)을 입증했습니다. 인코더 분류기는 7ms의 추론 오버헤드(Inference overhead)로 거의 완벽한 PII 재현율(Recall)과 함께 99.2%의 정확도를 달성하였으며, 이는 추론 전 분류(Pre-inference classification)가 설계에 의한 준수(Compliance-by-design) LLM 배포를 위한 실질적인 경로임을 입증합니다.

Insights

ComplianceGate: 규제 산업 내 추론을 위한 분류기 게이트 방식의 다계층 LLM 라우팅

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들